在数据库世界中没有万灵丹,选择哪个数据完全取决于你自己,你要实现的目标,有多少数据需要存储,你应用程序使用的操作系统和语言平台,你的预算,以及是否需要数据仓库,BI或决策支持系统等。
背景
我的许多朋友,开发人员,应用和系统架构师,有时甚至是系统管理员经常问我同类型的问题:“Bo,在我的应用中该使用SQL Server还是使用Oracle数据库?”,“BO,我应该将我的Sybase数据库迁移到SQL Server吗?”,“哪个数据库(平台)是最好的?”,“为什么我们不使用开源数据库,如MySQL或PostgreSQL?”。所有这些问题基本上都是相同的 —— 哪个数据库平台最适合某个应用程序,或是哪个数据库平台对IT和业务最有意义?
为了回答这些问题,在我推荐任何数据库平台之前,我会问他们更多的问题(通常是十多个),很多时候人们不理解为什么一个简单的问题会引发这么多问题。
其实很多人不知道为什么他/她需要一个数据库,什么是关系数据库,数据库与电子表格之间的差异(以及各自的优缺点),该用Access数据库还是SQL Server数据库,或应用程序能从数据库平台获得什么好处。
虽然我不是在这里宣传数据库是什么,但我知道对IT和非IT人员谈论数据库完全不是一回事,我不想被称为以数据库为中心的呆子,不过我认为在21世纪,人们一直在谈论BI(商业智能),我也认为最灵活,最复杂和最易维护的系统是由数据驱动的,产生的数据量多了就得用数据库来保存。下面我对最流行的数据库平台只做简要的介绍,并根据我的经验和与其它IT界朋友的互动,介绍一下人们是怎么使用这些数据库的。
下面我19年来使用过的数据库:
dBase/FoxBase/FoxPro in the DOS/Novell/Windows 3.x world
MS SQL Server (6.5,7.0,2000,2005 and 2008)
Oracle (7, 8/8i,9i,10g)
Sybase SQL/ASE Servers (4.9.2, 10, 11, 11.9.2, 12/12.5, 15.x)
Sybase IQ 12.6/12.7
Informix/Dynamic (6, 7)
MySQL (4, 5/5.1)
PostGreSQL (8.3.5)/EnterpriseDB
此外,我参加了一系列的数据库选型评估,如Vhayu和OneTick,我在各行业也有过内存数据库使用经历,如Oracle TimesTen和Sybase ASE内存版本(Sybase RAP商业版的一部分,它已成为时间序列数据库领域的一个强力竞争者,特别是去年初和CEP集成后,影响越来越大)。
我曾经担任过公司全职员工或不同公司不同项目的顾问,真的觉得在数据库世界中确实没有银弹,选择什么数据库主要取决于以下几方面因素:
你是谁;
你要实现的目标(业务/功能要求,性能/可靠性/可扩展性/可用性要求);
当前数据库存储了多少数据;
应用程序要选择的操作系统和语言平台;
你的预算有多少;
你是否想/需要构建一个数据仓库,BI或决策支持系统。
比较不同的数据库系统就象比较不同的开发平台和操作系统平台:
Java/J2EE与(C#, VB)/.NET比较
Windows与Linux/UNIX比较
Linux与私有UNIX系统如AIX/HP-UX/Solaris/Tru64/Irix比较
Unix与OpenMVS/UniSys/Tandem/IBM Mainframe比较
如果我们在前端办公应用系统,如订单录入,银行或电信系统中不需要数据库(主要是担忧锁/阻塞,延迟和低I/O等),我们只希望使用数据库来存储事实数据,或使用数据库来备份数据。
当然,所有关系数据库都提供了不同的功能,即使它们都声称遵循ANSI SQL和SQL-92标准,但实际上都有自己的一套SQL语言,这就好比Websphere/Weblogic/Oracle App Server/Sybase Eserver/Jboss之间的关系,它们是J2EE的不同实现,都兼容J2EE规范,但也有自己的扩展和变化。
关键任务(OLTP)和高性能系统
如果我们需要数据库在关键业务系统中发挥更重要的作用,并希望做到无故障时间/高可用/集群,可靠性(性能和数据量),灾难复制和自动生成报告等目标,或需要实现极端高速和低延迟(HPC,高性能计算)效果,那么我们可能需要数据库的企业级功能,但这样的成本也更高。
HA(高可用)集群功能
各数据库平台的集群功能如下:
Oracle RAC最适合HA集群,负载均衡和扩展;
MS SQL Server提供HA故障转移功能,但无负载均衡;
Sybase ASE 15集群与Oracle RAC功能相当;
TeraData本身就是一个分布式数据库平台;
MySQL集群声称TPC-C性能基准测试比Oracle RAC还高;
IBM DB2/UDB在运行AIX HACMP(高可用集群多处理)的IBM P系列/Power服务器和Veritas VCS/Sun等集群上运行得很好。
高性能/低延迟/内存数据库
Oracle提供TimesTen内存数据库;
MySQL的集群使用内存存储引擎;
Sybase提供ASE内存数据库;
另外,我们还可以使用RAMSAN/SSD(固态硬盘)安装SQL Server数据库,所有与数据库相关的磁盘I/O都发生在SSD上,而不是传统硬盘上,因此我们可以大大减少磁盘I/O延迟,提供I/O吞吐量,并提高数据库的整体性能;
还有其它的内存数据库,如SQLite或eXtremeDB,但它们大多数要么只支持嵌入式系统,要么同一时间只支持单用户或单连接。
可扩展性/性能
使用Oracle RAC和Sybase ASE 15集群时,如果现有硬件不能满足性能要求,我们只需要向集群添加一台功能更强大的服务器,然后逐步替换掉其它节点;
使用SQL Server集群时,因为它仅仅支持主动/被动模式,在实例级没有可扩展性,如果现有硬件满足不了需要,我们必须更换整个集群;
MySQL集群也支持向所有节点都处于活动的集群添加节点,但它是一个无共享集群,节点越多意味着有更多的数据库副本,更多的存储和在所有节点之间复制数据时需要更多的网络流量。
复制
Sybase:首先澄清一下,我不是Sybase的托儿。Sybase拥有最好的复制解决方案,超过了Oracle的数据卫士和SQL Server的复制解决方案(即使用它的镜像/日志传送/事务复制,SQL Server的复制仍然远远差于Sybase的复制服务器);
Sybase的异构复制和同质复制是Sybase公司上世纪90年代被华尔街排除但却受到许多大公司使用的主要原因之一。
Sybase复制可以在数据库级(主动/主动复制,比SQL Server的镜像更好),事务级(与SQL Server的事务复制类似),表级,存储过程级,函数级,MSA(多站点可用)以及通过日志传送(复制世界中穷人的解决方案)实现,它的镜像激活器结合EMC/SRDF可以真正保证在计划内和计划外停机时ZDL(零数据丢失)。
SQL Server:SQL Server复制可以通过日志传送和数据库镜像实现(主动/被动,R/W或只读),支持对象级(表)粒度事务复制。
Oracle:Oracle的数据卫士是数据库克隆和灾难恢复最佳解决方案之一(使用RMAN)。
MySQL:MySQL提供无共享集群,基本上所有活动节点都是同步复制的,它的异步复制也支持事务和对象级复制。
存储级解决方案:使用EMC的BCV,NetApp的快照管理器,日立的快照,Veritas的卷复制器,数据复制可以发生在磁盘块级和卷级。
混合系统
通常情况下,后端数据库存储了大量的数据,在检索数据(数据排序,分组,汇总和计算)时会出现性能问题,当运行速度变慢时,会影响到数据写入过程。
因此,对于这些类型的应用程序,我们希望数据库能很好地处理大量数据,也可以很好地处理读/写阻塞问题。
Oracle
Oracle是这种系统的最佳选择,因为在Oracle中,读/写程序不会相互阻止对方,数据在整个读取过程/会话/事务中都是一致的,系统开销主要发生了内存锁和重做日志上。
SQL Server
SQL Server 2005的新快照隔离使用了Oracle同样的行版本化功能,但在tempdb中会产生更多的IO。
Sybase ASE
Sybase ASE的读/写程序会相互阻塞对方,但Sybase IQ使用快照版本化管理解决了这个阻塞问题。
其它数据库
还有其它一些数据库也不存在阻塞问题,但其中一些甚至不遵从ACID(原子性,一致性,隔离性和持久性)标准。
企业建立数据仓库存储/归档所有历史数据,以及他们认为需要放在数据库中的数据,通常,非规范化的数据进入数据仓库,多维度为OLAP和商业智能(BI)解决方案提供快速检索。
数据仓库也用于新的或增强的业务战略回溯测试,此外,数据仓库中的数据是呈指数增长而非线性增长的。
基于列的关系数据库优势
基于列的关系数据库具有很大的优势,因为它天生就是多维的,每一列都是自我索引的(B tree)。
典型的基于列的数据库有Google的Big Table,Sybase IQ,Vertica和基于MySQL构建的KickFire。
平均而言,这些基于列的数据库比传统的基于行的关系数据库(如Oracle,SQL Server,Sybase ASE,TeraData,DB2和MySQL)在数据检索速度上要快60到100倍,但在基于行级进行数据更新时它们的速度较慢,到目前为止,Sybase IQ似乎是这一领域的领头羊,号称世界上最大的数据仓库(超过1P字节)就是用的Sybase IQ。
更多有关基于列的关系数据库信息
用Oracle和SQL Server作数据仓库时都需要建立多维数据立方体,需要的存储空间也会更多,我个人认为,用基于行的关系数据库作的数据仓库将会很快被基于列的数据仓库取代。
总体而言,基于行的关系数据(SQL Server,Oracle,Informix,DB2/UDB,MySQL,Sybase ASE等)适合OLTP应用,而基于列的关系数据库(Sybase IQ,KickFire,Vertica等)更适合OLAP/DSS和数据仓库应用。
注意:那些时间序列数据库如OneTick,kdb+和Vhayu都不能算是关系数据库,它们的存储结构是基于文件的,每一列的数据都使用一个单独的文件存储,基本上算是基于列的数据库,基于列的数据库也可用于回溯测试。此外,基于行的数据仓库(立方体)中的数据是呈指数级增长,但基于列的数据仓库中的数据是呈线性增长的。
传统上,Oracle在数据仓库领域处于领先的优势,但现在在基于列的关系数据库(如Sybase IQ,Vertica和KickFire)面前已经失去优势,Google正在使用的Big Table也是一种基于列的数据库/存储系统。
迁移思考
承受能力和现有数据库上已有的投资是另一个需要考虑的事情。
我见过不少从Sybase迁移到SQL Server的成功案例,反之亦然,但还很少看到从Sybase/SQL Server迁移到Oracle的,反之亦然。
根据数据库的规模和应用范围,要迁移Sybase/SQL Server存储过程,重写应用程序并进行测试可能需要很长一段时间,即使有Oracle迁移工作台的帮助(现在我们可以使用SQL Developer),每个存储过程都得重写,如果应用程序只使用了ODBC/JDBC/ADO.NET,并且无存储过程/临时表,那么迁移会比较容易。
原生支持的编程语言
前面已经说过,Oracle对Java的支持是最好的,我们可以在Oracle中存储Java代码,并将其作为原生Oracle功能使用,这使得Oracle的扩展性非常好(有点象开放源码),此外,Sybase也原生支持Java代码。SQL Server和Sybase支持扩展存储过程,基本上是指数据库中调用外部动态库的一个接口,它可以用不同的编程语言实现。
拥有成本
当我们在研究这些数据库的功能时,有一点必须要记住,那就是成本和时间范围,即使你有一个经验丰富的数据库团队,如果所选数据库平台超过了3个也就没有什么意义了,此外,将所有数据库合并到一个数据库平台也没有太大意义,因为大部分异构数据库都可以通过SQL Server的链接服务,Oracle网关,或使用一些数据库复制和ETL工具代替。当你在考虑数据库的维护成本时,不要孤立数据库成本,相反,要将其作为你的应用程序和基础设施的一部分看待。
我希望这篇文章对那些将要或正在为其应用程序挑选数据库的人们有所帮助,不会为自己做出的选择而后悔。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
超越RDBMS:数据仓库与数据湖、数据集市
现在企业从各种来源收集的大量数据已经远远超出传统关系学数据库可处理的范畴。这引发数据仓库与数据湖的问题:何时使 […]
-
对SAP HANA数据库涉嫌知识产权盗窃的指控存疑
Enterprise Applications Consultin公司负责人Joshua Greenbaum表 […]
-
数据货币将决定企业成败
在2017年3月McKinsey公司对500多名高管的调查显示,越来越多的企业使用数据和分析来推动增长,但目前 […]
-
在HANA上实施SAP BW要做哪些准备?
在HANA上实施SAP BW可以帮助公司利用到HANA的速度和性能优势。不过,CIO及技术团队首先要注意一些关键问题。