之前一篇文章提到了IBM InfoSphere BigInsights v1.3和Streams 2.0分析平台,这是IBM最新推出的两款大数据分析软件平台,也是目前业界唯一的专门针对大数据分析的平台产品。
从数据库和BI分析角度来看,目前业内主流的做法是嵌入一些大数据功能,比如微软将在SQL Server 2008 R2和并行数据仓库PDW中添加Hadoop连接器,用于在SQL Server数据库和分布式文件存储系统之间进行数据的迁移;Oracle公司计划明年推出的Big Data Appliance严格意义上是一款硬件产品,添加了Hadoop装载器、应用适配器以及Oracle新的NoSQL数据库,主要目的还是为了将非结构化数据加载到关系型数据库中去,并对软硬件的集成做了一些优化;Sybase在大数据方面并没有推出专门的产品,但也同样在下一代的Sybase IQ上添加了Hadoop的集成,并提供了MapReduce的API。
而IBM这次推出的BigInsights和Streams两款产品,特别之处究竟在哪?来自IBM中国研发中心的首席大数据架构师陈奇博士表示,BigInsights和Streams两款产品定位为企业级的大数据分析产品,它们将包括Hadoop MapReduce在内的开源技术紧密地与IBM系统集成起来。研究Hadoop这样开源技术的人很多,但是IBM这次是真正将其变成了企业级的应用,针对不同的人员增加不同的价值。
IBM中国开发中心信息管理首席架构师及大数据架构师陈奇博士
InfoSphere BigInsights:将大数据转化为大洞察
IBM这两款大数据平台的名称非常直接,BigInsights指利用大数据获得更多的洞察力,而Streams则表示流动数据的分析。而它们在分工方面也十分明确,BigInsights用来处理磁盘中的静态数据,Streams在内存中对流动数据进行实时的分析。陈奇博士介绍,InfoSphere Streams采用了内存分析技术,对数据分析有实时需求的用户可以使用Streams,而InfoSphere BigInsights是用于静态大数据的分析平台。
InfoSphere BigInsights 1.3的存储和运算框架采用了开源的Hadoop MapReduce,利用分布式文件存储系统,将文件分成不同的部分存储在不同的节点上,并进行备份。相应地可以在原有系统基础之上,添加更多的节点进行Scale Out,增加了扩展性。陈奇博士介绍,BigInsights完全可以跑在廉价的PC服务器,无需大型服务器或者小型机。
IBM大数据平台愿景
除了使用开源的Hadoop架构之外,IBM还针对BigInsights进行了改造,据陈奇博士介绍,这里面用到了IBM特有的通用并行文件系统,即GPFS。它是IBM特有的并行文件系统,在高性能计算领域有着广泛的应用,而DB2数据库中也用到了GPFS。利用GPFS的目的是为了避免单点故障,保证了可用性。这一点非常重要,IBM让Hadoop如虎添翼。
分析功能是BigInsights另一个重要的方面,在IBM的信息管理产品线中还有两个分析产品——Cognos和SPSS,而陈奇博士告诉记者,BigInsights的分析模块并不是照搬的Cognos和SPSS,也不是来自于收购的产品,而是完全由IBM研发的功能。Cognos和SPSS两款产品比较成熟,自带一系列的业务分析算法,目前主要是用于传统领域的业务数据分析,而BigInsights将专门用于大数据分析。BigInsights中加强了文本分析的功能,提供了一系列文本分析工具,并使用高级语言进行自定义规则,如文本格式转换等。此外,BigInsights还能够做预测分析(Predictive Analytics)。与SPSS不同的是,BigInsights是在Hadoop的基础上完成的。IBM还提供了许多算法和工具,如主题建模等。
据陈奇博士介绍,目前BigInsights提供两种版本,一种是企业版(Enterprise Edition),用于企业级的大数据分析解决方案。另一种是基础版(Basic Edition),去掉了企业版中的大部分功能,用户可以免费下载,主要提供给开发人员和合作伙伴试用。另外,包括能源、金融、教育以及传媒等行业已经拥有了BigInsights的客户,而那段令IBM津津乐道的电视节目,Watson的背后就是BigInsights在进行分析。
InfoSphere Streams:内存中的实时大数据分析
InfoSphere Streams 2.0是IBM的另一款大数据分析平台,其中用到了内存分析(In-memory Analysis)技术,用于对流动的大数据进行实时的分析。陈奇博士透露,Streams的诞生源自于美国国土安全部和IBM合作的反恐项目,当时美军利用Streams进行反恐数据的实时分析,现在Streams已经转化为商业的项目。
Streams最大的特点就是内存分析,利用多节点PC服务器的内存来处理的大批量的数据分析请求。与BigInsights不同,Streams中的数据并不存储在磁盘当中,而是在内存中进行实时的分析,也就是说Streams数据不落地,而是载入多少数据就分析多少数据,能够与BigInsights形成互补。利用Streams分析的数据可以存入数据仓库,也可以存入BigInsights中。换句话说,Streams的特点就是“小快灵”,数据是实时流动的,其分析反应速度可以控制在毫秒级别,而BigInsights的分析是批处理,反应速度无法同Streams相比。总体来说,二者的设计架构不同,也用于处理不同的大数据分析需求,并可以形成良好的互补。
举例来说,用户可以利用Streams的架构,编写分析程序并制定业务规则,并利用Hadoop将其分布在不同的节点之上运行,编写的程序进程将运行在内存中。用户可以利用多台PC服务器来运行这些进程,内存越多进程则越多,同时进行分析运算。由于多节点之间存在交互的关系,所以Streams集成了WebSphere MQ 低延迟消息(LLM)传输技术。而这一技术的关键在于支持InfiniBand,后者是主要解决的就是服务器之间的网络连接问题(在Oracle的Exadata产品中就有用到InfiniBand)。利用InfiniBand技术可以降低这部分延迟问题。
另外,Streams自带一系列的开发环境,如Eclipse IDE、Steams Live Graph等,方便程序员进行开发。一些数据库工具包以及分析工具包可以支持目前业内的主流数据库,包括DB2、Oracle、MySQL和SQL Server等。
BigInsights与Streams“双剑合璧”
BigInsights和Streams的推出让IBM成为目前业内唯一一个拥有专属大数据分析平台的厂商,而大数据则必然成为未来一段时间的最热话题。IBM为用户提供了多一个的选择,Cognos和SPSS用来处理业务中传统数据的分析和挖掘,而BigInsights和Streams专门应对大数据。然而在平台和技术的选择上,陈奇博士告诫用户,Hadoop虽然已经可以推广到企业级的应用,但是它并不能取代传统的数据仓库,一方面是技术成熟度的问题,另一方面是具体的业务需求问题,所以BigInsights和Streams是数据仓库的补充,而不会代替数据仓库的产品。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。
-
进入机器学习时代,数据库何去何从?
Vertica之前就已经能够对Hadoop数据进行访问,但Vertica8.0分析引擎则能够与Hadoop数据适当协作,如此一来就能减少数据迁移。
-
NoSQL——未来数据库家族的一员
NoSQL是对数据库由内而外的全方位改造,从而创造出一个高容量、高速度和高可变性的架构。然而,NoSQL供应商在可变性部分却正在遭遇失败。