商业软件的版本更新非常快,而每次更新所添加的“新特性”是用户最为关注的,而基于Apache Hadoop的产品也是如此。想要让Hadoop真正为企业所用,并不断扩展其用例,新特性是必不可少的。
变化并不是表面功夫而已,随着每一个版本的更新,其中添加的新特性都是来自于用户在使用Hadoop时所遇到的各种问题。Hadoop之所以能够流行起来,是因为它能够使用廉价服务器搭建分布式集群,为用户提供了一个针对非机构化数据、日志文件以及其他类型大数据的低成本存储和数据处理解决方案。然而我们需要认识到,想让Hadoop向数据仓库一样完全融入企业IT部门,还有许多工作要做。
有时候,Hadoop系统的性能会出现很大问题。作为一项相对较新的技术,Hadoop并不稳定而且在编程方面也很复杂,同时管理工具也不如其他成熟产品完善。总而言之,针对Hadoop的主要用例——分析应用,它还并不是一个开箱即用的解决方案。
于是“Hadoop生态系统”这个词出现在我们视野当中,其实就是不同版本的Hadoop中包含的各种插件与组件,如Flume、Pig、Hive、ZooKeeper、Oozie等。当然还有HBase这一主流列式NoSQL数据库。
让HBase与Hadoop更紧密的集成
通过发布MapR M7,大数据公司MapR希望打通Hadoop迈向企业级应用的道路。MapR的创始人大多来自当初Google的MapReduce团队,因此他们对Hadoop的优势与限制理解颇深。MapR M7主要将HBase加入了他们的Hadoop发行版当中,但是他们的方法却很不“平常”。
HBase通过将数据库表区域扩散到集群中的所有服务器上来实现横向扩展,用户发现在一些情况下,这种方法可能会造成性能下降,同时可用性以及数据库镜像功能等都会受到影响。MapR副总裁Jack Norris介绍,他们一直在致力于解决这些问题,而且一直在对MapR的Hadoop底层代码进行修改,以改善性能和稳定性。新的产品中,他们让Hadoop与HBase有了一个更紧密的集成,放弃了分割两层Java虚拟机的做法,而后者正是造成性能瓶颈的主要原因。
与此同时,来自美国Palo Alto市的Continuuity公司还刚刚发布了两款工具——Developer Suite和Developer Sandbox,旨在帮助程序员降低Hadoop开发难度。Continuuity公司的创始人均来自Yahoo和Facebook,以往的经验告诉他们,开发团队往往需要更高级别的应用编程接口(API)以及实用的代码库,才能让Hadoop和HBase进入主流。
Continuuity CEO Todd Papaioannou表示:“在Yahoo工作的时候我们发现在Hadoop上构建应用是非常困难的,甚至导入和导出数据都成问题。而使用Continuuity的软件,可能还是要用Java来编程,但其中的API能够让更多的普通程序员成为大数据应用开发者。”
Papaioannou强调,目前如果你想要成为Hadoop开发者,你就必须学习很多分布式系统的知识。在Hadoop刚刚诞生的时候,Google、Yahoo等搜索引擎公司都有不少分布式系统专家,但在传统的企业当中却是非常少见。同其他厂商一样,Continuuity想要提供Hadoop生态系统中的组件更高效的联系,同时还要为开发者人群提升生产率做出努力。
Papaioannou认为,Continuuity所做的是十分有意义的,否则Hadoop开发者们还需要向搭积木一样自己拼凑各个组件。
Hadoop之路无坦途
Hadoop最初设计就是用来在分布式系统下批量运行Web搜索的,但是随着大数据时代的到来,它的发展已经超出了最初的范畴。TechTarget商务智能分析师Wayne Eckerson建议,Hadoop技术还有很长的一段路要走,才能弥补现在的不足。
Eckerson指出,现在的公司使用Hadoop,更多的是把它当做一个ETL工具,这本身并没有错,但是这绝不是Hadoop未来的发展方向。
要创建新的Hadoop企业用例,就需要迈出重要的一步,这就是让用户使用基于SQL的工具来直接在Hadoop系统中对各种数据进行分析。早期Hadoop使用者往往会要求他们的供应商提供这样的能力,比如写一个新的SQL查询引擎。像Cloudera的Impala和Greenplum刚刚发布的Hawq都将对Hadoop生态系统起到非常重要的补充作用。然而Eckerson提醒用户,新的产品还有待时间的检验,它们对Hadoop数据的实时查询究竟表现如何,目前市场反馈还非常欠缺。
当然,Hadoop的新一页已经缓缓打开,我们有理由相信在不远的未来还会出现更好用的产品和组件。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]