Hadoop作为大数据时代的“标配”技术,不仅受到了终端用户的广泛关注,IT提供商与服务商也纷纷希望借助这一开源技术获得更多利益。就如同当年的Linux一样,如今市场中存在着许多商用Hadoop发行版,这些平台依托于Apache Hadoop的开源代码,通过打包整合等方式为企业级用户提供大数据解决方案。
然而,平台的兼容性必将成为横亘在各个商用发行版面前的一道坎,而通过一套标准来帮助用户解决这一难题也就成了Hadoop生态系统中每一个成员需要积极去做的一件事。就在不久前,由IBM、Pivotal以及Hortonworks等主导的“开放数据平台(ODP)”联盟正式成立了,旨在进一步推动Hadoop的标准化,并让这一开源技术向更有利于用户的方向发展。如果对ODP这个项目还不太了解的朋友,可以先阅读这篇文章《“开放数据平台”联盟成立 将推动Hadoop技术发展》
在ODP上线的官方网站上罗列出了项目的赞助厂商,无论是产品、解决方案还是服务,几乎涵盖了大数据生态系统中的所有“巨头”。但细心的用户可能会发现,成员名单里缺少了Hadoop明星公司Cloudera。如果说要制定Hadoop标准,Cloudera无论从代码贡献量还是生态系统的建设方面都无疑是最具话语权的。但面对开放数据平台联盟,Cloudera似乎有些别的话要说。
ODP联盟成员一览
刚刚在中国成立分公司,正式进军中国市场的Cloudera公司拒绝了ODP联盟的邀请。公司CEO Mike Olson在博客中解释了个中缘由。他认为,每一家厂商的发行版都为Hadoop的发展做出了贡献,无论从API、数据格式还是语义角度来看,Hadoop都已经是非常成熟的了。Hadoop项目在Apache社区成立已经有十几年的时间,全球的社区都承担起了治理Hadoop的义务。从兼容性角度来看,各个厂商的发行版以及开源Hadoop等都不存在根本性的兼容性问题。
当然,Cloudera选择不加入是有他的原因的。正如Mike Olson所说,Hadoop不存在特别巨大的不兼容问题,但一些小问题的确是存在的,这些问题也的确在阻碍Hadoop的快速发展。比如对版本的不统一问题,现在Hadoop已经发展到2.0版本,但有不少厂商的发行版还是基于之前的版本,IBM的Hadoop就不支持YARN和Spark。解决方案提供商需要对很多版本进行测试,无形中增加了许多工作量,再考虑兼容性问题时也只能选择支持更低的版本。
现在许多Hadoop发行版的核心功能都是不开放源代码的,比如一些SQL-on-Hadoop的功能,这也是这些厂商所宣传的价值所在。像Cloudera的Impala工具是不能运行在PivotalHD上的,而Pivotal的HAWQ也无法运行在其他发行版上。而开放数据平台联盟的成立,就是要解决这样的问题,各种发行版的混搭让用户能够有更多的选择,同时避免单一厂商的锁定。
那是不是就没有别的问题可担心了呢?当然不是。首先,上面所说的只是理想状态。如果真能够起到如此积极的推动作用,ODP的价值将不可限量。但如果只是IT厂商的市场行为,为了更好地推广自己的产品,那么用户就可以先“洗洗睡了”。另外,如果Cloudera这样的巨头抵制ODP,那么它还真是要想想如何应对了,因为不少成员都与Cloudera有合作。而且在企业级Hadoop市场,Cloudera还是绝对的No.1。更不要说还有MapR这样的“文艺范儿”公司与Cloudera站在了同一条战线上。注意,ODP不是Apache软件基金会主导的组织。商场如战场,商业环境下的残酷竞争也许会让ODP的愿景难以实现。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Cloudera:2016年Hadoop的三大预测
Cloudera近日举行了Hadoop十周年暨Cloudera新春媒体见面会。Cloudera全球副总裁大中华区总经理凌琦分享了Hadoop及其演变的历史, 阐述了Cloudera商业模式和行业领先地位,以及Hadoop在2016年的展望。
-
IBM加入Spark社区 计划培养百万数据科学家
IBM近日宣布,将大力推进Apache Spark项目,并计划培养超过100万名Spark数据科学家和数据工程师。
-
IBM成立物联网部门旨在整合未用数据
IBM准备在未来四年投资30亿美元成立一个专门的物联网(IoT)部门,并由此建立一个基于云的开放平台来帮助客户进行更好的数据整合。
-
解读EMC的“数据湖Data Lake”一体机
EMC最近推出了一款一体机来帮助用户建立“数据湖”,并与来自EMC的信息基础架构,Pivotal和VMware的技术进行融合。