虽然流行度逐渐升温,但是根据Forrester研究机构的高级数据管理分析师James Kobielus的说法,开源技术Hadoop在应对大数据分析时还存在这一定的障碍。其中包括了如何存储上百TB的数据以及Hadoop互操作性标准的缺失。 在TechTarget网站最近的一次采访中,Kobielus向我们介绍了大数据存储的问题,以及为何标准化对于Hadoop普及来说是一件好事。 最近对于Hadoop技术和大数据分析的谈论非常多,Hadoop受到了越来越多的认可,但是为什么并不是所有人都用它呢? Kobielus:在部署一个大数据分析项目时,不管你用的是Hadoop集群还是传统的数据仓……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
虽然流行度逐渐升温,但是根据Forrester研究机构的高级数据管理分析师James Kobielus的说法,开源技术Hadoop在应对大数据分析时还存在这一定的障碍。其中包括了如何存储上百TB的数据以及Hadoop互操作性标准的缺失。
在TechTarget网站最近的一次采访中,Kobielus向我们介绍了大数据存储的问题,以及为何标准化对于Hadoop普及来说是一件好事。
最近对于Hadoop技术和大数据分析的谈论非常多,Hadoop受到了越来越多的认可,但是为什么并不是所有人都用它呢?
Kobielus:在部署一个大数据分析项目时,不管你用的是Hadoop集群还是传统的数据仓库,我们知道要应对的是几百TB的存储压力,这部分成本是十分昂贵的。所以大数据领域里,真正的成本因素是存储,要花多少钱购买存储设备?你能承受多大的存储?有多少数据可以存放在磁带中?最重要的是存储部分,而不是你选用了哪种技术。
在您的研究中,Hadoop使用者中有多少企业的数据量已经达到PB级别了?
Kobielus:现实中,大多数Hadoop集群是达不到PB数据级别的,而且是差的很远,他们更多的是管理几百TB的数据。但是在我调查的客户中,很多人表示数据增长到PB级别时,存储问题是最让人头疼的。这也就是为什么我们并没有看到很多扩展到PB级别的传统数据仓库,原因很简单,就是成本问题。
那么除了存储的成本问题之外,Hadoop和大数据分析还有哪些挑战?
Kobielus:整个Hadoop生态系统还处在起步阶段,同传统的数据仓库技术相比还不成熟。目前主流的企业数据仓库厂商还有许多没有添加Hadoop的特性,即使是有,也是没有完全地集成到他们的核心数据仓库工具中。这是Hadoop不成熟的一个具体表现。
此外,Hadoop社区并不标准,我的意思是它的标准化同其他开源社区存在一样的问题。许多用户或者公司登录同一个社区,然后自己构建软件并开放源代码。这些功能的确是被许多人用到,但是它缺乏一个统一的正式的标准,或者是批准过程。现在,Hadoop或者开源社区中有许多人会说标准化是一条错误的路线。我也理解他们要表达的意思,但是事实就是在没有标准化的情况下,随之而来的就是风险,而大部分公司是无法承受这部分风险的。
为什么说没有标准化就是存在着潜在的风险呢?
Kobielus:事实上,Hadoop集群目前还没有一个普遍的参考架构,而一个参考架构则可以为可插拔存储层提供一个明确的接口,同样为跨多平台的MapReduce互操作性提供一个标准的界面。这个架构和SOA社区在过去十多年开发的那些参考架构(SOAP、WSDL和UDDI等)相类似,最终目的都是为了加强互操作性。对于Hadoop来说,我们还没有互操作性和认证的测试,这对于许多领域来说都是致命的,比如你的公司是一家大型企业,你们在不同的部门中使用了Hadoop集群,而它们想要结成一个共同体。而现在还没有这样的标准,也没有实时数据控制与访问的技术说明。这样的技术对于许多大型企业在接受上会存在困难。
Hadoop早期的使用者该如何应对互操作性问题?
Kobielus:如果你想要在分布式Hadoop中做真正的实时数据分析话,那么你需要去编写大量的代码来进行功能定制,然而许多时候还会出现bug或者根本无法工作。在这里有很大的风险,我认为业界目前最重要的应该是为互操作性和认证测试创建一个普遍的参考架构,并希望具体出炉一些正式的标准,比如HDFS版本等相关标准。
翻译
相关推荐
-
如何将大数据集成到数据仓库
在多数情况下,大数据应用的成功与其如何集成到您的企业数据仓库息息相关。本文将介绍几种方法,以便快速有效地完成这项工作。
-
内置库组件推动Spark分析应用发展
Apache Spark不只能做数据处理。它大数据平台的那些软件库支持其适合用于各种分析应用。
-
IBM加入Spark社区 计划培养百万数据科学家
IBM近日宣布,将大力推进Apache Spark项目,并计划培养超过100万名Spark数据科学家和数据工程师。
-
阿森纳卫冕足总杯 其实大数据早有预测
就在今年的足总杯决赛之前,英国的一家数据分析机构通过大数据,已经成功预测了阿森纳的最终夺冠。