大数据分析时代:Hadoop MapReduce

日期: 2011-06-30 作者:Nicole Laskowski翻译:孙瑞 来源:TechTarget中国 英文

当Yahoo于昨天宣布成立新公司Hortonworks接手Hadoop服务之后,业内的目光再次集中到这家大型互联网公司,而这一次的关键字是“大数据”。

  在波士顿举行的Enzee Univers 2011大会上,厂商、分析师以及咨询师认为目前大数据技术已经在企业软件中占据了一席之地。无论目前结构化数据还是非结构化数据,它们在深度与广度上都飞速地增长着,企业能否有效管理并挖掘利用这些数据将决定信息化建设的发展走势。

  Hadoop MapReduce:企业数据仓库的替代品?

  针对大数据领域,其实有很多技术提供商都参与了Yahoo的项目。Apache Hadoop是一个开源项目,Yahoo就是其中最大的贡献者;Google MapReduce是Hadoop架构的一个主要在组件,开发出的软件可以用来分析大数据集,它在目前的火爆程度已经无需赘言;Cloudera是Hadoop最早的技术支持、服务和软件提供商,它今后将直接与Yahoo的Hortonworks展开竞争。此外,EMC还推出了付费的Hadoop产品并基于MapR Technologies公司的技术。

  据Yahoo前任首席数据官Usama Fayyad的说法,在一些场景中MapReduce和Hadoop可以良好地协同,为大型计算任务提供网格支持,而并不是所有。有些情况下,它们并不是必须品,但现在许多企业都在过度地追捧使用MapReduce和Hadoop,这将造成不良的影响。其中一位参会人员Shawn Rogers也表示,目前Hadoop过分部署的问题已经逐渐浮出水面:“新技术的出现就像玩具公司推出新产品一样,我们总会第一时间把它买回家,现在是时候反思一下Hadoop的弊端了。”

  Forrester机构的高级分析师James Kobielus表示,其实部署Hadoop并不是完全必要的。具有shared-nothing并行处理架构的企业数据仓库平台完全可以支持数据库内分析(in-database analytics)和高性能数据管理。Kobielus在他即将发表的报告中,向早期Hadoop实施者提出了一份调查,询问他们针对PB级别数据仓库是否首先考虑试错法(tried-and-true approach)。

  Kobielus说:“根据案例调查显示,许多企业都会利用Teradata或者Oracle的产品作为EDW。但是他们也会在Hadoop上构建大数据项目,其中原因很多,比如通过使用Apache Hadoop,他们能够避于支付大量的软件许可费用,还可以根据变更的需求更改原代码从而得到更高的灵活性,此外全球的Hadoop社区也不断涌现出惊艳的创新。”

  Kobielus也同意前两位的观点,并不是所有的认为都需要用到Hadoop和MapReduce,尽管Hadoop将逐渐成为出类拔萃的分析平台,但它目前与企业数据仓库相比,在实时集成以及健壮的高可用性方面都存在这一定的缺陷。

  尽管Hadoop存在一定缺陷是不争的事实,但还是有许多企业用户已经将Hadoop软件纳入了他们的数据管理系统工具中。Intuit公司的数据仓库架构师Arup Ray向我们介绍,他的公司在进行即席分析(ad hoc analysis)时,已经将Hadoop当做ETL引擎了。此外,Intuit还使用了Netezza的技术进行部分分析工作。

  相反地,像T-Mobile这样的大型电信运营商还是拒绝使用Hadoop技术,它们的网络系统主管Christine Twiford说:“针对是否使用Hadoop我们也进行了讨论,但最后我们还是选择使用Netezza产品,我认为它以及完全能满足我们的需求了。”据介绍,T-Mobile早在五年前就更换了Oracle应用,转而使用Netezza的产品,在数据加载速度上提高了50%。

  尽管如此,关于Hadoop和MapReduce的讨论还是连绵不绝,而像T-Mobile这样的公司也不止一家。在TechTarget最新的一份IT调查报告中显示,只有1%的用户表示他们的数据仓库架构中使用了Hadoop技术,13%的用户表示在2012年有使用Hadoop的意向。结果与Gartner的报告相吻合。

  目前技术产品推广的力度很大,而且大数据分析软件的竞争也空前的激烈。最新的IBM Netezza Capacity Appliance在上周的会议中正式问世,它具有在几分钟之内分析10 PB数据的能力,它也是Netezza被IBM收购之后推出的第一款设备。虽然IBM官方并没有明确指出,但我们都知道新设备是瞄准了大数据领域。

  开源能否引领新浪潮?

  Forrester机构的Kobielus指出,像Hadoop和R语言这样的开源工具已经成功开启了大数据分析之门。而Rogers则认为开源虽然在这一方面起到了非常积极的作用,但是它们是以一种不太成熟的方式进入市场的。就拿Hadoop、Pentaho和Jaspersoft举例,与传统的私有产品相比,开源技术的发展步伐更慢一些。虽然它是探索前沿的一个非常好的方式,但是开源的精神能否跟上主流的需求这是一个问题。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

孙瑞
孙瑞

相关推荐