企业如何选择数据库新技术:Hadoop、MapReduce

日期: 2010-12-19 作者:Mark Brunelli翻译:武扬 来源:TechTarget中国 英文

接上文:企业如何选择数据库新技术:分析型数据库   什么是Hadoop?   从功能的角度上来看,Hadoop提供的是一种能够在多进程或联机环境下进行大规模数据的存储和分析的解决方案。事实上它有两个组件:一个是分布式文件系统,它可以取出一组数据然后将它们分发给不同的机器并且提供冗余处理。你可以想象,在这个系统里,对每一个数据在3个不同的节点上进行了3次复制。因此,一旦有任何一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。

这就是所谓的“HDFS”,Hadoop分布式文件系统。对于Hadoop来说,它本身还有总共11个区块,但这些区块里最重要的两个就是HDFS和MapReduce。……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

接上文:企业如何选择数据库新技术:分析型数据库

  什么是Hadoop?

  从功能的角度上来看,Hadoop提供的是一种能够在多进程或联机环境下进行大规模数据的存储和分析的解决方案。事实上它有两个组件:一个是分布式文件系统,它可以取出一组数据然后将它们分发给不同的机器并且提供冗余处理。你可以想象,在这个系统里,对每一个数据在3个不同的节点上进行了3次复制。因此,一旦有任何一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。这就是所谓的“HDFS”,Hadoop分布式文件系统。对于Hadoop来说,它本身还有总共11个区块,但这些区块里最重要的两个就是HDFS和MapReduce。HDFS解决的是分析数据的问题,而MapReduce解决的是如果你将数据分发给多台机器,那么其中的一部分数据经分析后会合并至一台机器进行集中处理的问题。

  Hadoop和MapReduce的主要优势是什么?

  它们确实有值得夸赞之处,但最大的优势在于它们是开源的,这就意味着它们对你来说是免费的,当然不能做到百分百的免费,因为毕竟你多多少少的都要根据需求购买一些付费的服务和支持。但它们却为你提供了低成本解决问题的方案。它们本身是没有数据库使用License限制的,于是它们很轻松地能够在10台、50台或者上百台的机器上并发处理大规模数据。你只需制定一个相对简单的映射和简化的规则,它们将负责分配这些任务给每一台机器并确保所有的任务都能成功完成,如果有任何一台机器故障,它们将重新分配该机器上的任务给其他正常的机器。所以,Hadoop在成本控制方面的潜在优势甚至超过它在分析数据库以及对于分析型数据库的可扩展性方面的优势。

  Hadoop和MapReduce最大的缺点是什么?

  现在我们实际上处在一系列更为严重的风险和下滑趋势中,因为Hadoop以及MapReduce所处的环境并非SQL环境,这对于已经熟悉SQL环境和技能的你来说,无疑是个不容忽视的难题。但是你也可以借助其他不同的技能。例如,你可以尝试使用一段大串的非SQL语句去实现一个MapReduce任务。这就使你不得不放弃你所积累和具备的SQL数据库经验和技能。正因为它运行在非SQL环境中,所以你可用到的工具远比你想象中的要少。

  Hadoop支持分等级的SQL。Hadoop 11个组件中有一个实际上就是限制SQL支持程度的。厂商们之所以提到对SQL和扩展性的限制,是因为可以售卖他们的相关支持工具。但是围绕着Hadoop的整个周边产业链远比分析型数据库的小很多。当然了,如果你确实有很大规模的数据需要处理,那这就另当别论了。

相关推荐