接上文:企业如何选择数据库新技术:分析型数据库 什么是Hadoop? 从功能的角度上来看,Hadoop提供的是一种能够在多进程或联机环境下进行大规模数据的存储和分析的解决方案。事实上它有两个组件:一个是分布式文件系统,它可以取出一组数据然后将它们分发给不同的机器并且提供冗余处理。你可以想象,在这个系统里,对每一个数据在3个不同的节点上进行了3次复制。因此,一旦有任何一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。
这就是所谓的“HDFS”,Hadoop分布式文件系统。对于Hadoop来说,它本身还有总共11个区块,但这些区块里最重要的两个就是HDFS和MapReduce。……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
什么是Hadoop?
从功能的角度上来看,Hadoop提供的是一种能够在多进程或联机环境下进行大规模数据的存储和分析的解决方案。事实上它有两个组件:一个是分布式文件系统,它可以取出一组数据然后将它们分发给不同的机器并且提供冗余处理。你可以想象,在这个系统里,对每一个数据在3个不同的节点上进行了3次复制。因此,一旦有任何一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。这就是所谓的“HDFS”,Hadoop分布式文件系统。对于Hadoop来说,它本身还有总共11个区块,但这些区块里最重要的两个就是HDFS和MapReduce。HDFS解决的是分析数据的问题,而MapReduce解决的是如果你将数据分发给多台机器,那么其中的一部分数据经分析后会合并至一台机器进行集中处理的问题。
Hadoop和MapReduce的主要优势是什么?
它们确实有值得夸赞之处,但最大的优势在于它们是开源的,这就意味着它们对你来说是免费的,当然不能做到百分百的免费,因为毕竟你多多少少的都要根据需求购买一些付费的服务和支持。但它们却为你提供了低成本解决问题的方案。它们本身是没有数据库使用License限制的,于是它们很轻松地能够在10台、50台或者上百台的机器上并发处理大规模数据。你只需制定一个相对简单的映射和简化的规则,它们将负责分配这些任务给每一台机器并确保所有的任务都能成功完成,如果有任何一台机器故障,它们将重新分配该机器上的任务给其他正常的机器。所以,Hadoop在成本控制方面的潜在优势甚至超过它在分析数据库以及对于分析型数据库的可扩展性方面的优势。
Hadoop和MapReduce最大的缺点是什么?
现在我们实际上处在一系列更为严重的风险和下滑趋势中,因为Hadoop以及MapReduce所处的环境并非SQL环境,这对于已经熟悉SQL环境和技能的你来说,无疑是个不容忽视的难题。但是你也可以借助其他不同的技能。例如,你可以尝试使用一段大串的非SQL语句去实现一个MapReduce任务。这就使你不得不放弃你所积累和具备的SQL数据库经验和技能。正因为它运行在非SQL环境中,所以你可用到的工具远比你想象中的要少。
Hadoop支持分等级的SQL。Hadoop 11个组件中有一个实际上就是限制SQL支持程度的。厂商们之所以提到对SQL和扩展性的限制,是因为可以售卖他们的相关支持工具。但是围绕着Hadoop的整个周边产业链远比分析型数据库的小很多。当然了,如果你确实有很大规模的数据需要处理,那这就另当别论了。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。
-
进入机器学习时代,数据库何去何从?
Vertica之前就已经能够对Hadoop数据进行访问,但Vertica8.0分析引擎则能够与Hadoop数据适当协作,如此一来就能减少数据迁移。
-
NoSQL——未来数据库家族的一员
NoSQL是对数据库由内而外的全方位改造,从而创造出一个高容量、高速度和高可变性的架构。然而,NoSQL供应商在可变性部分却正在遭遇失败。