在数据研究人员的工具集上有着大量的工具可以使用,这对于大数据技术,既是一件好事也是一件坏事。
当我们谈论从事大数据工作所使用的工具时,绝大部分讨论的会是Hadoop,Apache基金会关于Map Reduce和分布式存储系统的实现(HDFS是由Doug Cutting 阅读相关论文后在其供职于Yahoo时(他目前在Cloudera)建立的。但大数据工具很少单独工作,它是一个工具和数据库,以帮助数据研究人员能够更有效地分析他们的集合(或只是有利于加快速度)。
其中一项技术就是HBase。HBase的是一个非关系(NoSQL的)数据库,是Google BigTable的Java实现。它是柱状数据库中的一种。相对于关系数据库基于行存储数据,HBASE基于列存储。
不过这说起来容易,但其究竟是什么意思。让我们从对谷歌关于BigTable的相关文档的研究开始:
“Bigtable是一个具有稀疏性,分布性,持续性的多维有序映射。”
让我们深入其中,看看到底是什么意思。
稀疏
直觉上认为数据库稀疏的定义是数据库具有较少的数据项,但实际上,稀疏的意义是指数据库中数据项的数据列缺乏足够的数据。对于HBASE,之所以说它具有稀疏性,是因为它可以在其实体中容纳稀疏性数据。而对于关系表,将要求您填写的所有字段(或大部分)(想想你的关系数据库中客户资料表)。柱状数据库可以为空或NULL且不影响数据库的功能。此外,这也给你带来了其他好处,使你能够快速的添加其它你想捕捉的数据。在关系数据库中,创建一个架构(FirstName,LastName,SS#,TelephoneNumber),并希望在创建时已经得到所有你需要捕获的数据。NoSQL数据库无需设计过于复杂的架构,允许您根据需要在不中断业务正常流动时添加字段。
分布式和持久化
HBase的使用HDFS(Hadoop分布式文件系统),以实现在多个商用服务器分发数据。这是Hadoop和HBase能够处理海量数据工作的基础。它基于另一篇关于谷歌文件系统的文章(点击阅读),google文件系统是Doug Cutting 建立HDFS的基础。我们将在另一篇文章中详细讨论HDFS和DFS。
多维排序Map
一个Map(有时被称为关联数组)其中存储的键值索引不必是整数,可以是任意的字符串。其实质是键值对集合,且要求键具有惟一性。其中键按照字典序排列。(需要注意的是:此处的字典序不是按字母顺序排列,也不是按数字顺序,而是按字符串的Unicode值进行排序)
你的得与失
使用HBase可以让你对存储在Hbase的数据进行预处理和后处理操作,并给予你更大的灵活性和快速处理数十亿行数据的能力。不利的一面是,当您使用HDFS的替代HBase,使用像Hive(类SQL数据检索)那样的工具会比在普通的HDFS慢4-5倍。此外,可以容纳数据的最大容量约为1 PB而不是HDFS中的30PB。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]