开源第一弹：什么是HBASE？

在数据研究人员的工具集上有着大量的工具可以使用，这对于大数据技术，既是一件好事也是一件坏事。

当我们谈论从事大数据工作所使用的工具时，绝大部分讨论的会是Hadoop，Apache基金会关于Map Reduce和分布式存储系统的实现（HDFS是由Doug Cutting 阅读相关论文后在其供职于Yahoo时（他目前在Cloudera）建立的。但大数据工具很少单独工作，它是一个工具和数据库，以帮助数据研究人员能够更有效地分析他们的集合（或只是有利于加快速度）。

其中一项技术就是HBase。HBase的是一个非关系（NoSQL的）数据库，是Google BigTable的Java实现。它是柱状数据库中的一种。相对于关系数据库基于行存储数据，HBASE基于列存储。

不过这说起来容易，但其究竟是什么意思。让我们从对谷歌关于BigTable的相关文档的研究开始：

“Bigtable是一个具有稀疏性，分布性，持续性的多维有序映射。”

让我们深入其中，看看到底是什么意思。

稀疏

直觉上认为数据库稀疏的定义是数据库具有较少的数据项，但实际上，稀疏的意义是指数据库中数据项的数据列缺乏足够的数据。对于HBASE，之所以说它具有稀疏性，是因为它可以在其实体中容纳稀疏性数据。而对于关系表，将要求您填写的所有字段（或大部分）（想想你的关系数据库中客户资料表）。柱状数据库可以为空或NULL且不影响数据库的功能。此外，这也给你带来了其他好处，使你能够快速的添加其它你想捕捉的数据。在关系数据库中，创建一个架构（FirstName，LastName，SS＃，TelephoneNumber），并希望在创建时已经得到所有你需要捕获的数据。NoSQL数据库无需设计过于复杂的架构，允许您根据需要在不中断业务正常流动时添加字段。

分布式和持久化

HBase的使用HDFS（Hadoop分布式文件系统），以实现在多个商用服务器分发数据。这是Hadoop和HBase能够处理海量数据工作的基础。它基于另一篇关于谷歌文件系统的文章（点击阅读），google文件系统是Doug Cutting 建立HDFS的基础。我们将在另一篇文章中详细讨论HDFS和DFS。

多维排序Map

一个Map（有时被称为关联数组）其中存储的键值索引不必是整数，可以是任意的字符串。其实质是键值对集合，且要求键具有惟一性。其中键按照字典序排列。（需要注意的是：此处的字典序不是按字母顺序排列，也不是按数字顺序，而是按字符串的Unicode值进行排序）

你的得与失

使用HBase可以让你对存储在Hbase的数据进行预处理和后处理操作，并给予你更大的灵活性和快速处理数十亿行数据的能力。不利的一面是，当您使用HDFS的替代HBase，使用像Hive（类SQL数据检索）那样的工具会比在普通的HDFS慢4-5倍。此外，可以容纳数据的最大容量约为1 PB而不是HDFS中的30PB。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

作者

: Daniel Egan

翻译

: 杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程，对系统管理，网络配置，数据库应用等方面有深入的理解和实践经验。现就职于IBM（中国）投资有限公司，从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山，爱健身，喜欢结交朋友。

开源第一弹：什么是HBASE？

稀疏

分布式和持久化

多维排序Map

你的得与失

取消回复

作者

Daniel Egan

翻译

杨宏玉

相关推荐

探索Hadoop发行版以管理大数据

SQL Server 2019改进Linux、容器支持

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI