解读Hadoop Hbase适合存储哪类数据

　　最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据，是因为Hbase是column-oriented列导向的存储机制，而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如，如果某个表 UserTable有10列，但在存储时只有一列有数据，那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。

　　Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。打个比方，ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说，最显然的不同就是你不需要为变量预先指定一个类型。Ok ，现在Hbase为未来的DBA也带来了这个激动人心的特性，你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。

　　Hbase还有很多特性，比如不支持join查询，但你存储时可以用：parent-child tuple 的方式来变相解决。

　　由于它是Google BigTable的 Java 实现，你可以参考一下：google bigtable 。

　　下面3副图是Hbase的架构、数据模型和一个表格例子，你也可以从：Hadoop summit 上获取更多的信息。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

解读Hadoop Hbase适合存储哪类数据

取消回复

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

Azure数据湖分析从U-SQL中获得提升

TT百科：SAP SQL Anywhere

同为数据库管理系统 DBMS和RDBMS的区别是什么?