超越RDBMS:数据仓库与数据湖、数据集市

日期: 2018-08-15 作者:Bridget Botelho翻译:邹铮 来源:TechTarget中国 英文

现在企业从各种来源收集的大量数据已经远远超出传统关系学数据库可处理的范畴。这引发数据仓库与数据湖的问题:何时使用哪一个以及它们与数据集市、运营数据存储及关系数据库的差异。

所有这些数据存储库都具有类似的核心功能:保存数据用于业务报告和分析。但它们的目的、存储数据类型、来自哪里以及谁有权访问它则各有不同。

一般来说,数据来自生成数据的系统:CRM、ERP、HR、财务应用程序和其他来源。从这些系统创建的数据记录将需要应用业务规则,然后被发送到数据仓库、数据湖和其他数据存储区域。

当来自不同业务应用程序的所有数据整理到一个数据平台后,则可用于业务分析工具,以识别趋势或者提供洞察力来帮助做出业务决策。

数据仓库与数据湖

当企业从运营系统获得大量数据可用于分析时,他们通常会选择数据仓库或数据湖泊。数据仓库通常作为单一数据源,因为这些平台存储着经过清理和分类的历史数据。

数据仓库保留着来自运营系统的大量数据,而数据库则存储来自更多来源的数据。它本质上是来自企业运营系统和其他来源的各种原始数据资产的集合。

由于数据库中的数据可能不准确,并可能来自企业运营系统之外,它并不适合普通业务分析用户;数据湖适合数据科学家和其他数据分析专家。

想要记住数据仓库和数据湖的区别,可以想象一下实际的仓库和湖泊:仓库存储来自特定来源的计划好的货物,而湖泊来自河流、溪流和其他来源,且都是原始内容。

数据仓库供应商包括AWS、Cloudera、IBM、Google、微软、甲骨文、Teradata、SAP、SnapLogic和Snowflake等。数据湖提供商则包括AWS、Google、Informatica微软、Teradata等数据管理提供商。

数据仓库和数据集市

数据集市经常与数据仓库混淆,但这两者的用途明显不同。

数据集市通常是数据仓库的子集,其中的数据通常来自数据仓库—尽管可能来自其他来源。发送到数据集市的数据主要是针对特定用户群(例如销售团队)并经过整理,以便用户能够快速找到所需数据。这些数据用于特定目的,例如财务分析。

数据集市比数据仓库小得多,只有数十亿字节,而数据仓库可容纳数百千兆字节到数拍字节数据。

数据集市可从现有数据仓库或其他数据源系统构建,通过设计和构建数据库表,使用相关数据填充数据表并决定谁可以访问它即可。

数据仓库与ODS

操作数据存储(ODS)是用作即将进入仓库的所有数据的临时保留区域。你可将其视为仓库装卸码头,其中货物在此处交付、检查和验证。在ODS中,数据在进入仓库前可进行清理和检查,以确定冗余性以及是否符合业务规则。

ODS中的数据可进行查询,但数据是暂时的,因此仅提供查询信息,例如客户订单状态等。

ODS通常在关系型数据库管理系统或Hadoop平台运行。通过数据集成和数据提取工具(例如Attunity Replicate或Hortonworks DataFlow),数据提供给ODS。

关系型数据库与数据仓库及数据湖

数据仓库和数据湖与关系型数据库系统的主要区别在于,关系型数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据,而数据仓库用于保存来自多个来源的结构化数据。数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。

关系型数据库创建起来相对简单,可用于存储和整理事务数据。关系型数据库的缺点是它们不支持非结构化数据或现在生成的大量数据。这让我们需要在数据仓库和数据湖中做出选择。尽管如此,很多企业仍然依赖关系型数据库来完成运营数据分析或趋势分析等任务。

企业内部或云端可用的关系型数据库包括Microsoft SQL Server、Oracle数据库、MySQL和IBM DB2、以及Amazon Relational Database 服务、Google Cloud Spanner等。

 

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Bridget Botelho
Bridget Botelho

资深专家

翻译

邹铮
邹铮

相关推荐