新数据仓库模式设计有利于企业用户

日期: 2021-01-03 翻译:邹铮 来源:TechTarget中国 英文

业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

当尝试关联数据仓库中不同仪表板的信息时,企业用户开始面临挑战。这通常需要求助于数据工程师,数据工程师需要在数据仓库中创建数据集市–由多个星形图组成,而这可能导致数据丢失或数据重复。

这种复杂性促使Francesco Puppini探索可更好地支持最终用户的数据仓库模式设计。他在与Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一书中探讨了这一问题,该书由Technics Publications出版。

什么是星型图和雪花图?

在讨论Unified Star Schema之前,让我们看一下星型模式本身。

星型模式是最简单的尺寸建模形式。该模式由事实和维度组成。事实以事件为中心,而维度则引用与事实有关的信息。维度以类似于星型的方式与事实相关。

此外,雪花模式将维度与其他维度相关联并继续分支。Puppini认为,当数据没有问题时,雪花模式最适合。

他说:“但数据总是有问题。“

Unified Star Schema的好处

Puppini说:“当你将数据写入数据库时​​,它是按某种方式组织。但是当你阅读它,最好以一种不同的方式组织它。”

对于最终用户而言,星型和雪花模式的主要挑战是,企业用户在寻找见解方面缺乏独立性。为了使用此类数据仓库模式设计对数据执行复杂查询,最终用户需要数据工程师手动关联数据表。Puppini说,这就像每次需要一杯水时都叫水管工一样。此外,当关联不兼容表时,整合将事实表与联接通常会导致重复数据。

他说,数据重复的核心问题是扇形陷阱。当两个或多个一对多联接链接时,就会发生扇形陷阱。这会与数据产生冲突,从而导致数据重复。从历史上看,这是通过手动重复数据删除或这些临时连接解决。

Unified Star Schema的关键是连接事实表的桥接。在书中,Puppini将桥接与电话总机进行比较。在Unified Star Schema中,桥接处于中心位置,所有事实表和维度表围绕它,每个表都连接到该桥接。然后,这限制了对数据的转换次数。

Puppini说:“现在的数据仓库问题是它们不堪重负,正在过度转换。”

通过使用桥接并执行联合而不是联接,这使用户可以访问数据而无需进行转换。

他说:“你转换数据越多,你就越会陷入混乱。我只是采取最少步骤以将信息整合在一起。”

请点击此处查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰写的《The Unified Star Schema》的摘录,以了解有关Unified Star Schema的部署和用例的更多信息。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐

  • Java、JDBC和Postgres

    现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]

  • 5个元数据管理最佳实践

    在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]

  • Cockroach Labs增加矢量搜索,更新定价选项

    Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]

  • 如何使用数据治理成熟度模型

    如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]