业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。
当尝试关联数据仓库中不同仪表板的信息时,企业用户开始面临挑战。这通常需要求助于数据工程师,数据工程师需要在数据仓库中创建数据集市–由多个星形图组成,而这可能导致数据丢失或数据重复。
这种复杂性促使Francesco Puppini探索可更好地支持最终用户的数据仓库模式设计。他在与Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一书中探讨了这一问题,该书由Technics Publications出版。
什么是星型图和雪花图?
在讨论Unified Star Schema之前,让我们看一下星型模式本身。
星型模式是最简单的尺寸建模形式。该模式由事实和维度组成。事实以事件为中心,而维度则引用与事实有关的信息。维度以类似于星型的方式与事实相关。
此外,雪花模式将维度与其他维度相关联并继续分支。Puppini认为,当数据没有问题时,雪花模式最适合。
他说:“但数据总是有问题。“
Unified Star Schema的好处
Puppini说:“当你将数据写入数据库时,它是按某种方式组织。但是当你阅读它,最好以一种不同的方式组织它。”
对于最终用户而言,星型和雪花模式的主要挑战是,企业用户在寻找见解方面缺乏独立性。为了使用此类数据仓库模式设计对数据执行复杂查询,最终用户需要数据工程师手动关联数据表。Puppini说,这就像每次需要一杯水时都叫水管工一样。此外,当关联不兼容表时,整合将事实表与联接通常会导致重复数据。
他说,数据重复的核心问题是扇形陷阱。当两个或多个一对多联接链接时,就会发生扇形陷阱。这会与数据产生冲突,从而导致数据重复。从历史上看,这是通过手动重复数据删除或这些临时连接解决。
Unified Star Schema的关键是连接事实表的桥接。在书中,Puppini将桥接与电话总机进行比较。在Unified Star Schema中,桥接处于中心位置,所有事实表和维度表围绕它,每个表都连接到该桥接。然后,这限制了对数据的转换次数。
Puppini说:“现在的数据仓库问题是它们不堪重负,正在过度转换。”
通过使用桥接并执行联合而不是联接,这使用户可以访问数据而无需进行转换。
他说:“你转换数据越多,你就越会陷入混乱。我只是采取最少步骤以将信息整合在一起。”
请点击此处查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰写的《The Unified Star Schema》的摘录,以了解有关Unified Star Schema的部署和用例的更多信息。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]
-
Cockroach Labs增加矢量搜索,更新定价选项
Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]
-
如何使用数据治理成熟度模型
如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]