问:我正在寻找数据集市和数据仓库设计的理论和最佳实践指导。有个常规的数据仓库概念:数据集市和数据仓库从各种各样的源中获取数据,并在将来不可操作,这意味着它们不能向任何源系统中反过来传递信息吗? 答:如果是这样,那就意味着数据流向是以下两种: a) 源系统 –> 数据集市 –> 数据仓库 b) 源系统–>数据仓库–>数据集市 但是它永远不会是这样: c) 源系统 <–> 数据集市 <–> 数据仓库 d) 源系统<- ->数据仓库<- -……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
问:我正在寻找数据集市和数据仓库设计的理论和最佳实践指导。有个常规的数据仓库概念:数据集市和数据仓库从各种各样的源中获取数据,并在将来不可操作,这意味着它们不能向任何源系统中反过来传递信息吗?
答:如果是这样,那就意味着数据流向是以下两种:
a) 源系统 --> 数据集市 --> 数据仓库
b) 源系统-->数据仓库-->数据集市
但是它永远不会是这样:
c) 源系统 <--> 数据集市 <--> 数据仓库
d) 源系统<- ->数据仓库<- ->数据集市
然而,我又看过这样的设计,它将数据仓库或数据集市中的数据反过来传送到源系统中。因此我想理解的是:如果我们那样做了,我们是不是在违背原理,或者这是不是可被接受的?
当我第一次开始建数据仓库时,我在书中读到的是从源系统到数据仓库的数据流向很重要,而不是从数据仓库到源系统的数据流向。好,我接受这是一个好的的方法,并且遵照此法去做。然而,我注意到我们原来在数据仓库中一直在做的一件事情是清洗数据,并且我们经常会从多个源系统中提取数据,然后再清洗,再集成,以便形成一个完整、准确的数据,如客户列表。这是一个工作量很大的工作,而且我们做这项工作的原因是源系统中没有一个干净的全部客户列表。
不久以后,数据仓库比任何其它源系统拥有更好的客户列表。你也许可以看到其去向。我们分析如果我们将客户列表从数据仓库发送回源系统中,我们就可以提高源系统自身的数据质量。
更进一步讲,假定你有五个源系统,它们都需使用客户数据。从其中的两个系统中,你可以创建一个高质量,完整的,最新的客户列表。那么你为什么不可以在所有这五个源系统中创建那些客户列表呢?我们没有一个关于此问题的好答案,我们就这样做了,结果很好。
几年以后,开始听说主数据管理(MDM),我就决定最好研究一下它,看看到底是什么。我发现在几年前我们就发明它了。当然,我们没有真正发明它,像许多当时其它周边人一样,我们简单地指出了一个合理的过程,这个过程后来就成了主数据管理(MDM)的一部分了。
我提出的这个数据流的方法是简单的吗?不对,还有很多问题需要我们处理,至少要处理数据库键控制。不同的源系统倾向于使用不同的键。在数据仓库中,我们通常增加一个代理键。你如何确保你为源系统提供数据的时候提供了合理的键值呢?回答这个问题确实不简单。但是最终,通过从数据仓库向源系统反过来提供数据的收效要比形成这些数据的开发工作的收效要大。就我而言,简单地认为是没有问题的:如果环境允许这样做,从数据仓库向源系统反过来发送数据是一个非常好的实践。
翻译
相关推荐
-
超越RDBMS:数据仓库与数据湖、数据集市
现在企业从各种来源收集的大量数据已经远远超出传统关系学数据库可处理的范畴。这引发数据仓库与数据湖的问题:何时使 […]
-
对SAP HANA数据库涉嫌知识产权盗窃的指控存疑
Enterprise Applications Consultin公司负责人Joshua Greenbaum表 […]
-
数据货币将决定企业成败
在2017年3月McKinsey公司对500多名高管的调查显示,越来越多的企业使用数据和分析来推动增长,但目前 […]
-
在HANA上实施SAP BW要做哪些准备?
在HANA上实施SAP BW可以帮助公司利用到HANA的速度和性能优势。不过,CIO及技术团队首先要注意一些关键问题。