本系列文章节选自《数据集成蓝图和建模》一书,读者可以了解到如何为新的数据集成设计流程构建业务案例,以及如何为数据集成建模改进开发流程。读者还可以获得为数据集成和设计数据集成架构模型利用流程建模的技巧,还会了解到三种数据集成建模类型——物理建模,逻辑建模和概念建模。 本文主要介绍了一种新的设计技术,它是用来分析和设计数据集成流程的。这种技术使用图形化流程建模的数据集成视图,类似于为数据模型提供的实体关系图那样的图形化视图。
新设计流程的业务案例 对于数据集成流程的大规模复制问题,有一个情形如下: 如果你没有看到某个过程,你就会重复该过程。 在许多组织中,都有大量的数据集成流程……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
本系列文章节选自《数据集成蓝图和建模》一书,读者可以了解到如何为新的数据集成设计流程构建业务案例,以及如何为数据集成建模改进开发流程。读者还可以获得为数据集成和设计数据集成架构模型利用流程建模的技巧,还会了解到三种数据集成建模类型——物理建模,逻辑建模和概念建模。
本文主要介绍了一种新的设计技术,它是用来分析和设计数据集成流程的。这种技术使用图形化流程建模的数据集成视图,类似于为数据模型提供的实体关系图那样的图形化视图。
新设计流程的业务案例
对于数据集成流程的大规模复制问题,有一个情形如下:
如果你没有看到某个过程,你就会重复该过程。
在许多组织中,都有大量的数据集成流程重复存在,主要原因之一就是没有可视化的方法可以“看到”当前存在的数据集成过程以及还需要什么过程。这与曾经给数据建模规程带来麻烦的问题很类似。
在20世纪80年代早期,许多组织都在大规模复制客户和交易数据。这些组织看不到他们数据环境和大规模复制的“全貌”。一旦组织开始文档化记录并充分利用实体关系图(数据模型的可视化展现形式),他们就能看到大量复制工作,而且增加不必要的复制会降低现存表的复用度。
数据集成流程的开发类似于数据库的开发。在开发数据库过程中,业务需求的蓝图或者模型必须确保对需要的部分有清楚的理解。在数据集成的案例中,数据集成设计者和数据集成开发人员需要该蓝图或项目工件,来确保关于需要移动数据的源、转换和目标的业务需求已经通过共同一致的方法进行了清晰的交流。对专门为数据集成设计流程模型的使用将实现该需求。
图1描述了项目中需要的数据模型类型,你可以看到它们与为数据集成开发的模型有多相似。
图1 建模示例:数据和数据集成。(点击放大)
在大部分项目中,分析,设计以及构建ETL或者数据集成过程的通用方法都涉及到数据分析文档化需求,在微软Excel数据表中定义源到目标的映射。这些数据表被提供给ETL开发者,用来设计和开发映射,图表以及开发源代码。
手工把源系统和目标系统的集成需求文档化记录到像Excel这样的工具中,然后把它们再映射到ETL或者数据集成包,事实证明这种做法非常耗时,而且容易出错。例如:
消耗的时间。从源系统向Excel数据表复制数据会花费相当多的时间。相同源的信息必须在ETL工具中重新生成键值。此源和在Excel中收集的目标元数据基本很难复用,除非有大量的人工审查和维护流程。
非值增加分析。利用转换需求捕获源到目标映射包含有价值的导航性元数据,这些数据可以被用于数据发展分析。在Excel电子表格中捕获这种信息,不能提供清晰自动的方法捕获这种有价值的信息。
映射错误。尽管我们付出最大的努力,但是手工操作数据通常还是会出错的,例如,在Excel电子表中可能会将“INT”数据类型转成“VARCHAR”数据类型,这需要数据集成设计者花时间分析和纠正。
缺少标准:不一致的详细程度。执行源到目标映射的数据分析师们很容易以不同的完整程度来捕获源/转换/目标需求,这取决于该分析师的技能和经验。一旦在需求和数据集成流程设计的详细程度上出现了不一致,就可能会给开发人员阅读源到目标映射的文档(通常是Excel)时造成误解,这样就会导致编码错误和浪费时间。
缺乏标准:文件格式不一致。大部分环境对不同的文件格式有多种方式提取。工作的重点和方向必须是朝着一次读取,多次写入的概念进行,同时要保持抽取、数据质量、转换以及加载格式的一致性。
要提升数据集成流程的设计和开发效率,还有时间、一致性、质量以及可重用性,对于开发数据模型采用同样严密的数据集成使用一套图形化建模设计技术是很有必要的。
点击继续阅读:利用流程建模进行数据集成
翻译
相关推荐
-
第三方工具将弥补Amazon Redshift不足
虽然Amazon的Redshift数据仓库可以让SQL查询快速得到结果,但是一个第三方工具生态系统的易用性是非常关键的。
-
Talend加速推进大数据“平民化”
Talend与今日宣布其大数据平台Talend Open Studio for Big Data通过了MapR的Hadoop发行版认证。
-
数据虚拟化工具适合你吗?
IT专家和数据管理分析人士表示,当数据虚拟化工具对IT领域还是相对较新的话题时,它已经经历了“增长之痛”,组织也正在日益增加这种技术在公司的应用。
-
微软SQL Server集成服务基础知识
在SQL Server 7.0中,有一个最强大的特性是数据转换服务(DTS)。现在,这组特性变成了SQL Server Integration Services (SSIS)。