基于目标的数据集成设计技术概述

日期: 2011-07-20 作者:Anthony David Giordano翻译:冯昀晖 来源:TechTarget中国 英文

本章节选自《数据集成蓝图和建模》一书,读者将了解到概念数据集成模型和逻辑数据集成模型,包括高级逻辑集成模型。读者还将了解到把逻辑数据模型转换成物理数据集成模型的相关技巧。此外,我们还能了解到关于利用基于目标的数据集成设计技术和关于设计提取核查过程信息的概要介绍。   基于目标的数据集成设计技术是基于主题领域加载和位于这些主题领域的源系统创建物理数据集成组件的一种方法。

它基于在每种数据集成模型类型中本地与企业级使用数据迁移的模式把逻辑功能分组成可重用的组件。   例如,在大部分数据集成流程中,有源系统级的也有企业级的数据质量检查。基于目标的技术实现的功能,既与将要使用的流程(在这种情况下是提取流……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

本章节选自《数据集成蓝图和建模》一书,读者将了解到概念数据集成模型和逻辑数据集成模型,包括高级逻辑集成模型。读者还将了解到把逻辑数据模型转换成物理数据集成模型的相关技巧。此外,我们还能了解到关于利用基于目标的数据集成设计技术和关于设计提取核查过程信息的概要介绍。

  基于目标的数据集成设计技术是基于主题领域加载和位于这些主题领域的源系统创建物理数据集成组件的一种方法。它基于在每种数据集成模型类型中本地与企业级使用数据迁移的模式把逻辑功能分组成可重用的组件。

  例如,在大部分数据集成流程中,有源系统级的也有企业级的数据质量检查。基于目标的技术实现的功能,既与将要使用的流程(在这种情况下是提取流程)接近,也在通用组件模型中对企业能力进行了分组。

  例如,对于具体源系统的数据质量检查,基于目标的技术简单地把逻辑转移到提取流程,而本地转换被转移到加载流程中,分组企业级数据质量和转换被按照通用组件级别分组。如图3.11显示。

图3.11 在“是什么”和“如何做”之间分配逻辑功能。(点击放大)

  基于目标的数据集成设计技术不是一个新的概念:耦合和内聚性,模块化,对象和组件都是把“原材料”分组成可以理解的和高可用工作单元的技术。基于目标的技术是在数据集成模型中模块化核心功能的一种简单方法。

  物理源系统数据集成模型

  提取数据集成模型的源系统从源系统提取数据,执行源系统数据质量检查,然后使数据与具体主题领域文件格式相适应。如图3.12所示。

  逻辑提取模型与物理源系统数据集成模型的主要差异在于,它关注于最终设计考虑因素,需要从具体源系统提取数据。

  设计提取验证流程

  从源系统文件来的数据被通过控制文件提取并验证。控制文件是一种数据质量检查,验证数据行数和总量控制(举例来说,贷款数量为了针对具体源提取验证被合计起来)。

  具体源系统应用的数据质量规则正是在这里。应用具体源系统数据质量规则的基本原理在特定的源系统,而不是在一个整体数据质量任务,这样对维护和性能有好处。巨大的数据质量工作变成了维护的噩梦。它还需要不必要的系统内存量来加载所有数据质量流程和变量,这会减慢整个工作流程的时间。

  跨系统依赖在这种模型中应该被处理。例如,连接协议到一起的关联关系在这里应该被处理。

图3.12 物理源系统提取数据集成模型示例。(点击放大)

  物理通用组件数据集成模型

  物理通用组件数据集成模型包含企业级业务数据质量规则和通用转换,这些转换将被多种数据集成数据应用。该架构层是整个数据集成流程中重用性的至关重要焦点,尤其强调利用现存的转换组件。任何新组件都必须满足可重用性的标准。

  最终,在设计通用组件数据集成模型中,处理流程是在并行被构建的地方检查的,为设计基于预期数据卷并在当前数据集成技术的限制内进行。

  通用组件数据质量数据集成模型

  通用组件数据质量集成模型通常是非常“瘦小”的流程模型(功能较少),它使用企业级数据质量规则。一般来讲,具体的源系统数据质量规则本质上是技术性的,而业务数据质量规则往往是在企业级应用的。

  例如,性别或者邮政编码被视为是可以针对所有待处理数据应用数据质量规则的业务规则。图3.13描绘了通用数据质量数据集成模型的一个示例。

  请注意,具体源数据质量规则已经被转移到了物理源系统提取数据集成模型,更精简的数据质量流程是在通用组件级别。更少的数据确保数据流不会收到不必要的限制,而且整体处理性能会得到改善。

图 3.13 通用组件——数据质量数据集成模型示例。(点击放大)

相关推荐

  • 数据库设计需做好前期工作 Agile方法不适合

    有很多企业认为数据建模以及设计良好的数据库是浪费时间的工作,对此专家的回答很直接:决不能忽视数据库设计过程。

  • SAP HANA数据建模秘籍

    SAP HANA是一个全新的数据库平台,它提供了全新的数据建模方式,使得传统关系型数据库管理系统(RDBMS)得到了进一步的扩展。

  • NoSQL数据建模技术

    NoSQL 数据库经常被用作很多非功能性的地方,如,扩展性,性能和一致性的地方。这些NoSQL的特性在理论和实践中都正在被大众广泛地研究着。

  • TDWI解决方案峰会分享主数据管理最佳实践

    在近期召开的TDWI(数据仓库协会)解决方案峰会上,几位从事主数据管理(MDM)和数据治理的专家以演讲方式分享了他们的经验和MDM最佳实践。