一、 背景介绍
随着企业信息化建设的发展,巨大的投资为企业建立了众多的信息系统,但是随着IT系统的增加,各自孤立工作的IT系统将会造成大量的冗余数据和业务人员的重复劳动,而采用传统点对点的数据整合方式将使得系统的集成费用和维护成本成倍增加。各自分离运行的IT系统造成的结果是:
·产生大量的冗余数据。
工作人员在不同的应用系统,重复录入相同的数据,不仅增加了业务人员的工作量。还有可能因为不同业务系统数据的不一致,产生歧义。
·无法为领导的提取有效的决策信息
决策信息的来源往往是从多个应用系统数据中综合提炼出来的,而目前这些数据保存在各自独立的业务数据库中,很难合并。目前的应对方法是对各下级单位送上来的报表进行手工并表,处理繁琐,并且容易出错。
信息整合,在近两年成为企业信息化建设的热点,应该说信息整合是企业对信息系统建设的一个总结。从信息整合的驱动力来说,是为了解决企业内的”蜘蛛网”、”信息孤岛”等问题而产生的。通过建设信息整合系统,有效地在各个信息系统之间架起了数据整合的平台。为企业工作疏通了脉络,提高了信息系统的整合能力。
达梦公司的企业应用整合方案是建立在数据整合基础上的应用整合方案。主要使用的技术包括异构数据库的数据抽取、数据同步。达梦企业应用整合产品即可以单独应用于企业应用整合,又可以与作为数据仓库的前端数据收集,与达梦智能报表系统、达梦辅助决策系统等联机分析处理系统构成一整套的企业数据仓库解决方案。
二、平台实现总体框架
系统主要是利用数据整合工具,构建数据整合平台。方案中包括如下部分:
·底层支撑平台,包括网络建设、硬件设备、操作系统是系统运行的基础。
·原业务系统数据库,是数据整合的数据来源。
·数据整合平台,是使用DM数据整合产品构建的多系统间数据整合的通道。
·通过数据整合平台,业务数据可以汇总整合到企业的中心数据库上。
·在数据整合平台的基础上,可以实现领导辅助决策、智能报表工具、查询和统计分析
三、达梦数据整合产品介绍
数据整合产品使用武汉达梦数据库有限公司的数据整合产品,DMEDI 1.0。
DMEDI是达梦数据仓库产品的一部分,即可以单独应用于数据整合,又可以与作为数据仓库的前端数据收集,与达梦智能报表系统、达梦辅助决策系统等联机分析处理系统构成一整套的数据仓库解决方案。
DMEDI的技术架构如下:
1、数据采集、装载和加工
数据采集、装载和加工完成数据抽取的主要功能,包括数据采集、文本数据导入导出、数据类型转换、数据过滤、数据规整等数据加工工序。
由于数据源的多样性,数据传输条件等不确定性以及用户对最终统计数据的选择性等因素,使得数据采集、装载和加工在处理上需要考虑数据采集过程中对不同业务数据不同的数据加工处理要求。达梦ETL工具中,将这些数据加工处理模块设计为具有统一接口的处理组件,组件和组件间是松耦合的关系,可以根据需要,任意组装这些数据加工处理组件。
2、数据过滤
在数据整合时,系统提供对源数据的字段、元组的过滤,保护业务系统的私密数据。
3、数据规整
系统可以将不同的业务数据库数据字段,按照数据整合平台定义的标准元数据类型进行规整。
4、数据存储和缓冲
达梦ETL处理过程中,可以将数据暂时保存在ETL内嵌的达梦数据库中,待需要的时候再取出处理。利用达梦数据库缓存中间数据,提供了更好的稳定性。
5、消息传输组件
在达梦ETL工具中,可以选择由达梦ETL工具的信息交换组件负责整个数据整合工作的消息传输。也可以选择第三方的消息中间件,也可以不使用消息组件,直接使用ETL工具通过JDBC来访问数据库。
6、安全管理
安全管理功能包括:身份验证、权限管理、数据加密。
首先,采用DMEDI数据整合工具,客户端与数据库服务器之间支持采用第三方的通信加密算法,对通信内容进行加密,保证通信安全。
其次,在交互平台内部,对每个数据节点进入的请求都有身份验证处理,对于不同的身份,设置了不同的执行权限,对于普通交易和非特权用户,不允许直接访问业务数据库和综合查询库,相当于在原有数据库安全管理之外,提供了新的数据防火墙。
最后,由于交换平台和前置机系统有效地将中心服务器上的应用程序和业务服务器上运行的业务系统相隔离,二者有互相独立的身份验证和权限管理,数据整合必须通过数据整合平台标准的数据整合接口进行安全认证和数据过滤,杜绝了保密信息泄露的可能。
四、系统功能特性
1、跨操作系统平台的数据整合
DM数据整合平台客户端用JAVA语言编写,核心通信用C语言编写。基于标准的JDBC接口和SQL92语法标准,与操作系统平台无关。
2、支持异构数据源的数据整合
DM数据整合平台预备了多套JDBC适配器,可以通过不同的JDBC适配器与其他数据库相关联。
3、支持异构数据类型的自动转换
因为DM数据库在标准性和通用性上,相对其他数据库有较好的表现。数据整合平台以DM数据库标准数据类型作为系统的元数据类型。在读取其他数据源的数据类型时,自动转换成DM数据类型。
4、数据规整规则与实现
(1)数据规整解决的问题
在数据整合的过程中,由于各业务系统的信息化经过长期的积累和发展,数据格式参差不齐,各自孤立运行的系统无法互相比对和参考,产生了数据数据规整的要求。主要表现为数据格式不一致,同一个含义的数据字段,在不同的系统中,它的格式不相同,举例来说,性别字段,在有的系统中是用1位整数来描述,0为男,1为女。有的系统中是用1位字符来描述,M为男,F为女。这样不同的字段格式和字段含义在数据整合的过程中必须转化为相同的格式。才能方便数据中心在统一的数据格式的基础上进行数据分析。
(2)数据规整的实现
数据规整被定义为系统内的一个数据加工组件,和其他数据加工组件一样,它运行定义一个数据加工规则和运行参数。举一个配置实例如下:
……
<steps>
<step service_name=”DX_TransF” parm=”columnname:type:lenth:precision|…… “/>
</steps>
……
steps元素定义了数据整合的流程,在steps之间出现的step元素是用来定义数据加工组件的,service_name属性是用来定义数据加工组件的名字,DX_TransF这个名字就对应了数据规整组件,在数据整合流程执行到这个step的时候,会把parm属性的值交给数据加工组件去分析处理,在DX_TransF组件里会把这个parm按照字段名、字段类型、字段长度、字段精度来分解。然后将当前字段按照parm规定的字段属性来进行转换。完成的字段规整。
如果有多个字段需要进行规整,则多个字段间用“|”来分隔。
5、二义数据的清洗
(1)数据二义性错误
数据二义性错误,由于原业务系统都是分离运行的,因此相同的实体信息,在不同的系统其属性状态也许是不同的,数据整合的目的就是要消除这种错误的影响,唯一的实体,在全局系统内的状态都是一致的。
(2)消除二义数据
为了消除二义数据,需要在数据加工的流程中增加一个数据清洗组件。数据清洗组件制定一组关键属性,根据这组关键属性,在中心数据库中检查数据冲突和二义性问题。配置实例如下:
……
<steps>
<step service_name=”DX_Clean” parm=” keycol1|keycol2|…… “/>
</steps>
……
从这个配置的parm中, keycol1、keycol2都是关键属性的名称。数据在向中心汇总的时候,首先检查当前中心中是否存在有一条记录的关键属性与当前这条待插入的新纪录的属性值相同,如果存在,则是冲突数据,记录在冲突数据报表,可供管理员手工调整。或者按照预先制定的优先级别,自动调整冲突数据。
6、数据过滤规则与实现
在数据整合工具中,提供数据过滤的功能,提供对源数据的字段、元组的过滤,保护业务系统的私密数据。
为了过滤数据,可以在数据加工的流程中增加一个数据过滤组件。数据过滤组件制定一组过滤规则,根据这组规则,数据整合时进行过滤:
……
<steps>
<step service_name=”DX_Filter” parm=” keycol1>1000 AND keycol2<100 “/>
</steps>
……
从这个配置的parm中, keycol1、keycol2都是关键属性的名称,parm就制定了一条交换数据的条件。在数据整合时,首先根据当前记录的值判断是否满足过滤条件,如果满足,则过滤该记录。
7、标准的数据总线
对于应用程序来说,数据整合平台提供了一条标准格式的通信线路,应用程序只需要按数据整合平台提供的标准接口填写通信包,而不需要知道每个消息包具体的物理地址、对方操作系统类型、对方数据库格式等等。数据整合平台将这些内部细节以XML文件的形式配置在交换平台服务器上,应用开发者不需要关心复杂的物理环境。
8、可靠的消息传递
DM数据整合平台消息传递的可靠性同时体现在消息的断点续传能力和消息的持久保存能力。
每一个通过数据整合平台发出的包,在收到成功回执之前,都会被数据整合平台以记录的形式保存在数据库表中,以确保消息不会丢失。也就是说每个通过数据整合平台转发的消息,一定能送达目的地。
9、可配置的计划调度
每个数据整合的行为,被分为3个动作,包括执行前、执行成功后、执行失败后。在计划调度模块,用户可以为每个动作自定义一组操作,当执行到这些动作时就触发用户定义的操作,以完成用户在数据整合前后所需要的特殊功能。
计划调度的流程在平台管理控制台上定义。
10、故障的自主检测和事后恢复
数据整合平台通过故障控制和检测管理模块定时向接入数据整合平台的数据源发送测试报文,如果测试报文连续发生丢失,则数据整合平台可以判断出该节点是否发生故障,能将该节点自动置为失效标志,并将所有发往该节点的数据操作记入恢复日志,当节点恢复运行后,将恢复日志的内容恢复到数据库节点上。
11、图形化的管理控制台
数据整合平台的图形化工具包括两个部分:
(1)服务器任务栏图标,可以反映服务器当前状态、启动服务、停止服务等功能。
(2)管理控制台:包括服务器状态监控、服务监控及组件设计器等三个主要功能部分;及其他辅助功能。
服务器状态监控,包含服务器的基本信息监控,如CPU、内存、网络状态等。
服务监控主要监控EAI基础服务的允许状态。
组件设计器可以通过图形化的方式,通过构件的拖拽实现组合件的构造。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
达梦数据库携手赛凡科技全面启动战略合作
2015年10月27日,知名国产数据库厂商北京达梦数据库技术有限公司和国内自主创新存储厂商北京赛凡智慧科技有限公司战略合作协议签约仪式在北京举行。
-
Sallie Mae分享数据治理最佳实践
最近,TechTarget对Sallie Mae公司的数据治理主管Michele Koch进行了采访,她谈论了公司的数据治理程序及其个人对数据治理最佳实践的看法。
-
大数据蔓延 企业需重新定位数据仓库策略
企业的数据仓库团队正面临着巨大的挑战,管理信息海啸或者我们称之为“大数据”,需要技术人员平衡已有的系统和新近的工具以及技术。
-
Sybase开发和维护必须熟知的日志知识
Log和数据库的Data一样,需要存放在数据库设备上,可以将Log和Data存放在同一设备上,也可以分开存放。一般来说,应该将一个数据库的Data和Log存放在不同的数据库设备上。