SAP HANA:实时企业需考虑实时数据质量问题

日期: 2014-08-07 作者:Don Loden 来源:TechTarget中国

数据治理以及数据质量的衡量与监控对于企业来说永远都是最重要的事情之一,因此我们会在整个流程中花很多时间与金钱来处理数据质量问题。而随着SAPHANA这样的新技术的出现,源系统的数据质量就变得更加重要。 在SAP HANA中,我们可以直接调用源数据来制作报表,而不用通过多层的抽取转换和加载(ETL)操作。对于记录系统(System of record)来说,这是非常强大的能力,可以进行实时的报表功能。

然而,数据质量管理一般是在ETL过程中完成的,在源系统的实时任务中无法实现。 与其他场景相类似,任何维度的报表都需要准确的数据作为支撑,特别是在Business Suite onHANA作为主要记录……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

数据治理以及数据质量的衡量与监控对于企业来说永远都是最重要的事情之一,因此我们会在整个流程中花很多时间与金钱来处理数据质量问题。而随着SAPHANA这样的新技术的出现,源系统的数据质量就变得更加重要。

在SAP HANA中,我们可以直接调用源数据来制作报表,而不用通过多层的抽取转换和加载(ETL)操作。对于记录系统(System of record)来说,这是非常强大的能力,可以进行实时的报表功能。然而,数据质量管理一般是在ETL过程中完成的,在源系统的实时任务中无法实现。

与其他场景相类似,任何维度的报表都需要准确的数据作为支撑,特别是在Business Suite onHANA作为主要记录系统的时候。现在我们可以直接调用Suite数据来制作报表,因此存储在HANA中的源数据就必须是高质量的。

根据以往经验,客户的一些数据质量问题都是通过数据交换过程中在冗余集结层上解决的,BI系统往往需要遍历整个过程才能完成这一操作。它能够帮助在源系统中进行数据质量的管理,同时也会造成延迟的问题。在HANA中,SAP抛弃了集结数据库层和BI系统中的冗余数据,从而实现性能(当然内存技术也会加速系统性能)。但如果客户不注意数据质量或者对源数据不进行治理与监控的话,HANA能做的就只是更快地为你提供低质量的坏数据。

事实上,企业在数据质量方面已经有了所需要的设计,即BI系统中的ETL操作。企业需要做的就是将这一设计从“事件发生之后”的模式,转换为一个并行实时的“事件发生时”的模式。这些机制必须要求企业理解什么叫做实时,实时POE数据质量管理对于很多企业还是“未来时”,但如果部署了SAP HANA,那么它就必须成为“现在时”。

那么实时的数据治理究竟有什么不同?最明显的,实时治理需要实时进行,它会给企业带来一些挑战。许多主数据管理工作对于企业来说还是反馈过程,像数据匹配、清洗这样的操作往往是基于交易延迟的,数据必须收集并处理(高质量、冗余)放到一个清洗容器当中。在SAPHANA实时处理当中,这些操作并不是说就不需要了,但新的数据质量问题需要有新的方法来解决。

企业必须在这方面提起注意。过去很多年,企业都在使用这些方法来进行数据质量管理。而转换到实时企业的过程并不是一朝一夕就能完成的。所以,别以为加速这一过程是很简单的事,即使是像Google这样的巨头也需要多年的研究才能做到这一点。

SAP在数据服务中提供了一些数据质量管理工具,包括了数据匹配、不同类型的数据清洗(批量、实时)等。SAP数据服务提供了实时服务,即在Suite on HANA中数据生成的一刻起就可以启动该服务。实时的SAP数据质量服务并不提供唯一的答案,但它会提供一个特定的补充来填补临时数据质量的缺陷。

实时数据质量解决方案

如上文所述,SAP HANA为企业带来了新的挑战,也为已有的数据质量解决方案提出了新的问题。一个很明显的方法是在数据生成的时候就解决质量的问题,但这是一个难以实现的目标,很多企业在过去的系统中都未必有成熟的数据质量与数据治理方案。因此,我们建议客户使用SAP自带的数据服务工具,这对于实现实时的数据质量管理是非常有帮助的。在SAP数据服务当中,包含了以下几个主要的功能:

  • 针对240个国家的地址数据清洗
  • 地址建议功能
  • 针对不同国家地区的数据质量清洗包,能够实现开箱即用的公司数据清洗
  • Geocoding
  • 街道确认功能
  • 复杂匹配转换,提供完全自定义的重复数据删除功能

客户可以直接从Business Suite中调用这些功能,因此任何报表应用都可以实时从中获得数据质量管理能力。它们并不是已有的MDM hub解决方案的替代品,你可以将它们视为强大的功能补充,用来解决固有的延迟问题。你现在可以更快地获得更好的数据,这些技术为已有的数据质量功能提供了良好的补充。SAP数据服务的实时功能就像是轻量级的MDM,在改善已有流程中起到了非常好的作用。

相关推荐