选择ETL工具时的三个注意事项

日期: 2012-02-05 作者:Derick Jose翻译:孙瑞 来源:TechTarget中国 英文

在数据库管理技术中,提取、转换、加载(ETL)操作扮演了一个非常重要的角色。根据实际的操作需求,DBA可以通过ETL手段对客户数据有一个全方位的掌控。有一些人认为,ETL只是简单地将数据从多个源系统中提取出来,然后在加载到数据仓库中进行转换和集成。但是在实际操作当中,ETL要比想象的复杂许多,因此DBA需要对它有一个熟练的掌握。

本文就将介绍关于ETL的几点注意事项,希望引起您的足够重视。   良好的ETL中断重启功能   试想这样一个情况,你需要对19个数据加载进行转换,而由于某些原因在进行到第9个的时候发生了中断,那么再进行转换的时候你肯定不希望重头再来一遍。所以当遭遇操作中断的时候,能够从……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

在数据库管理技术中,提取、转换、加载(ETL)操作扮演了一个非常重要的角色。根据实际的操作需求,DBA可以通过ETL手段对客户数据有一个全方位的掌控。有一些人认为,ETL只是简单地将数据从多个源系统中提取出来,然后在加载到数据仓库中进行转换和集成。但是在实际操作当中,ETL要比想象的复杂许多,因此DBA需要对它有一个熟练的掌握。本文就将介绍关于ETL的几点注意事项,希望引起您的足够重视。

  良好的ETL中断重启功能

  试想这样一个情况,你需要对19个数据加载进行转换,而由于某些原因在进行到第9个的时候发生了中断,那么再进行转换的时候你肯定不希望重头再来一遍。所以当遭遇操作中断的时候,能够从中断点继续进行操作的功能是十分必要的。如果ETL操作受阻,报表将得不到及时的更新,导致的结果就是管理人员只能从陈旧的数据中做出决策,想必这是所有人都不愿意看到的。

  要解决上述问题,你需要建立一个“记录点”机制。如果任务被迫中断,你可以在记录点上继续完成任务,这有点像过关游戏中的“checkpoint”。因此,在选择ETL解决方案的时候,这样的功能应该是最优先考虑的选项之一。

  另外,你还可以利用C语言等编写一个中断处理程序,这个程序将存储ETL操作的进程,它会记录故障点,然后再任务重新开启之前寻找到正确的位置。一个重要的准则,就是数据移动的速度究竟有多快。在这一点上,当评估ETL工具的时候,还需要考虑性能级别和重启功能。

  管理快速变更的数据集

  为能够顺利运行ETL操作,你所选择的工具应该拥有以下几个功能:

  • 处理海量数据;能够将数据以最快地速度从一个地方转移到另一个地方。
  • 实时监测交易的变更,并对数据进行同步。
  • 能够处理多种数据类型,包括文本、非结构化数据等。
  • 利用多处理进行分布式操作以及并行处理。

  任何一款自动化ETL工具都必须能够提供最低级别的块复制功能,并拥有非常好的快速变更数据集管理特性。

  针对大数据,为Hadoop/Hive/PIG架构建立一个沙箱。你需要有一个轮廓清晰的策略,在这基础上,新一代的大数据架构能够同之前的系统并存。你还需要对团队进行大数据技术培训,以应对新的ETL挑战。或者直接招募新的技术人员,对大数据处理有相关经验的员工,也可以免去一些培训的繁琐任务。

  将数据加载到个体数据集市

  在没有一个集中化的数据库情况下,拥有数据模板是非常重要的。它们是标准化的接口,每一个个体或者部门数据集市都能够填充。确保你的ETL工具有这样的功能,能够扩展到一个数据仓库平台,将信息从一个数据集市流动到下一个。

翻译

孙瑞
孙瑞

相关推荐