在数据库管理技术中,提取、转换、加载(ETL)操作扮演了一个非常重要的角色。根据实际的操作需求,DBA可以通过ETL手段对客户数据有一个全方位的掌控。有一些人认为,ETL只是简单地将数据从多个源系统中提取出来,然后在加载到数据仓库中进行转换和集成。但是在实际操作当中,ETL要比想象的复杂许多,因此DBA需要对它有一个熟练的掌握。
本文就将介绍关于ETL的几点注意事项,希望引起您的足够重视。 良好的ETL中断重启功能 试想这样一个情况,你需要对19个数据加载进行转换,而由于某些原因在进行到第9个的时候发生了中断,那么再进行转换的时候你肯定不希望重头再来一遍。所以当遭遇操作中断的时候,能够从……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
在数据库管理技术中,提取、转换、加载(ETL)操作扮演了一个非常重要的角色。根据实际的操作需求,DBA可以通过ETL手段对客户数据有一个全方位的掌控。有一些人认为,ETL只是简单地将数据从多个源系统中提取出来,然后在加载到数据仓库中进行转换和集成。但是在实际操作当中,ETL要比想象的复杂许多,因此DBA需要对它有一个熟练的掌握。本文就将介绍关于ETL的几点注意事项,希望引起您的足够重视。
良好的ETL中断重启功能
试想这样一个情况,你需要对19个数据加载进行转换,而由于某些原因在进行到第9个的时候发生了中断,那么再进行转换的时候你肯定不希望重头再来一遍。所以当遭遇操作中断的时候,能够从中断点继续进行操作的功能是十分必要的。如果ETL操作受阻,报表将得不到及时的更新,导致的结果就是管理人员只能从陈旧的数据中做出决策,想必这是所有人都不愿意看到的。
要解决上述问题,你需要建立一个“记录点”机制。如果任务被迫中断,你可以在记录点上继续完成任务,这有点像过关游戏中的“checkpoint”。因此,在选择ETL解决方案的时候,这样的功能应该是最优先考虑的选项之一。
另外,你还可以利用C语言等编写一个中断处理程序,这个程序将存储ETL操作的进程,它会记录故障点,然后再任务重新开启之前寻找到正确的位置。一个重要的准则,就是数据移动的速度究竟有多快。在这一点上,当评估ETL工具的时候,还需要考虑性能级别和重启功能。
管理快速变更的数据集
为能够顺利运行ETL操作,你所选择的工具应该拥有以下几个功能:
- 处理海量数据;能够将数据以最快地速度从一个地方转移到另一个地方。
- 实时监测交易的变更,并对数据进行同步。
- 能够处理多种数据类型,包括文本、非结构化数据等。
- 利用多处理进行分布式操作以及并行处理。
任何一款自动化ETL工具都必须能够提供最低级别的块复制功能,并拥有非常好的快速变更数据集管理特性。
针对大数据,为Hadoop/Hive/PIG架构建立一个沙箱。你需要有一个轮廓清晰的策略,在这基础上,新一代的大数据架构能够同之前的系统并存。你还需要对团队进行大数据技术培训,以应对新的ETL挑战。或者直接招募新的技术人员,对大数据处理有相关经验的员工,也可以免去一些培训的繁琐任务。
将数据加载到个体数据集市
在没有一个集中化的数据库情况下,拥有数据模板是非常重要的。它们是标准化的接口,每一个个体或者部门数据集市都能够填充。确保你的ETL工具有这样的功能,能够扩展到一个数据仓库平台,将信息从一个数据集市流动到下一个。
作者
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
OpenWorld18大会:Ellison宣布数据库的搜寻和破坏任务
在旧金山举行的甲骨文OpenWorld 2018大会中,甲骨文首席技术官(CTO)兼创始人Larry Elli […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]