大数据背景下的数据仓库最佳实践

日期: 2011-11-02 作者:Alan R. Earls翻译:曾少宁 来源:TechTarget中国 英文

Wayne Eckerson是TechTarget业务应用程序和架构媒体部门的研究主管,他总结说:如果想要成功处理“大数据”,您需要正确的文化、人员、数据和工具。只要将所有这些元素整合在一起,就能够形成一个数据仓库最佳实践计划。   根据Eckerson和其他分析师的看法,实现这个过程需要精心计划,以及清晰理解大数据管理技术和过程所带来的潜在机会和挑战。   首先,Eckerson说,“您的企业最高领导必须愿意”购买所需技术,并决心培养面向分析的文化来保证公司将会使用这些信息,最重要的是“不会回归使用电子表格”进行数据分析。

当组织寻求应对大数据存储和管理挑战时,他们需要制造转向使用更有针对性数……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

Wayne Eckerson是TechTarget业务应用程序和架构媒体部门的研究主管,他总结说:如果想要成功处理“大数据”,您需要正确的文化、人员、数据和工具。只要将所有这些元素整合在一起,就能够形成一个数据仓库最佳实践计划。

  根据Eckerson和其他分析师的看法,实现这个过程需要精心计划,以及清晰理解大数据管理技术和过程所带来的潜在机会和挑战。

  首先,Eckerson说,“您的企业最高领导必须愿意”购买所需技术,并决心培养面向分析的文化来保证公司将会使用这些信息,最重要的是“不会回归使用电子表格”进行数据分析。当组织寻求应对大数据存储和管理挑战时,他们需要制造转向使用更有针对性数据仓库平台的可能性。Eckerson说,这些产品能够实现比通用数据库高“一个数量级”的处理性能。

  然而咨询公司Winter Corp的总裁Richard Winter警告说,Hadoop和MapReduce等新兴技术并非是所有大数据管理问题的解决方法。Winter说,企业必须要谨慎,不能“急于将婴儿放进浴池里。有些人认为他们现在就能够使用Hadoop做任何事,而停止购买传统数据仓库技术——但是,对于大多数企业而言,这是错误的。”

  Winter建议先寻找独立应用程序,评估最适合大数据应用的平台。他说,要考虑两个关键因素:数据保存时间有多长,以及数据使用方式是什么。核心事务数据属于数据仓库,它可以基于长期使用和价值进行系统管理。另一方面,点击流数据、反映客户情感的社交网络内容和其他非结构化数据可能适合保存在一个Hadoop集群中,特别是那些保存时间不如事务数据长的信息。组织中数据的广泛访问方式也会影响技术平台的选择。

  按照Forrester和Gartner的定义,容量并不是大数据的唯一特点;这两家公司都重视这样一些属性,如种类和可变性。但是Forrester分析师James Kobielus说,在实践中,准备一个数据仓库来处理大数据本质仍然是关于可扩展性的问题。此外,他提出了三个关于数据仓库最佳实践的技巧,目的是帮助组织交付更强大和更具扩展性的系统。

  大数据决策点:纵向扩展还是横向扩展?

  首先,要考虑数据仓库架构升级和可能的构建并行性。Kobielus说,可能的步骤包括基于共享内存的对称多处理器纵向扩展数据仓库服务器节点,或者使用服务器集群或无共享的大规模并行处理系统进行横向扩展。将MPP安装分成中心、分段和查询层是另一种方法。但如果不注意底层技术架构而草率地实施这种改变,很可能会产生不良结果。例如,单核CPU可能无法满足MPP需求,而一般必须增加存储I/O带宽才能够支持增长的处理能力。

  其次,企业考虑在硬件和软件能够解决具体性能问题或缺陷时,采用数据仓库集成设备。第三,他建议公司对数据仓库的数据管理和存储分层进行优化,以提高性能。这可能包括压缩数据来提高效率,优化数据库模式,联合与分区,以及使用非传统数据库技术,如“特殊用途的”列式或者内存数据库。

  Lyndsay Wise是咨询公司WiseAnalytics的总裁和创始人。她指出,大数据项目通常的最终目标通常与传统数据仓库项目相同——例如,提供能够帮助业务用户确定客户购买模式或协助欺骗识别的信息。它们面临的挑战也是类似的:“我们处理的数据包含许多不同的细微差别,但是结构往往取决于完整性和数据质量问题,或者受到数据管理和数据监管的影响。”

  但是,Wise补充道,这些挑战的难度可能由于管理的数据量和复杂性而进一步提升,特别是当大数据项目需要从多个数据源获取信息时。结果,将大数据整合到一个数据仓库过程的公司需要认真评估他们的能力。Wise说:“组织希望表明他们拥有最好的IT人员,但是除非他们的DBA和开发人员精通于数据仓库和专业的大数据技术,否则购买外部服务更有利于真正实现一个强大的平台。”

  Wise指出,对于大数据,从分析角度确定希望实现的目标,以及预先决定所需要的信息与影响整合的问题类型,都是至关重要的。“一定要理解各方面的相互关系。”

作者

Alan R. Earls
Alan R. Earls

TechTarget资深作者

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐