数据仓库过程中的“大数据”问题

日期: 2011-11-16 作者:Alan R. Earls翻译:曾少宁 来源:TechTarget中国 英文

许多组织都已经接触到了“大数据”,与任何新技术类似,大数据也可能涉及到许多IT和数据仓库团队必须小心处理的问题。   例如Forrester分析师Brian Hopkins认为,在进行大数据管理之前,组织需要确定传统的数据仓库策略和技术是否支持一些特殊信息环境,如通常是非结构化和可能不适合使用主流关系数据库的信息环境。   Ventana研究机构的分析师David Menninger指出,组织中可能有人会反对大数据措施,特别是涉及到新技术的时候。Ventana最近对163 家IT和各国家业务专业人员进行了调查,了解他们在使用Hadoop和管理大数据的相关问题。

Menninger说:“参与调查的……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

许多组织都已经接触到了“大数据”,与任何新技术类似,大数据也可能涉及到许多IT和数据仓库团队必须小心处理的问题。

  例如Forrester分析师Brian Hopkins认为,在进行大数据管理之前,组织需要确定传统的数据仓库策略和技术是否支持一些特殊信息环境,如通常是非结构化和可能不适合使用主流关系数据库的信息环境。

  Ventana研究机构的分析师David Menninger指出,组织中可能有人会反对大数据措施,特别是涉及到新技术的时候。Ventana最近对163 家IT和各国家业务专业人员进行了调查,了解他们在使用Hadoop和管理大数据的相关问题。Menninger说:“参与调查的人员告诉我们,他们遇到的最大障碍是人员和培训问题,因为这些技术差异性很大,为学习造成了难度。”

  例如,如果您理解如何在Hadoop集群中分布处理,那么您就可以避免移动大量的数据,因而可能实现更好更快的分析查询。但是您需要这方面的专业人才。

  Ventana的调查表明,关系数据库仍然占主流,即使在大数据管理方面也是这样。大约90%的受访者表示他们的公司完全使用关系数据库,75%的使用关系数据库作为大数据的主要支持技术。另一方面,超过半数受访者表示他们正在评估Hadoop,而有22%表示已经在生产环境应用这个开源技术,有12%表示计划开始在明年使用。Menninger说,按照这个调查结果,Hadoop通常是用来存储“宽松结构化数据——日志和事件数据及变化较小的文本和社交媒体数据。”

  令Menninger感到很意外的是,调查发现平面文件是第二流行的大数据管理技术,有70%的受访者采用这种方式。他说:“我认为,这在一定程度上是受Hadoop的影响。如果您使用平面文件,那么考虑使用Hadoop并不难。Hadoop其实也是使用平面文件的;虽然其中存在一定的复杂性,但是深入了解一下,实际上是相同的。”

  许多公司还应该考虑数据仓库过程中的另外两个可能的大数据问题:软件许可价格可能随数据容量增长而剧增,以及大数据技术和商业智能(BI)工具之间的整合不足。

  大数据:信息过多吗?

  Avanade是一家IT咨询和专业服务公司,它最近也发布了一份关于大数据趋势和挑战的研究报告,调查对象来自17个国家的543位C级执行官和IT决策者。Markus Sprenger是Avanade的BI和协同实践全球主管,他指出调查显示管理大数据的主要问题之一是如何确定哪些数据值得保存,哪些不值得保存。他发现这个问题关系到公司是如何识别相关数据,然后如何将它应用到决定过程的。

  为了响应Menninger 的一个观点,Sprenger补充说,拥有管理非事务形式大数据经验的IT和数据仓库从业者还太少,接受调查的公司和整个就业市场都存在这个问题。他说,组织一般具有成熟的处理结构化事务数据的过程,但是大多数公司仍然刚开始学习如何以系统的方式管理大量的非结构化数据和半结构化数据。

  这体现在技术层面上,其中有许多客户仍然在努力理解如何基于Hadoop和MapReduce实施大数据——即使组织的IT和数据仓库团队已经了解部署方法和负责大数据管理,问题通常仍然存在。

  Sprenger说:“我们的IT在服务水平上还未认可这些技术——这个过程可能会持续一两年时间。它现在在大多数组织中仍然处于实验阶段。”

      扩展阅读:大数据背景下的数据仓库最佳实践

作者

Alan R. Earls
Alan R. Earls

TechTarget资深作者

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐