当“大数据”和“高性能数据分析”这些词汇成为SAS 2011年度分析系列会议的流行语时,与会者表示,目前主要的分析障碍仍然可以概括为一个词:数据质量。
这个问题也并不是什么惊人的发现了。在2010年英国商业应用软件研究中心(简称BARC)发起过一次2000人以上的调查,在该调查中发现BI项目的头号障碍就是低劣的数据质量。2009年Gartner研究公司针对140家公司也做过一次调查,其中22%的公司估计他们每年在坏数据上的损失能达到两千万美元。
Michael Click是美国亚特兰大太阳信托银行公司(SunTrust Banks)数据库营销分析师,他说:“在大型组织中,你有从各条业务线收集到的不同数据。当试图把所有数据集中起来做全面分析时,我发现匹配数据是相当有挑战的事。”
Click强烈要求数据集中,这样可以帮助消除数据孤岛,他的同事Adam Lewis也同意他的观点。他说:“你可以得到唯一的真相。这样你就不必花时间解释为什么一组数据可能与另一组数据有细微差别了。”
Lewis说,事实上,如果来自不同团队的数据与开始交流时确定的不一致,讨论可能就该结束了。
Click说,“每一个细小的差异都可以令人失去信心。我们是要用数据说话,而不是要讲故事。”
不是只有Click和Lewis把数据质量问题放在了问题列表的首位,其他人也在关注。
Paulo Cost是Cisco系统公司高级分析总监,他说:“我们一直在遇到的一个问题就是数据质量问题,你一定知道俗话说‘进来是垃圾,出去也一定是垃圾。’”
例如,Cisco的B2B电子商务市场使用Dun & Bradstreet的商业数据。Costa说,当这些数据即将改造时,我们仍然需要做一些工作:“数据需要值得整理,而对应的外部和内部源可能会有问题。”
问题是存在的,而且很耗时。Costa估计分析师80%的时间都花在了单独数据准备上了。在组织继续面对数据质量问题的同时,最著名的供应商产品发布都集中在不连贯的、更大的大数据困扰中。
在早些时候,微软公司宣布与Hortonwork公司建立了新的合作伙伴关系,后者致力于Hadoop开发。在十月份,Oracle公司发布了其新版NoSQL数据库企业版,它是运行于Hadoop之上的大数据软件之一。
最新的发布出现在SAS公司2011年度分析系列会议上,SAS放弃了Hadoop路线,计划发布“高性能分析”的新平台。该应用与Teradata公司和EMC公司Greenplum合作之后,提供了数据库分析和内存分析的结合,可以为大数据负荷提供更高效、更快的计算能力。
当然,目前并不是所有企业都把数据质量或者甚至是大数据看作严重问题来关注。一位不愿透露姓名的与会者透露了他所在公司的策略,他认为坏数据确实是问题,而且最终要被解决。但更紧迫的问题是为在经济形势扭转时的变革做准备。
他说:“我们如何在风险不再是一个关键问题时保留我们的风险分析团队是一个大问题。”
作为总部设于美国中西部联邦储备银行团队的一员(金融崩溃之后增招过人员),他说,经济最终一定会反弹,那就意味着金融体系会将他和其他分先分析师的重要角色降级。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]