没人怀疑数据质量是一个企业商业智能的基础,但是除了质量之外如何管理数据,特别是如何管理海量数据给每一个企业提出了难题。 所谓的“Big Data”是由IBM和Gartner分析师提出的概念,我们比较时髦的称其为大数据,根据Yahoo公司前任首席数据官兼副总裁Usama Fayyad的说法,处理大数据能够测试一个企业的传统数据仓库能力,如ETL等。 为何说“分析”是大数据的未来? Fayyad曾被视为数据挖掘领域的No.1,他演讲大多是来自于亲身经历,他向我们解释了为什么说分析是大数据未来的发展方向。 早在上世纪90年代,Fayyad就职于NASA的喷气推进实验室。
来自于Palo……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
没人怀疑数据质量是一个企业商业智能的基础,但是除了质量之外如何管理数据,特别是如何管理海量数据给每一个企业提出了难题。
所谓的“Big Data”是由IBM和Gartner分析师提出的概念,我们比较时髦的称其为大数据,根据Yahoo公司前任首席数据官兼副总裁Usama Fayyad的说法,处理大数据能够测试一个企业的传统数据仓库能力,如ETL等。
为何说“分析”是大数据的未来?
Fayyad曾被视为数据挖掘领域的No.1,他演讲大多是来自于亲身经历,他向我们解释了为什么说分析是大数据未来的发展方向。
早在上世纪90年代,Fayyad就职于NASA的喷气推进实验室。来自于Palomar天文台的科学家共管理者3个TB的数据,他们通过各种照片以及公式来试图区分银河系中的各种行星。而每张照片中都将抽取出40多个不同的变量,这使得精确预测成为不可能完成的任务。
Fayyad说:“这个数据集意味着数十亿个看上去类似的对象。”
Fayyad和他的团队使用了决策树算法作为数据挖掘的基础,来确定这40多个变量对不同分级的作用,他们最终找到了8个变量的集合,正是这8个变量困扰了天文学家将近30年。
“这在天文观测领域是一件轰动的发现,而建立的数据模型能够将准确率提升到94%。” Fayyad说。
但并不熟所有的分析技术都像天文观测这样复杂,有些时候很小的元素甚至是很明显的元素都是非常重要的。
Fayyad和他的团队在2003年成立了DMX公司,专注于数据挖掘领域,并在2004年被互联网公司Yahoo收购。之后,Fayyad又帮助戴姆勒克莱斯勒公司进行微市场销售预测工作,除了建立一些数据集市之外,他还在报表呈现上做了一些工作。Fayyad向我们介绍,当报表以不同的方式呈现出来之后,结果变得非常明显,然而这里面的数据时没有变化的,都是他们之前的数据。
作者
Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]