接上文:Yahoo前任数据官:数据挖掘与分析技巧(上) 数据管理技巧 与大数据管理相关的挑战还包括数据存储与计算。Fayyad为可能遇到的困难提供了一些小技巧,并建议企业应该保持开放的心态。 比如大数据意味着在处理器上投入更多资金,有时甚至是非常昂贵的。因此,有些企业将考虑云存储解决方案,作为更加经济的选择,但是Fayyad表示,先不管云计算方案能够提供怎样的便利和经济效益,但是将数据迁移到云同样需要非常大的带宽资源,这部分成本也会不低到哪去,在维护方面也将遇到更多问题。
Fayyad还提醒,根据他在Yahoo工作的经验来说那些昂贵的即席沙箱计算(ad hoc sandbox ……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
数据管理技巧
与大数据管理相关的挑战还包括数据存储与计算。Fayyad为可能遇到的困难提供了一些小技巧,并建议企业应该保持开放的心态。
比如大数据意味着在处理器上投入更多资金,有时甚至是非常昂贵的。因此,有些企业将考虑云存储解决方案,作为更加经济的选择,但是Fayyad表示,先不管云计算方案能够提供怎样的便利和经济效益,但是将数据迁移到云同样需要非常大的带宽资源,这部分成本也会不低到哪去,在维护方面也将遇到更多问题。
Fayyad还提醒,根据他在Yahoo工作的经验来说那些昂贵的即席沙箱计算(ad hoc sandbox computation)也许并不适合Hadoop。Hadoop是基于Google MapReduce平台的开源项目,用来分析海量数据集。Yahoo是该项目的最大贡献者之一。
“一旦发现我们对数据的需求,人们往往会坚持使用Hadoop。网格的方式对探索新的计算是件好事,但对于长期的存储解决方案也许并不是一个好的选择。”
数据分析技巧
Fayyad向我们描述了某些数据仓库的恶性循环问题,虽然业务认为数据和分析是极为重要的,但是许多业务需求无法满足的现状导致进一步存储投资无法开展。
他建议通过提取数据摘要的方式进行数据缩减,将数据快速准确地映射到分段和计算仪表盘中。通过这样的工作,你可以弄清有多少基础架构需要支持它。
除此之外,Fayyad还简短地介绍了下数据挖掘相关的内容,他说:“数据挖掘受到越来越多人的重视,许多有趣的查询是无法由SQL来完成的。”
作者
Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2016实时操作分析 你值得拥有
分析有助于提高商业运营的效率,SQL Server 2016允许用户在事务数据库的操作型数据上完成实时分析。
-
Azure数据湖分析从U-SQL中获得提升
大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。
-
进入机器学习时代,数据库何去何从?
Vertica之前就已经能够对Hadoop数据进行访问,但Vertica8.0分析引擎则能够与Hadoop数据适当协作,如此一来就能减少数据迁移。