接上文:处理大数据挑战:分布式计算的作用 大数据挑战需要管理监督 对于一些组织来说,管理和分析超大规模数据集的最大挑战之一就是搜索可以带来商业利益的有价值的信息,决定哪些数据可以被丢弃。 例如:UPMC是一家总部位于匹兹堡的医疗保健网络机构,它拥有20多家医院和超过五万名员工,该机构发现最近几年的数据存储突飞猛进地增长。William Costantini是该公司综合业务中心的副主任,他认为很大程度上是因为员工们不敢删除任何信息。 Costantini说:“目前最大的问题是要弄清楚哪些你可以清除,哪些你不能清除,因为每个人都害怕担责任和被起诉。
每个人都不敢丢弃任何信息或去掉任何……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
接上文:处理大数据挑战:分布式计算的作用
大数据挑战需要管理监督
对于一些组织来说,管理和分析超大规模数据集的最大挑战之一就是搜索可以带来商业利益的有价值的信息,决定哪些数据可以被丢弃。
例如:UPMC是一家总部位于匹兹堡的医疗保健网络机构,它拥有20多家医院和超过五万名员工,该机构发现最近几年的数据存储突飞猛进地增长。William Costantini是该公司综合业务中心的副主任,他认为很大程度上是因为员工们不敢删除任何信息。
Costantini说:“目前最大的问题是要弄清楚哪些你可以清除,哪些你不能清除,因为每个人都害怕担责任和被起诉。每个人都不敢丢弃任何信息或去掉任何内容。同时,每个人都想精打细算把数据量降下来。”
除了大数据量的调整,组织还要面临日益普及的“数据沙箱”,它使得数据分析师们要在信息子集上探索和体验,这些信息通常来自外部数据仓库。分析师们还表示,公司需要对沙箱保持密切关注,确保他们不会形成各不相容的数据“烟囱”。
此外,用来存储非事务形式大数据的数据库和Hadoop安装,通常是由独立的IT部门应用开发人员设置的。Adrian在BI首脑峰会上说:“这是由外面的人做的,通常IT关注的焦点是不同的工具。已管理妥善可能是太慷慨的一个说法了。”
他补充说,Gartner公司的观点是,能把那些数据类型整合到统一信息管理基础设施中的组织将胜过那些做不到这一点的组织。
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]