接上文:数据科学家:新型事务性数据值得关注 数据科学家是如何看待软件工具的? Driscoll:将建模从相对较小的高级汇总数据转变到大型事务日志上,您就不可能在包含数据的系统之外创建模型。所以这会造成一个结果,数据科学家越来越倾向于寻找将分析移动到数据的方法,而不是将数据移动到分析上。这是因为数据是很难移动的,而分析算法更容易移动。所以,近几年来,人们迫切需要在数据库中实现分析。
随着工具的发展,在编写数据库内运行的代码或编写可扩展代码的能力上,数据科学家必然比以前有明显提升。 最近关于Hadoop 的讨论很多,它适用于哪些方面? Driscoll:Hadoop是一个大型数据处理……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
数据科学家是如何看待软件工具的?
Driscoll:将建模从相对较小的高级汇总数据转变到大型事务日志上,您就不可能在包含数据的系统之外创建模型。所以这会造成一个结果,数据科学家越来越倾向于寻找将分析移动到数据的方法,而不是将数据移动到分析上。这是因为数据是很难移动的,而分析算法更容易移动。所以,近几年来,人们迫切需要在数据库中实现分析。随着工具的发展,在编写数据库内运行的代码或编写可扩展代码的能力上,数据科学家必然比以前有明显提升。
最近关于Hadoop 的讨论很多,它适用于哪些方面?
Driscoll:Hadoop是一个大型数据处理平台,而如果您希望建立大型数据模型,那么您最终会在Hadoop平台内部找到建模方法。同时,现在出现了许多工具支持。其中一个是Mahout;它是一个开源机器学习工具套件。它可能是最受关注的工具。
您所指的“大型数据”是什么意思?
Driscoll:小型数据是指适合RAM(随机存取内存)、内存和桌面电脑的数据。中型数据是指适合一台主机的数据。因此,小型数据是指0至10GB;中型数据是指100GB至TB级数据,可以保存在一块硬盘上。大数据是指无法保存在一台主机的数据;它必须分布在多台主机上。最终,如果希望进行大数据分析,您必须掌握写分布式数据并支持多台主机并行处理的算法。这实际上正是Hadoop——分布式计算平台。
我们谈到了开源工具Hadoop和Mahout,为什么数据科学家需要它们?
Driscoll:目前数据科学领域最流行的工具(同时支持开放源码和商业源码)是R语言,它是一种支持统计计算和数据可视化的环境。有一些原因促使得数据科学家关注于开源工具。其中一个原因是,R具有一个非常广泛的社区,包括使用R语言的学术界和行业。许多用户开发了程序库,允许人们使用新的集群算法,寻找更优的逻辑回归方法,以及寻找更快速的统计异常的识别方法。所有由工具用户创建的程序库都是自由分享的。现在,R的网站CRAN (Comprehensive R Archive Network)包含有成千上万个程序库。
我认为问题的关键在于,采用开放的模式能够使数据科学以最快的方式向前发展。因为这个领域变化很快,开源社区是一个能够传播新概念和新方法的地方,因此新技术能够在参与者之间快速流传。相反,像Matlab或SAS等工具,它们发现新算法并商业软件中实现的过程需要几个月时间。商业软件的本质决定了它的应用速度会比开源软件慢得多。
作者
Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]