数据科学家如何解决预测分析的难题

日期: 2011-10-11 作者:Nicole Laskowski翻译:曾少宁 来源:TechTarget中国 英文

“数据科学家”一词依旧魅力不减。作为向数字、社交和移动媒体公司交付预测分析产品的新创公司,Metamarkets的首席技术官和共同创始人Michael Drisoll表达了上述观点。   尽管Driscoll使用这个词汇来描述分析与商业智能领域的新角色,但是其他公司并未决意仿效。对这个概念的争议依旧难分仲伯。

  Driscoll将数据科学家比作土木工程师。   他说:“土木工程师既是物理学家又是建筑工人。”同样,数据科学家必须能够在数据领域的理论与实践之间发现平衡点。   TechTarget网站最近就关于数据科学家及将来他们如何使用预言分析探寻结果的问题采访了Driscoll。

  什么是……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

“数据科学家”一词依旧魅力不减。作为向数字、社交和移动媒体公司交付预测分析产品的新创公司,Metamarkets的首席技术官和共同创始人Michael Drisoll表达了上述观点。

  尽管Driscoll使用这个词汇来描述分析与商业智能领域的新角色,但是其他公司并未决意仿效。对这个概念的争议依旧难分仲伯。

  Driscoll将数据科学家比作土木工程师。

  他说:“土木工程师既是物理学家又是建筑工人。”同样,数据科学家必须能够在数据领域的理论与实践之间发现平衡点。

  TechTarget网站最近就关于数据科学家及将来他们如何使用预言分析探寻结果的问题采访了Driscoll。

  什么是数据科学?

  Michael Driscoll:数据科学是一个新词汇,与其他新东西一样,是一个不断变化的词汇和概念。实际上,数据科学家就是结合了数学家与统计家的理论知识与软件开发人员的实践工程技能的人。近十年来,作为一门涉及统计学、应用数学和计算机科学的交叉学科,机器学习领域开始复兴。但是,所有这些理论成果的使用都离不开编写代码。所以,数据科学家是一种综合了理论与实践的混合型人才。

  在谈论到数据科学的实践环节时,您所指的是什么?

  Driscoll:通常,我认为数据科学家具有三个技能。一是“数据整理”,包括熟练地分解、转换、提取和处理数据的能力。二是数据建模,主要是获取一组数据,能够开发数据的假定模式,并测试统计工具的假设。三是数据可视化。一旦将数据转换为一种可用形式(第一种技能),并开发了关于数据特性与某些观测值和数据输出之间关系的模型(第二种技能),然后以一种决策者理解的方式表达发现的结果。这需要一定的表达能力,或者可视化表述的能力,这正是数据可视化的作用所在。

  为什么叙述如此重要?

  Driscoll:如果一位数据科学家想要在海量信息和海量信息输出的时代有所作为,那么我们需要掌握一些高效的信息处理方法。数据可视化正是其中一种方法。事实上,它可能是我们可以利用的最高效的信息处理方法。

  如何组合预测分析和数据科学?

  Driscoll:数据也是数据处理的结果。所有数据科学的最终目的都是预测用户与系统的行为。实际上,仅仅了解数据的表面信息是不够的。您要能够预测未来将发生什么。根据Popper的介绍,科学技术的唯一目标是预测真理。而预测也是数据科学家工作的真正目标。它是前瞻性的,而不是历史回顾。有人可能会说,商业智能及其报告都是关于过去发生的事情;预测分析则是关于未来。

  然而,有人认为预测分析需要回顾过去才能预测未来。

  Driscoll:这是必然的!预测分析的目标是研究过去,但是最终目的是预测未来。举个例子,社交平台尝试理解用户在社交系统上的行为,发现那些可能触发更高平台参与度的行为,有可能他们在注册后三个月内都保持活跃。因此,他们会查看用户的历史操作,即回顾过去。此外,社交平台还分析用户性别、朋友数、教育经历。他们会从不同角度观察用户特性,然后在三个月之后,他们会研究哪一些观察特性可能引起将来最高的用户参与度。他们发现,朋友数是最高相关度特性,它促使用户在三个月中更积极地使用社交平台。这就是预言分析成果。结果,当用户注册使用社交平台之后,他们会尽可能地推荐更多人加入您的网络。预测分析的实际目标是将观察的事件与结果联系在一起;这可能是最简单的做法。分析的方法还有很多,但是您最终会建立一个系统数学模型。要测试该数学模型是否正确,您需要进行预测,然后观察后续的事件是否确实与系统假设相符合或冲突。

  但是,建立模型真的需要数据科学家的参与吗?

  Driscoll:下面介绍的是一个预测模型:信用卡购物行为及其是否为欺骗行为的特性。假设两个特性是购物时间与购物发生国家。在一些情况下,只需要以可视化方式显示不同国家的信用卡欺骗行为,您很快会发现结果。当信用卡所有人位于美国,而购物发生在爱沙尼亚,那么这些购物行为就都是欺骗行为。您实际上不需要使用统计模型,就能够得出结果。您只需要绘制出数据。事实上,只有当区别非常微小时,您才需要使用统计技术来确定所观察的趋势是否有效。显而易见的事情是很容易处理的。只有在分析更细微的差别时,我们才真正需要使用统计技术来区分噪音与信号。

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐

  • SAP概述数据管理策略

    随着越来越多的企业加入多云阵营,同时他们还需要遵循全球各种数据保护法规,近年来管理数据已经成为日益复杂的工作。 […]

  • 数据货币将决定企业成败

    在2017年3月McKinsey公司对500多名高管的调查显示,越来越多的企业使用数据和分析来推动增长,但目前 […]

  • Oracle改进数据库系统 只为适应超大型云的需求?

    关系型数据库巨头Oracle在近些年的种种举措,可以帮助我们认清数据库的发展趋势。一种新型的硬件架构应运而生,越来越受到人们的重视。

  • S/4HANA助力Sabre公司数字化业务变革

    Sabre公司是数字化商业转型的典范,该公司开始的时候做美国航空公司的票务预订系统,但是现在成了独立的软件开发商,提供各种各样的产品和旅游业软件即服务(SaaS)产品。