宝立明(Stephen Brobst)是数据仓库公司Teradata的首席技术官,而Martin Willcox是公司在欧洲、中东和非洲地区的平台与解决方案销售主管。他们近期接受了TechTarget的采访,并介绍了他们对于2013年大数据技术行业的看法。本文是第二部分,宝立明的采访实录:
去年,您引用了Geoffrey Moore的经典比喻,指出大数据“正在穿越大峡谷”,但是已经超出了创新范畴。现在进展如何?
宝立明:在去年下半年,我们确实是在穿越大峡谷。在那之前,所有大数据用户都是互联网公司。现在它的增长主要在常规业务领域——银行、电信和零售业。我指的是真实业务的真实应用,而不是概念验证、免费下载Hadoop等。我不是指这些。
统一数据架构概念,这是不是Teradata向Hadoop和NoSQL用户给出的答案?
宝立明:它汲取了两者之优点。这里有许多极端教条主义者,有一些是NoSQL/Hadoop偏执狂,一些是关系数据库的坚定支持者,他们都在走极端,都是傻瓜。
统一数据架构允许您整合Hadoop和Teradata,而Aster在其中发挥桥梁作用,可以提高数据科学家的生产力。
我们有一些更高明的客户已经开发出扩展的统一数据架构。如果您了解LinkedIn、国富银行或eBay,那么您肯定能了解这一点。像往常一样,它从西海岸发展到曼哈顿,再发展到全世界。
但是,您必须小心使用开源软件。我看到过一些不现实的业务案例,它们只看到资本支出,而不关心运营成本。开源软件就像是一个免费宠物——购买成本为零,但是“喂养”和“照料”的费用惊人。
在Teradata中,价值成本是很诱人的,因为我们可以利用Hadoop的开源技术,但是您可以在其他情况中利用Aster Data技术实现更高的价值回报并提升生产力。
您现在如何看待SAP HANA?
宝立明:在客户的企业级系统中,我们还从未见到过HANA,它不属于这个级别。它部署了运营数据存储(ODS)。对于大型企业而言,经济上不允许他们将所有数据存储在内存中。内存是越来越便宜,但是数据却以更快的速度增长。
我理解为什么SAP没有采用已有的方法,因为如果将所有数据存储在内存中,您就可以使用一些强力软件。HANA是一种相对不那么复杂的软件。
内存价格是机械磁盘价格的50倍。为80%的数据支付50倍费用,显然是不明智的做法。
您以前说过,SAP推出HANA是受到Oracle的刺激?
宝立明:从商业战略角度看,SAP确实需要与Oracle竞争。SAP的大多数企业客户都使用Oracle。他们可是与SAP的敌人睡在一起。
但是,SAP也遇到了一些阻力。所以,它使用了SybaseIQ和内存技术。然而,这项技术虽然有良好的压缩比,但是它毕竟有20年历史,而且从未上过大场合。只有华尔街和韩国有少数数据集市应用。而且,将从SybaseIQ和HANA移动数据并不是自动化的,它需要人为干预。
从您接触的客户来看,他们在建立数据科学人才方面有什么独到之处?他们是否正在建设自己的数据科学基础,或者更加普遍地在管理层普及数据知识?
宝立明:两个方面都有。业务分析员与数据科学家有重要区别,前者的工作是解答业务问题,后者则关注于发现下一个问题。
数据科学家并不关心传统的商业智能(BI)工具,如Cognos、Business Object或Microsoft Analysis Services等。他们只想通过使用数据可视化工具(如Tableau)、数据挖掘工具或分析工具(如SAS、SPSS)执行更多基于模型的分析。
优秀的数据科学家在业内是很少的,大多数管理人员不理解因果关系与相关性的区别。
他们很难寻找,但是公司又不愿意将基础技术外包给竞争对手。Erik Brynjolfsson的研究表明,具有高超分析技术的公司能够多获得6%的利润。这是一种核心竞争力。
此外,公司想要的是一位数据科学家,而不是一位计算机科学家。应用物理和应用化学的实验科学家是很好的人才来源,从事实地测量工作的社会科学家也是。如果有很好的交流技能,那么物理学家也非常适合。而且他们并不一定开价很高。科学家不会要求很高的薪水,在达到一定水平之后,增加薪水对他们没有激励作用。真正刺激他们的是对于数据和工具的热爱。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]