Apache软件基金会近日宣布Apache Spark正式发布1.0版本,这一在Hadoop的“阴影”下存在多年的数据处理引擎有望成为大数据时代下的又一个明星级工具。本次1.0版本的发布是继今年2月份Spark成为Apache顶级项目之后的又一个里程碑事件。
美国国家航空航天局喷气推进实验室(NASA’s JetPropulsion Laboratory)的首席架构师ChrisMattmann是Apache软件基金会的管理者之一,他表示:“用最短的时间发布了1.0版本,这对于Spark项目来说是具有里程碑意义的,它具有成为伟大项目的潜力。”
相对于MapReduce并行处理引擎,Spark旨在为用户提供更快速的集群处理能力。Mattmann介绍,最新的Spark软件将更多地针对内存计算进行优化,提供更好的交互查询支持,以及迭代与实时数据处理。
Spark开发者一直以来都在致力于提高与Hadoop分布式文件系统以及Hadoop数据存储(HBase,Cassandra)的兼容性,Spark目前已经能够运行中Hadoop系统的YARN之上。
然而Mattmann表示,Spark还可以独立于Hadoop单独运行。为了增强这一能力,Spark 1.0添加了一个Spark SQL组件来支持基于模式的建模,开发者可以使用熟悉的SQL语言来在大规模并行应用中,对结构化与非结构化数据进行快速查询。
Spark:带你飞得更高
Spark由加州大学伯克利分校AMP实验室开发,该团队在支持比Java更高级的语言方面做了许多努力,其目的是让开发人员能够摆脱繁琐的MapReduce并行编程。
Spark是一个非常好的低延迟环境。Mattmann表示,他与他在NASA的数据科学家团队每天都要与卫星数据打交道,以便监控、分析美国西部的积雪量,对气候进行建模和评估。分析结果往往会提交给美国干旱综合信息系统与其他一些公共部门,来进行资源规划。干旱预警与反馈需要快速的周转率,而Spark正是应对这一难题的好帮手。
“我们每天都需要提交数十TB的数据,Spark在这个过程中的优势就能体现出来了。Hadoop和MapReduce都是非常吃I/O的,它们的扩展性也许非常好,但做实时的操作会比Spark慢。”Mattmann说。
知名数据库分析师Curt Monash同意Mattmann的观点,他认为MapReduce适合做批处理,实时性能不是它的强项。Spark被视为“下一代的并行处理标准”,而其迭代式的处理方法也让它成为机器学习应用的理想选择。
Spark流数据处理
流数据与事件处理也是Spark的典型应用场景,然而Storm-on-YARN 以及其他一些并行处理方式也具备一定的竞争力。流数据处理初创企业DataTorrent的创始人Phu Hoang表示:“作为加州大学的校友,我认为Spark是非常好的技术。但很多人用Spark都是作为MapReduce的加速器,希望通过它把MapReduce处理放到内存当中。Spark的任务处理方式就像是迷你的批处理,技术上的延迟可能使得它并不适合作为未来大数据流计算以及事件处理引擎。”
Hoang介绍,在DataTorrent,他和他的同事采用了自己开发的Java程序与YARN和HDFS一起来进行流数据处理。他们在本周还发布了基于Hadoop 2的DataTorrent实时流数据软件。
尽管ApacheSpark远没有达到成熟的阶段,但它却已经被许多IT巨头所采用,这其中包括阿里巴巴,IBM,Intel以及Yahoo等。而包括Cloudera和MapR等主流Hadoop发行版提供商都通过Databricks提供了Spark支持,值得一提的是,Databricks的技术总监MateiZaharia正是当初U.C.Berkeley AMP实验室的一员。该公司还与商用版Cassandra数据库提供商DataStax达成了合作协议,为后者提供相应的Spark支持。
随着新的软件技术的不断涌现,大数据架构变得越来越复杂,新的技术对Hadoop造成了一定冲击。而随着1.0版本的发布,Spark也将更多地进入人们的视野当中。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]