对于企业来说,容器化大数据部署过程,现在仍然为时过早。然而,随着各种工具的涌现以帮助简化大数据系统和应用程序的部署,用户和供应商都在越来越多地使用软件容器和Kubernetes–Kubernetes是编排和管理容器的技术。
早期部署者希望在Kubernetes集群中运行的大数据容器可加速开发和部署工作–通过重复使用系统构建和应用代码。而且,这种容器方法还应该会简化其他工作,例如转移系统和应用到新平台、根据工作负载变化而重新分配计算资源以及优化对企业可用IT基础设施的使用。
大数据技术供应商正在加快添加容器和Kubernetes支持到各自的产品。例如,在本月举行的Strata Data大会上,MapR Technologies公司称其已经整合Kubernetes卷驱动程序到其大数据平台,可为连接到该编排技术的容器化应用程序提供持续数据存储。
MapR公司先前支持使用专用Docker容器,该容器具有内置连接到MapR融合数据平台,但该公司数据和应用程序高级副总裁Jack Norris称,Kubernetes扩展“更加透明,更适合该环境”。他补充说,持续存储功能让容器可用于有状态的应用程序,这其实是基于Hadoop和相关技术的典型大数据部署的要求。
此外,今年2月底发布的开源Apache Spark处理引擎2.3版本更新包含一个本地Kubernetes调度程序。这个由来自Bloomberg、谷歌、英特尔等其他几家公司的贡献者开发的Spark on Kubernetes技术仍然为实验性技术,它可使Spark 2.3工作负载能够在Kubernetes集群中运行。
根据Apache Flink供应商Data Artisans公司联合创始人兼软件工程师Fabian Hueske的说法,即将推出的1.5版Apache Flink(Spark的流处理竞争对手)将为Kubernetes和竞争对手Apache Mesos技术提供更多关联。用户可在Kubernetes运行该公司的当前Flink版本,Hueske称:“但现在运行方式并不是很简单,新版本会更容易。”
大数据容器实现提升
位于北京的在线零售商JD.com(京东)是Spark on Kubernetes的早期用户。该公司还将TesorFlow、Caffe和其他机器学习及深度学习框架容器化在单个基于Kubernetes的架构中,被称为Moonshot。
京东的软件开发工程师Zhen Fan表示,容器的使用旨在简化大数据部署,以支持在新架构中运行的机器学习和其他AI分析应用程序。Fan在Strata大会上表示:“这里的主要考虑因素是我们应该在一个集群中支持所有AI工作负载,这样我们才能最大限度地利用资源。”
然而,他补充说,这些容器还可在该公司的Web服务器快速部署分析系统以利用隔夜停机时间。
Fan表示:“在电子商务中,网络服务器会一直忙碌到午夜,而从凌晨12点到早上6点,它们可用来运行一些离线工作。”
京东于2017年中期开始研究人工智能架构;该零售商目前拥有300个节点在容器中运行生产作业,并计划在不久的将来将节点扩大到1000个。该公司在去年第三季度安装了Spark on Kubernetes技术,最初用于支持通过Spark的流处理模块运行的应用程序。
然而,英特尔公司高级软件工程师Wei Ting Chen表示,该部署仍然是概念验证项目,旨在测试“Spark on Kubernetes是否已经可用于生产环境”,Chen指出,部分Spark尚未与Kubernetes连接,他还列举了其他需要解决的问题。
例如,京东和英特尔正在研究当启用大量容器时使用Kubernetes是否会导致性能瓶颈。随着越来越多的处理工作负载通过Spark on Kubernetes运行,还有另一个需要考虑的问题,即可靠性。
Kubernetes边缘
Spark on Kubernetes是一项前沿技术,目前最适合具有足够“技术实力”的企业的大数据部署。大数据系统(涉及Spark on Kubernetes)性能管理工具供应商Pepperdata公司产品管理主管Vinod Nair称,Spark 2.3中的Kubernetes调度程序目前还只是一项预览功能,可能要再等6到12个月才可全面使用。他表示:“这是相当大的工作,我预计需要一段时间才能投入生产环境。目前它正处于测试的第一阶段。”
Pepperdata公司计划在其部分产品中支持基于Kubernetes的容器(针对Spark和Hadoop分布式文件系统),他们首先会从Application Spotlight开始,这是该公司推出的针对大数据应用程序开发人员的性能管理门户。随着最近发布的Hadoop 3.0,内置于Hadoop的YARN资源管理器也可控制Docker容器,但Nair指出:“Kubernetes似乎可以做更多的事情。”
并非所有供应商都在销售Kubernetes或者K8—非正式名称。例如BlueData Software公司使用自定义编排器来管理其大数据即服务平台核心的Docker容器。BlueData公司联合创始人兼首席架构师Tom Phelan称,他仍然认为本地工具在Kubernetes具有技术优势,特别是对于有状态应用程序。不过,他补充说,该供应商正在实验室研究Kubernetes,着眼于未来部署。
Pinterest公司也正在做相同的事情,该公司高级软件工程师Kinnary Jangla称,该公司正在转向使用Docker容器来加速各种机器学习应用程序的开发和部署,以帮助推动其图像书签和社交网站的覆盖率。
Jangla曾构建了一个基于容器的设置,用于调试机器学习模式作为测试用例。Jangla在Strata大会中称,Pinterest公司还在测试Kubernetes集群,她表示:“我们正在试图看看当我们转向生产时这是否对我们有用,但我们还没有实现这一点。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
SQL Server 2019改进Linux、容器支持
紧随其SQL Server 2016和2017版本后,微软正在准备发布SQL Server 2019,该公司在 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
SQL Server 2019预览版向DBMS引入Hadoop、Spark和AI
微软本周继续改进其SQL Server数据库平台,从关系数据进一步扩展到各种数据类型。 近日该公司发布SQL […]