探索Hadoop发行版以管理大数据

日期: 2019-03-04 作者:David Loshin翻译:邹铮 来源:TechTarget中国 英文

Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始的分布式处理框架,其中部分是基于谷歌在技术论文中概述的想法。

当时雅虎是第一个Hadoop的生产用户。不久后,Facebook、LinkedIn和Twitter等其他互联网公司也采用了这项技术,并开始为其发展做出贡献。Hadoop最终演变成一个复杂的生态系统,其中包含基础架构组件和相关工具,很多供应商将这些封装在其商业Hadoop发行版中。

Hadoop运行在商用服务器集群上,为用户提供了一种高性能低成本的方法来建立大数据管理架构,以支持高级分析举措。

随着人们对Hadoop功能的认识不断提高,它的应用开始扩展到其他行业,包括用于报告和分析—其中涉及传统结构化数据和新形式的非结构化和半结构化数据。这包括网络点击流数据、在线广告信息、社交媒体数据、医疗保健索赔记录以及来自制造设备和其他物联网设备的传感器数据。

什么是Hadoop

Hadoop框架包含大量开源软件组件,其中包含一组核心模块,用于捕获、处理、管理和分析大量数据,这些数据被各种支持技术所包围。这些核心组件包括:

  • Hadoop分布式文件系统(HDFS):支持传统的分层目录和文件系统,它在Hadoop集群中跨存储节点(即DataNode)分发文件。
  • YARN(这是Yet Another Resource Negotiator的缩写,即另一个资源协商器):管理作业调度并将群集资源分配给正在运行的应用程序,在争用可用资源时对它们进行仲裁。它还跟踪和监控处理作业的进度。
  • MapReduce:用于并行处理批应用程序的编程模型和执行框架。
  • Hadoop Common:供其他组件使用的一组库和实用程序。
  • Hadoop Ozone和Hadoop Submarine:为用户提供对象存储和机器学习引擎的新技术。

在Hadoop集群中,这些核心部分和其他软件模块位于计算和数据存储硬件节点集之上。节点通过高速内部网络连接,以形成高性能的并行分布式处理系统。

作为开源技术的集合,没有任何一家供应商能够控制Hadoop;它是由Apache Software Foundation管理其开发工作。Apache根据许可证提供Hadoop,授予用户免费免版税使用该软件的权利。

开发人员和其他用户可以直接从Apache网站下载该软件,并自行构建Hadoop环境。但是,Hadoop供应商提供具有基本功能的预构建社区版本,用户也可以免费下载并安装在各种硬件平台上。供应商还销售商业或企业Hadoop发行版,这些发行版将软件捆绑着不同级别的维护和支持服务。

在某些情况下,供应商还提供基于Apache技术的性能和功能增强,例如,通过提供额外的软件工具来简化集群配置和管理或与外部平台的数据集成。这些商业产品使Hadoop越来越适合各种规模的公司。

对于企业来说,如果商业供应商的支持服务团队可以帮助企业设计和开发其Hadoop基础架构,则更有价值。同样重要的是,供应商能否指导选择工具和高级功能集成,以部署高性能分析系统以满足新兴业务需求。

典型Hadoop软件堆栈的组件

当你使用Hadoop的商业版本时,你实际获得了什么?除核心组件外,典型的Hadoop发行版还包括但不限于以下:

  • 替代数据处理和应用程序执行管理器,例如Spark、Kafka、Flink、Storm或Tez,可在YARN上或侧边运行,以提供集群管理、缓存数据管理和其他提高处理性能的方法。
  • Apache HBase:这是面向列的数据库管理系统,它参照Google的Bigtable项目,在HDFS上运行。
  • SQL-on-Hadoop工具,例如Hive、Impala、Presto、Drill和Spark SQL,这种工具提供对SQL标准不同程度的遵守,以便直接查询数据在HDFS中。
  • 开发工具,例如Pig,可帮助开发人员构建MapReduce
  • 配置和管理工具,例如如ZooKeeper或Ambari,可用于监视和管理。
  • 分析环境,例如Mahout,可为机器学习、数据挖掘和预测分析提供分析模型。

由于Hadoop是开源软件,因此企业不必像购买产品那样去购买Hadoop发行版。供应商销售具有不同服务级别协议(SLA)的年度支持订阅。所有供应商都是Apache Hadoop社区的积极参与者,尽管每个供应商都可能推广自己的附加组件—贡献到社区作为其Hadoop发行版的一部分。

谁管理Hadoop大数据管理环境?

对于企业来说,重要的是要认识到,如果想要从Hadoop系统中获得理想的性能,则需要一支由技术娴熟IT专业人员组成的协调团队,由他们协作进行架构规划、设计、开发、测试、部署以及持续运营和维护工作,以确保Hadoop的最佳性能。这些IT团队通常包括:

  • 要求分析师,根据在Hadoop环境中运行的应用程序类型评估系统性能要求;
  • 系统架构师,评估性能要求和设计硬件配置;
  • 系统工程师,安装、配置和调试Hadoop软件堆栈;
  • 应用程序开发人员,设计和部署应用程序;
  • 数据管理专业人员,准备和运行数据集成作业、创建数据布局和执行其他管理任务;
  • 系统管理员,确保运营管理和维护;
  • 项目经理,负责监督各级堆栈和应用程序开发工作的实施;
  • 项目经理,负责监督Hadoop环境的实施以及对应用程序的优先级排序、开发和部署工作。

Hadoop软件平台市场

作为一个可行的大规模数据管理生态系统,Hadoop的发展也创造了一个新的软件市场,而这个市场正在改变商业智能和分析行业。这扩展了用户企业可运行的各种分析应用程序种类以及企业可收集和分析的数据类型(作为这些应用程序的一部分)。

现在这个市场包含两家专注于Hadoop的独立供应商:Cloudera公司–Cloudera和Hortonworks于2018年10月合并成立对这家新公司,以及MapR Technologies公司。其他提供Hadoop发行版或功能的公司还包括包括云平台市场领导者AWS、谷歌和微软,它们将Hortonworks用作大数据分发管理服务的一部分。

经过多年的发展,Hadoop市场已经成熟并且得到巩固。IBM、英特尔和Pivotal Software都已经退出这个市场,对于用户来说,这个市场最大的变化是Cloudera和Hortonworks的组合。曾经的竞争对手的合并使新成立的Cloudera占据更大的市场份额,并使其能够在云端更有效地竞争。

实际上,Cloudera发布的新消息是它将提供“业界第一个企业数据云”,这表明它希望与AWS、Microsoft Azure和谷歌云竞争。

Cloudera计划开发名为Cloudera Data Platform的统一产品,尽管该公司还没有透露何时推出。与此同时,该公司将继续开发现有的Cloudera和Hortonworks平台,并至少在2022年1月之前为其提供支持。

虽然新的Cloudera可能更具竞争力,但合并的潜在缺点是Hadoop用户现在拥有的选项更少。这就是为什么企业需要评估提供Hadoop发行版的供应商并了解不同产品的主要相似点和不同点的原因。

首先是技术本身:不同发行版中包含哪些内容,它们支持哪些平台,最重要的是,各个供应商支持哪些特定组件?

其次是服务和支持模型:在每个订阅级别内,供应提供哪些类型的支持和SLA,以及不同的订阅费用是多少?

了解这些方面与你的特定业务需求的关联,这将让你清楚如何做出正确选择。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

翻译

邹铮
邹铮

相关推荐