Hadoop发行版的选择与分布式平台的构造

作者 : icbug 发布时间: 2020-06-7 文章热度:130 共1971个字,阅读需5分钟。 本文内容有更新 手机浏览

目 录

Hadoop发行版的选择与分布式平台的构造

本文较长,阅读完成大约需要20-30分钟

Hadoop发行版的介绍与选择

到目前为止,你应该初步了解了大数据以及 Hadoop 相关的概念了。本课时我将介绍Hadoop 如何快速使用,由于 Hadoop 平台的构建过程相当复杂,它涉及系统、网络、存储、配置与调优,但为了能让你尽快尝鲜体验一下 Hadoop 的功能和特性,我们先一起构建一个伪分布式 Hadoop 集群,也就是一个假的 Hadoop 集群,麻雀虽小,但五脏俱全。

伪分布式 Hadoop 集群能够实现 Hadoop 的所有功能,并且部署简单,因此非常适合新手进行学习、开发、测试等工作。


Hadoop有那些发行版?

与 Linux 有众多发行版类似,Hadoop 也有很多发行版本,但基本上分为两类,即开源社区版和商业付费版。社区版是指由 Apache 软件基金会维护的版本,是官方维护的版本体系;商业版付费版是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的稳定版本,比较著名的有 Cloudera 的 CDPCDHHortonworks 的 Hortonworks Data Platform(HDP)mapR 等。

在这些商业 Hadoop 发行版中,为了吸引用户的使用,厂商也提供了一些开源产品作为诱饵来对他们的发行版进行收费营销,也就是先体验产品,产品好用客户就购买,不好用就不用,比如 Cloudera 的 CDH 发行版Hortonworks 的 HDP 发行版等,所以,目前而言,不收费的 Hadoop 版本主要有三个,即 Apache HadoopCloudera 的 CDH 版本Hortonworks 的 HDP

经过多年的发展,Cloudera 的 CDH 版本Hortonworks 的 HDP 版本在大数据开源社区互为竞争,两分天下,占据了国内、外 90% 以上的大数据市场,但随着公有云市场趋于成熟,很多云厂商在云端也提供了 Hadoop 服务,比如亚马逊的 Elastic MapReduce(EMR)、Microsoft Azure Hadoop、阿里云 E-MapReduce(Elastic MapReduce,EMR)等,这些基于云的大数据服务抢走了 Cloudera 和 Hortonworks 的大部分客户,所谓天下大势,分久必合,合久必分,最终,Cloudera 和 Hortonworks 从竞争走到了一起,他们相爱了。

下面我们来聊下常用的三个 Hadoop 发行版本,看看他们的产品特点以及如何选型。

Apache Hadoop

Apache Hadoop 是最原始的 Hadoop 发行版本,目前总共发行了三个大版本,即 Hadoop1.x、Hadoop2.x、Hadoop3.x,每个版本的功能特性如下表所示:

Hadoop发行版的选择与分布式平台的构造-icbug创客

Apache Hadoop 发行版提供源码包和二进制包两种形式下载,对我们来说,下载二进制包更加方便,点击这里获得下载。

其他版本暂时不急于讲述,因为其他版本都没有apache这个版本的好入门

那么我们了解一下如何选择发行版?

如何选择发行版

作为用户,应该如何选择呢,经过多年对 Hadoop 的使用,我的建议是:对于初学入门的话,建议选择 Apache Hadoop 版本最好,因为它的社区活跃、文档、资料详实。而如果要在企业生产环境下使用的话,建议需要考虑以下几个因素:

  • 是否为开源产品(是否免费),这点很重要;

  • 是否有稳定的发行版本,开发版是不能用在生产上的;

  • 是否已经接受过实践的检验,看看是否有大公司在用;

  • 是否有活跃的社区支持、充足的资料,因为遇到问题,我们可以通过社区、搜索等网络资源来解决问题。

    在国内大型互联网企业中,使用较多的是 CDH 或 HDP 发行版本,个人推荐采用 HDP 发行版本,原因是部署简单、性能稳定。

如何用伪分布式安装Hadoop集群

这里我们采用上文的源码和二进制包进行讲解部署

首先我们需要一台Linux虚拟机,最好是CentOS的

我们先来讲一下伪分布式,完全分布式会后期跟大家来聊

安装配置

伪分布式只需要一台机器,硬件最低配置如下:

  • 4核CPU

  • 8G内存

本次安装采用的版本为3.2.1版本,请提前下载好,下载地址已经在上文提到

话不多说安装教程开始

安装教程

我们首先下载一下hadoop-3.2.1.tar.gz 二进制文件

然后把压缩包传入我们的root目录下

通过xftp进行上传

也可以通过rz命令上传

然后我们对它创建一个用户,这里暂时我们先不用切换用户

useradd hadoop

然后我们创建一个/opt目录下hadoop的文件夹,以便储存安装源码

mkdir /opt/hadoop

然后我们把这个源码包复制到那里

mv hadoop-3.2.1.tar.gz /opt/hadoop

然后我们进入那个文件夹

cd /opt/hadoop

然后我们来解压缩

tar zxvf hadoop-3.2.1.tar.gz

常见问题FAQ

本站资源是否全部免费?
本站文章和普通速度下载资源免费,高速下载资源和讲解视频需要成为SVIP才能查看哦!
本站采用标准 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明!
icbug创客 » Hadoop发行版的选择与分布式平台的构造

发表评论

CAPTCHAis initialing...