Hadoop发行版本选择与伪分布式平台的构造——(一)

作者 : icbug 发布时间: 2020-06-7 文章热度:112 共4350个字,阅读需11分钟。 本文内容有更新 手机浏览

目 录

Hadoop发行版本选择与伪分布式平台的构造——(一)

本文部分图片截取在拉钩教育大数据运维实战课程上

Hadoop发行版介绍与选择

由于 Hadoop 平台的构建过程相当复杂,它涉及系统、网络、存储、配置与调优,但为了能让你尽快尝鲜体验一下 Hadoop 的功能和特性,我们先一起构建一个伪分布式 Hadoop 集群,也就是一个假的 Hadoop 集群,麻雀虽小,但五脏俱全。

伪分布式 Hadoop 集群能够实现 Hadoop 的所有功能,并且部署简单,因此非常适合新手进行学习、开发、测试等工作。

Hadoop有哪些发行版本?

与 Linux 有众多发行版类似,Hadoop 也有很多发行版本,但基本上分为两类,即开源社区版和商业付费版。社区版是指由 Apache 软件基金会维护的版本,是官方维护的版本体系;商业版付费版是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的稳定版本,比较著名的有 Cloudera 的 CDP、CDH、Hortonworks 的 Hortonworks Data Platform(HDP)、mapR 等。

在这些商业 Hadoop 发行版中,为了吸引用户的使用,厂商也提供了一些开源产品作为诱饵,比如 Cloudera 的 CDH 发行版、Hortonworks 的 HDP 发行版等,所以,目前而言,不收费的 Hadoop 版本主要有三个,即 Apache Hadoop、Cloudera 的 CDH 版本、Hortonworks 的 HDP。

经过多年的发展,Cloudera 的 CDH 版本和 Hortonworks 的 HDP 版本在大数据开源社区互为竞争,两分天下,占据了国内、外 90% 以上的大数据市场,但随着公有云市场趋于成熟,很多云厂商在云端也提供了 Hadoop 服务,比如亚马逊的 Elastic MapReduce(EMR)、Microsoft Azure Hadoop、阿里云 E-MapReduce(Elastic MapReduce,EMR)等,这些基于云的大数据服务抢走了 Cloudera 和 Hortonworks 的大部分客户,所谓天下大势,分久必合,合久必分,最终,Cloudera 和 Hortonworks 从竞争走到了一起,他们相爱了。

那么这些版本可以说是个有各的优点吧!

下面我们来聊下常用的三个 Hadoop 发行版本,看看他们的产品特点以及如何选型。

Apache版本

Apache基金会维护的有三个大版本型号!

分别是1.x2.x,3.x

我们来总结一个表格

版本 描述
1.x Hadoop的第一个版本,有一个分布式文件系统HDFS和一个离线的计算引擎mapreduce组成的。由于发行的比较早,技术不是很完善所以基本完全弃用
2.x 在1.x的版本的基础上做了很大的升级,支持了我们的NameNode 横向扩展的HDFS,资源管理系统YARN在离线的MapReduce的计算框架,相当于1.x,2.x功能相当的强大了。具备了扩展性,稳定性,并支持多种计算模型
3.x 目前的最新版本,再上一个2版本进行系列增强,

Apache Hadoop 发行版提供源码包和二进制包两种形式下载,对我们来说,下载二进制包更加方便,点击这里获得下载

那我们的HDP版本和CDP版本就不做详情介绍了因为这里我们需要使用的是Apache发行的,其他版本后期教程会讲到!

Tips:如何选择发行版

这里给大家一点小福利

到底如何正确合适的选择我们的这个发行版本?

那么首先要考虑这几个因素:

  • 是否开源?

  • 是否稳定?

  • 社区是否活跃?是否有文档?(初学者考虑)

  • 是否经过生产环境上面的检测?不能自己当小白鼠,万一出问题了谁负责?

在国内大型互联网企业中,使用较多的是 CDH 或 HDP 发行版本,个人推荐采用 HDP 发行版本,原因是部署简单、性能稳定。因为今天我们要简单学习一下,所以这个生产环境就不讲了!后期实战会讲到!


伪分布式安装

这里我们先使用为分布式来安装,因为这里我们没有那么多服务器,而且虚拟机总不能在单机上跑那么多,除非64G内存电脑,i9处理器

后面的完全分布式安装比较麻烦,后期进行更新讲解!

安装规划

大家都知道Hadoop一般学Java架构的时候撸框架的时候肯定都搞过!

所以我们至少需要jdk1.8的java版本

然后这里我们是安装的是我们的是Hadoop3.2.1版本的!

根据运维经验以及后续的升级、自动化运维需要,将 Hadoop 程序安装到 /opt/hadoop 目录下,Hadoop 配置文件放到 /etc/hadoop 目录下。

首先先下载我们的二进制文件,这里小编为大家贴心的准备好了

为了统一下载步骤请大家下载我给大家放到我的云储存中的这个版本

点击下载!

这里使用我们的CentOS系统进行操作,我这里因为其他机器都是运维使用的所以这里我们重现安装一个hadoop专业的CentOS7系统

详情请看我博客:

https://icbugblog.cn/cid=113/

先说一下最低配置:

你要是想深入学习大数据你必须有一台好的电脑:

4核CPU+8G运行内存

安装过程

创建Hadoop用户

useradd hadoop

在/opt/下创建hadoop

mkdir /opt/hadoop

进入目录

cd /opt/hadoop

安装rz命令上传二进制安装包

yum install lrzsz

然后进行解压缩包

tar zxvf hadoop-3.2.1.tar.gz

Hadoop发行版本选择与伪分布式平台的构造——(一)-icbug创客

输入

ln -s hadoop-3.2.1 curren

然后赋予权限

chown -R hadoop:hadoop /opt/hadoop

注意,将解压的 hadoop-3.2.1.tar.gz 目录软链接到 current 是为了后续运维方便,因为可能涉及 Hadoop 版本升级、自动化运维等操作,这样设置后,可以大大减轻运维工作量。

然后拷贝配置文件到/etc/hadoop/

创建文件夹

mkdir /etc/hadoop

然后复制配置文件

cp -r /opt/hadoop/current/etc/hadoop /etc/hadoop/conf

然后赋予权限

chown -R hadoop:hadoop  /etc/hadoop

这样,就将配置文件放到 /etc/hadoop/conf 目录下了。

然后我们接下来,安装一下Java jdk1.8

下载地址:

https://icbug-1258624733.cos.ap-beijing.myqcloud.com/Hadoop/jdk-8u251-linux-x64.tar.gz

我们需要把他安装到/usr/java目录下

创建文件夹

mkdir /usr/java

进入

cd /usr/java

上传,然后解压缩包

tar zxvf jdk-8u251-linux-x64.tar.gz

做一个软连接

ln -s jdk1.8.0_171 default

然后这里配置一下我们刚才的hadoop用户

 more /home/hadoop/.bashrc 

配置如下

# .bashrc
# Source global definitions
if [ -f /etc/bashrc ]; then
        . /etc/bashrc
fi

# User specific aliases and functions
export JAVA_HOME=/usr/java/default
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/opt/hadoop/current
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}
export HTTPFS_CATALINA_HOME=${HADOOP_HOME}/share/hadoop/httpfs/tomcat
export CATALINA_BASE=${HTTPFS_CATALINA_HOME}
export HADOOP_CONF_DIR=/etc/hadoop/conf
export HTTPFS_CONFIG=/etc/hadoop/conf
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

这里创建的 Hadoop 用户,就是以后管理 Hadoop 平台的管理员用户,所有对 Hadoop 的管理操作都需要通过这个用户来完成,这一点需注意。

另外,在配置的环境变量中,以下两个要特别注意,如果没有配置或者配置错误,将导致某些服务无法启动:

HADOOP_HOME 是指定 Hadoop 安装程序的目录 HADOOP_CONF_DIR 是指定 Hadoop 配置文件目录 到这里,Hadoop 已经基本安装完成了,是不是很简单!

配置 Hadoop 参数

Hadoop 安装完成后,先来了解一下其安装目录下几个重要的目录和文件,这里将 Hadoop 安装在了 /opt/hadoop/current 目录下,打开这个目录,需要掌握的几个目录如下表所示:

Hadoop发行版本选择与伪分布式平台的构造——(一)-icbug创客

了解完成后我们开始配置操作Hadoop 的配置相当复杂,不过这些是后面要讲的内容。而在伪分布模式下,仅仅需要修改一个配置文件即可,该文件是 core-site.xml,此文件目前位于 /etc/hadoop/conf 目录下,在此文件 标签下增加如下内容:

也就是

vim /etc/hadoop/conf/core-site.xml

添加如下内容

<property>
  <name>fs.defaultFS</name>
    <value>hdfs://hadoop3server</value>
</property>

Hadoop发行版本选择与伪分布式平台的构造——(一)-icbug创客

然后我们去修改一下hosts文件

你的IP hadoop3server

例如

192.168.87.133 hadoop3server

修改hosts

vim /etc/hosts

启动服务

配置操作完成后,下面就可以启动 Hadoop 服务了,虽然是伪分布模式,但 Hadoop 所有的服务都必须要启动,需要启动的服务有如下几个。

Hadoop发行版本选择与伪分布式平台的构造——(一)-icbug创客

服务的功能和用途,先介绍这么多,后面将会进行更深入的阐述。接下来,要启动 Hadoop 集群的服务,必须以 Hadoop 用户来执行,并且每个服务的启动是有先后顺序的,下面依次启动每个服务

首先启动,NameNode服务

先切换hadoop用户

su - hadoop

然后进入目录

cd /opt/hadoop/curren/bin

进行格式化

hdfs  namenode -format

未完待续!

常见问题FAQ

本站资源是否全部免费?
本站文章和普通速度下载资源免费,高速下载资源和讲解视频需要成为SVIP才能查看哦!
本站采用标准 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明!
icbug创客 » Hadoop发行版本选择与伪分布式平台的构造——(一)

发表评论

CAPTCHAis initialing...