Ps1:主要答疑区在本帖最下方,疑点会标注出来。个人在配置过程中遇到的困难都会此列举。
Ps2:本帖也是我自己原创的,最近从CSDN搬家过来。原帖地址
实验介绍:
本次实验主要介绍了Hadoop平台的两个核心工具,HDFS和Mapreduce,结合这两个核心在Linux下搭建基于YARN集群的全分布模式的Hadoop架构。
实验案例,基于Hadoop平台下的Wordcount分词统计的试验
实验需求:
1、PC机,局域网服务,Linux系统
背景介绍:
Hadoop实现了一个分布式文件系统,简称HDFS。 HDFS有高容错性的特点,并且设计用来部署在普PC机上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。 Hadoop的框架最核心的设计就是: HDFS和MapReduce。 HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 开发者在熟练掌握了hadoop的使用后轻松地在Hadoop上开发和运行处理海量数据的应用程序 ### NameNode
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。 它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。 对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。 实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。 当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应,这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。 NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。 这个文件和一个包含所有事务的记录文件(这里是 EditLog)将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。 NameNode本身不可避免地具有SPOF单点失效的风险,主备模式并不能解决这个问题,通过Hadoop Non-stop namenode才能实现100% uptime可用时间。### DataNode
DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。 Hadoop 集群包含一个 NameNode 和大量 DataNode。 DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。 Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。 DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。 NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。 如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。
实验步骤及结果:
1.搭建平台(全分布式hadoop + eclipse Neon.1 + JDK1.8)
集群搭建:
主机两台(可拓展):
(1)两个主机系统均为Ubuntu 16.04 LTS
详情:
master 192.168.:103.26(虚拟机)
slave2 192.168.103.22(物理机)
注:
(1)slave1是在同学的笔记本上,因为他的笔记本总是飘忽不定,所以这次博客上就先不写他的ip地址
(2)master是虚拟机的理由就是第一次尝试怕配错环境,导致崩溃,所以用了VMware为master,方便拯救平台
(2)hadoop平台版本都为最新稳定版2.7.3(解压及安装hadoop)
下载地址:Hadoop官网 hadoop.apache.org/releases.ht…
步骤1:点开网页以后,点击红色箭头所指的链接
步骤2:点开后如下图
步骤3:选择一个链接下载(个人推荐最后一个 tsinghua.edu.cn 清华大学链接源比较好)
步骤4:下载完后打开文件管理器,选择Downloads文件夹(如果修改主要文件夹名字为中文的,应选择“下载”)
步骤5:解压到指定路径
步骤5.1:在当前文件夹下右键 - 在终端打开 键入su root命令
步骤5.2:输入root用户密码后,如下图所示
步骤5.3:键入解压命令
1 | 复制代码sudo tar zxvf hadoop-2.7.3.tar.gz -C /usr/local/hadoop |
(注意:如果提示hadoop文件夹不存在的,可以在root用户下用cd命令到 /usr/local路径下 键入 sudo mkdir /hadoop 创建夹)
步骤5.4:解压后如下图所示
(注意:路径满足如图所示即可,或自行定义)
至此hadoop前期下载准备工作已经完成。接下准备java环境的配置
(3)JDK版本为java8-oracle(配置java环境)
(环境:系统稳定联网状态下)
步骤1:打开终端键入命令(root用户模式可以不用加sudo前缀)
1 | 复制代码sudo add-apt-repository ppa:webupd8team/java |
步骤2:出现一段文字后按回车继续
步骤3:继续键入命令
1 | 复制代码sudo apt-get update |
步骤4:待系统加载完所有下载源
步骤5:键入安装命令
1 | 复制代码sudo apt-get install oracle-java8-installer |
步骤6:等待下载结束(过程稍微有点漫长)
这个版本的java默认安装在 /usr/lib/jvm文件夹下
安装结束后配置环境变量
终端输入:
1 | 复制代码sudo gedit /etc/profile |
步骤7:配置完后,按 ctrl + s 保存
步骤8:在终端中输入
1 | 复制代码sudo source /etc/profile |
使配置的环境变量生效
步骤9:和在Windows下配置一样,在终端测试java和javac命令是否生效,在linux下可以多测试下jps命令看java进程号
至此java环境变量配置完毕
(4)SSH免密配置
SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。
SSH在正确使用时可弥补网络中的漏洞。SSH客户端适用于多种平台。
Ubuntu Linux下配置免密登录主要依靠 ssh localhost的命令
!!注意,如果改过 /etc/hosts 下的内容需要重新配置(下图是我的例子)
由于后期为了避免hadoop的一些端口和IP错误,所以我把localhost的名字改了,顺带把 /etc/hostname 的名字也改了。
改了上述的 hosts 和 hostname的名字后,记得重启电脑或者虚拟机
192.168.91.45是我虚拟的IP的地址 名字叫master 相当于 没有改变配置文件之前的 127.0.0.1 localhost
所以配置ssh免密的时候是键入 ssh master 而不是 ssh localhost
话不多说!
步骤0:SSH需要安装OpenSSH-server(如果已经安装则无需理会)
1 | 复制代码sudo apt-get install openssh-server |
步骤1:在非root用户模式下打开终端键入ssh localhost(或者是定义的用户名)
步骤2:提示输入密码,输入你的ssh密码(自己记得住就好)
步骤3:输入完以后,测试一下ssh localhost(或是自定义名字),输入密码后是否如下图弹出一些信息
步骤4:如果下午所示后,则创建ssh成功
步骤5:创建免密登录(不需要关闭终端),键入如下命令
1 | 复制代码ssh-keygen -t rsa |
步骤6:一直按回车直至出现RSA窗口即可
步骤7:键入命令
1 | 复制代码sudo cp .ssh/id_rsa.pub .ssh/authorized_keys |
步骤8:验证免密登录,输入ssh localhost(或者自定义的名字),是否还需要输入密码登录
root用户下:
步骤1:进入root用户模式(用户模式下在终端键盘入:su root,输入root密码即可)
步骤2:进入ssh配置文件
1 | 复制代码gedit /etc/ssh/sshd_config |
步骤3:把PermitRootLogin的字段改成 yes(原来的好像是Prohibit xxxx的),有点忘记了。总之改成yes就可以了
步骤4:保存退出终端
步骤5:打开新的终端键入命令
1 | 复制代码sudo service ssh restart |
重启ssh服务之后,打开终端
步骤6:进入root用户模式下,键入 ssh localhost(或是你的自定义名字)
步骤7:输入自定义ssh密码后,与用户模式下的类似
步骤8:键入 ssh-keygen -t rsa 创建RSA密钥
步骤9:一直回车直至出现RSA密钥图,(如果提示Overwrite 输入 y 即可)
步骤10:键入配置免密的命令
1 | 复制代码cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys |
步骤11:完成后,在root用户模式输入 ssh localhost(或自定义名字)后,如下图所示即可。
至此,root用户和普通用户模式的ssh免密配置完成。
(4.1)SSH免密配置(节点篇)
需求:如果每个节点都需要下载安装hadoop ,则大量耗费人力物力。
解决:所以需要一个SSH来远程发送hadoop包分发给每个节点。
接下来来讲解master打通每个节点的连接方式(单节点和多节点一样,只要配置好就可以进行连接)
步骤1:在hosts文件中配置好各子节点的ip地址以及名称(如下图)
步骤2: 编辑好hosts文件保存并关闭,(root用户模式下)打开终端输入
1 | 复制代码ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave* |
步骤3:提示输入,子节点的登录密码,输入完成后,等待命令完成
步骤4:在终端中输入 ssh slave*(或者自定义名字),如下图:
步骤5:ssh打通master和子节点的通道,可以通过scp命令传输数据了。
至此,完成对于子节点的ssh免密访问配置。
(5)hadoop平台版本都为最新稳定版2.7.3(解压及安装hadoop)
hadoop配置下主要注意配置文件路径的问题
主要包括:hadoop根目录下 /etc/hadoop 里面的xml配置文件
例:hadoop-env.sh , hdfs-site.xml, mapred-site.xml , core-site.xml , yarn-site.xml
注:mapred-site.xml需要复制出来到本路径,原本是mapred-site.xml.template 需要用 cp 命令复制并改名字
或者可以通过 gedit 命令创建一个新的mapred-site.xml,把模板内的内容复制过去,然后再进行配置
配置文件1:hadoop-env.sh(配置环境变量,让hadoop识别)
配置文件2:core-site.xml
1 | 复制代码<configuration> |
配置文件3:hdfs-site.xml
1 | 复制代码<configuration> |
配置文件4: mapred-site.xml
1 | 复制代码<configuration> |
配置文件5:yarn-site.xml
1 | 复制代码<configuration> |
!!!注:如果是master节点(即服务器)需要添加多一个slaves文件指定slave
配置文件6:slaves(选)
1 | 复制代码slave2 192.168.90.33 |
最后步骤:以上配置文件配置完毕后打开终端窗口,输入
1 | 复制代码hadoop namenode -format |
出现如下结果,没有JAVA报错即可
初始化hadoop namenode节点成功!
打开终端利用 cd 命令进入hadoop启动命令文件下
1 | 复制代码cd /usr/local/hadoop/hadoop-2.7.3/sbin |
键入如下命令启动hadoop(root用户模式下)
1 | 复制代码./start-all.sh |
关闭hadoop则键入命令关闭
1 | 复制代码./stop-all.sh |
输入jps在master节点测试,如果如上图所示则测试成功
在ssh slave2 节点输入jps测试
通过hadoop 自带命令
1 | 复制代码hadoop dfsadmin -report |
如上图所示输出Live Datanodes,说明有存活节点,死节点为空。
证明集群配置成功!
(6)集群安装hadoop(完成Master节点的hadoop安装以及SSH的搭建)
构建好master与各个slave之间的ssh通信,如下图所示
步骤1:测试ssh命令与各节点间的通信
步骤2:确认本机的hadoop安装地址
步骤3:
1 | 复制代码scp –r /usr/local/hadoop/ root@slaver2:/usr/local/hadoop |
把master上的hadoop分发给slave2节点(其他节点依次类推,只要搭好ssh就可以传输)。
传输过程有点久,耐心等候。
步骤4:在slave节点上配置环境变量
1 | 复制代码HADOOP_HOME=/usr/local/Hadoop PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin |
步骤5:在master启动hadoop进行测试
Namenode界面 50070端口
hadoop管理界面 8088端口
hadoop SecondaryNamenode 管理界面 端口9000
(7)hadoop Wordcount测试(完成eclipse和eclipse hadoop插件安装)
步骤0:安装eclipse和eclipse hadoop插件
步骤0.1:安装eclipse
下载后,解压到自定义路径,解压后如所示
在此给出eclipse hadoop插件下载(pan.baidu.com/s/1mi6UP5I)
下载后,把jar放到eclipse根目录的dropins的目录
在根目录进入终端,进入root用户模式,输入
1 | 复制代码./eclipse |
进入eclipse界面,完成安装。
步骤1:启动hadoop完成上述集群测试
步骤2:通过终端把测试数据 test.txt上传到hdfs中 (test.txt为hadoop跟目录下的NOTICE.txt)
步骤2.1:在hdfs目录下创建input文件夹
1 | 复制代码hadoop fs -mkdir /input |
如图所示,则上传成功。
如果权限不对的话可以修改权限
1 | 复制代码hadoop fs -chmod -R 777 /input/test.txt |
步骤3:打开eclipse,并完成mapreduce的wordcount代码,完成eclipse hadoop的配置
步骤4:确保左上角的DFS Location能够显示hdfs中的文件目录
WordCount代码:
1 | 复制代码package org.apache.hadoop.examples; |
log4j日志文件:
1 | 复制代码log4j.rootLogger=debug, stdout, R |
步骤5:配置Run Configuration
步骤6:右键Run As - Run On Hadoop(日志我选用了DEBUG模式测试,所以会很长,但是方便测试)
此时,master hdfs多出一个文件夹存放分词结果
下列图为结果部分截图:
至此,从安装到mapreduce Wordcount测试全部结束了。
hadoop2.7.6全模式下,结合eclipse hadoop插件配置,完成Wordcount测试。
实验结果分析:
1、Wordcount项目代码是结合Map-reduce的核心思想,以及对于Java输入输出流的认识所编写,也参考了一下”大牛”博客编写的,能够基本实现分词-词频统计。
2、小项目的分词的效果显然没有Python Jieba分词来的精确,但是基于Hadoop Mapreduce的运算,分词一篇词汇众多的文档只需要5秒。(如需查看请点开。文档来源:Hadoop LICENSE.txt)
测试文档
心得体会:
1、实验完成结果到达预期目标,在搭建平台的过程耗费了很多学习成本,主要花在安装包的下载以及对于Linux系统的理解和hadoop配置文件的理解。
2、实验完成的过程中与小组成员分工合作,在搭建过程中自学了linux的命令操作以及linux系统的一些工作原理。
3、在搭建hadoop平台时,遇到很多匪夷所思的问题,通过hadoop平台自带的log文件,查看日志文件,百度搜索或者看国外网站的配置方式,再通过自己的尝试,解决问题。
4、在搭建过程体会最深的就是hadoop对于端口的使用很谨慎,第一次在尝试的时候没有仔细看清楚官网文档的端口设置,配置出错,导致进度耽误几天,最后才发现是端口的问题。
5、在搭建完后对于linux系统也有深刻的体会,对于linux的权限设置,SSH,以及基本的文件操作命令等有基本的掌握经验。
6、小组成员在第一次冲刺后决定更改软件工程项目,主要是为了适应目前的学习任务以及工作任务。小组成员目前在分析 学校历年学生体质测试数据 以及 网络招聘岗位数据对应学校各二级学院的专业核心技能
Python Django项目属于python后端项目,初期小组成员定题是为了学习除java后端以外的另外一直后端开发。但是后期因为繁重的分析任务以及报告,所以决定开始寻找新的出路,也顺利在第三次冲刺前几天完成实验。
虽然可能与软件工程的项目关系不太大,但是在搭建平台的过程,小组成员也深刻体会到团队合作的意义。以及对于大数据平台的理解,不再是觉得深不可测,改变对于大数据平台以及云计算的看法。
展望:
1、希望在接下来的寒假或者未来的时间点,完善自己的hadoop平台,通过hadoop平台提交小组的数据分析项目,利用Mapreduce并行化算法以及YARN集群分布式计算,提高数据分析的效率。
2、以及写一个基于hadoop平台的分布式爬虫,提高大数据的读取时间。
3、目前也在学习Spark,掌握与Mapreduce相类似的并行化运算框架,也希望在日后的使用中,结合HBase,Mapreduce/Spark搭建一个云计算平台项目。
4、在未来的时间,花更多时间从理解hadoop的核心架构,到理解hadoop的外沿,学习Spark,HBase,Pig,Mahout,Hive等核心工具的使用。
5、最近时间关注大数据方向注意到关联数据RDF的应用,也希望能尝试利用Sqoop读取关联数据,进行数据分析。
本文转载自: 掘金