集群环境下,至少需要3台服务器。
IP地址 | 主机名称 (资料图片) |
---|---|
10.0.0.5 | node1 |
10.0.0.6 | node2 |
10.0.0.7 | node3 |
需要保证每台服务器的配置都一致,以下步骤在3台服务器上都需要做一次。
本次安装采用的操作系统是Ubuntu 20.04。
更新一下软件包列表。
sudo apt-get update
使用命令安装Java 8。
sudo apt-get install -y openjdk-8-jdk
配置环境变量。
vi ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
让环境变量生效。
source ~/.bashrc
从Hadoop官网Apache Hadoop下载安装包软件。
或者直接通过命令下载。
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
分布式集群是在多个节点上运行进程来实现Hadoop集群。
在后续使用过程中,都使用主机名称,所以需要配置域名解析。
配置 /etc/hosts
。
由于该配置文件的修改需要root权限,所以在每个节点上都手动配置。
10.0.0.5 node110.0.0.6 node210.0.0.7 node3
以下配置过程在node1上完成,并且配置完成后将配置文件复制到其他节点。
Hadoop分布式集群的运行,需要配置密钥对实现免密登录。
创建公私钥对hadoop@node1:~$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/hadoop/.ssh/id_rsaYour public key has been saved in /home/hadoop/.ssh/id_rsa.pubThe key fingerprint is:SHA256:pp2AC1bQAQ5J6CJJCij1QA7bgKOsVxpoPVNi+cxhcyg hadoop@node1The key"s randomart image is:+---[RSA 3072]----+|O=*oo.. ||OX E.* . ||X+* @ + ||B+.=.= ||= o++ . S ||..o. . = . || . . . o || || |+----[SHA256]-----+
复制公钥hadoop@node1:~$ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
复制到其他节点hadoop@node1:~$ scp -r .ssh node1:~/id_rsa.pub 100% 566 1.7MB/s 00:00 authorized_keys 100% 566 2.0MB/s 00:00 known_hosts 100% 1332 4.5MB/s 00:00 id_rsa 100% 2602 10.1MB/s 00:00 hadoop@node1:~$ scp -r .ssh node2:~/hadoop@node2"s password: id_rsa.pub 100% 566 934.6KB/s 00:00 authorized_keys 100% 566 107.3KB/s 00:00 known_hosts 100% 1332 2.5MB/s 00:00 id_rsa 100% 2602 4.8MB/s 00:00 hadoop@node1:~$ scp -r .ssh node3:~/hadoop@node3"s password: id_rsa.pub 100% 566 1.0MB/s 00:00 authorized_keys 100% 566 1.3MB/s 00:00 known_hosts 100% 1332 2.8MB/s 00:00 id_rsa 100% 2602 5.2MB/s 00:00
确保执行ssh命令的时候不需要输入密码。
hadoop@node1:~$ ssh node1hadoop@node1:~$ ssh node2hadoop@node1:~$ ssh node3
将安装包解压到目标路径。
hadoop@node1:~$ mkdir -p appshadoop@node1:~$ tar -xzf hadoop-3.3.4.tar.gz -C apps
bin目录下存放的是Hadoop相关的常用命令,比如操作HDFS的hdfs命令,以及hadoop、yarn等命令。
etc目录下存放的是Hadoop的配置文件,对HDFS、MapReduce、YARN以及集群节点列表的配置都在这个里面。
sbin目录下存放的是管理集群相关的命令,比如启动集群、启动HDFS、启动YARN、停止集群等的命令。
share目录下存放了一些Hadoop的相关资源,比如文档以及各个模块的Jar包。
在集群的每个节点上都配置Hadoop的环境变量,Hadoop集群在启动的时候可以使用start-all.sh一次性启动集群中的HDFS和Yarn,为了能够正常使用该命令,需要将其路径配置到环境变量中。
hadoop@node1:~$ vi ~/.bashrcexport HADOOP_HOME=/home/hadoop/apps/hadoop-3.3.4export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoopexport YARN_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoopexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
使环境变量生效。
hadoop@node1:~$ source ~/.bashrc
Hadoop软件安装完成后,每个节点上的Hadoop都是独立的软件,需要进行配置才能组成Hadoop集群。Hadoop的配置文件在$HADOOP_HOME/etc/hadoop目录下,主要配置文件有6个:
hadoop-env.sh主要配置Hadoop环境相关的信息,比如安装路径、配置文件路径等;core-site.xml是Hadoop的核心配置文件,主要配置了Hadoop的NameNode的地址、Hadoop产生的文件目录等信息;hdfs-site.xml是HDFS分布式文件系统相关的配置文件,主要配置了文件的副本数、HDFS文件系统在本地对应的目录等;mapred-site.xml是关于MapReduce的配置文件,主要配置MapReduce在哪里运行;yarn-site.xml是Yarn相关的配置文件,主要配置了Yarn的管理节点ResourceManager的地址、NodeManager获取数据的方式等;workers是集群中节点列表的配置文件,只有在这个文件里面配置了的节点才会加入到Hadoop集群中,否则就是一个独立节点。这几个配置文件如果不存在,可以通过复制配置模板的方式创建,也可以通过创建新文件的方式创建。需要保证在集群的每个节点上这6个配置保持同步,可以在每个节点单独配置,也可以在一个节点上配置完成后同步到其他节点。
hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export HADOOP_HOME=/home/hadoop/apps/hadoop-3.3.4export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoopexport HADOOP_LOG_DIR=/home/hadoop/logs/hadoop
hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/core-site.xml fs.defaultFS hdfs://node1:8020 hadoop.tmp.dir /home/hadoop/data/hadoop/temp hadoop.proxyuser.hadoop.hosts * hadoop.proxyuser.hadoop.groups *
hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml dfs.replication 3 dfs.namenode.name.dir /home/hadoop/data/hadoop/hdfs/name dfs.datanode.data.dir /home/hadoop/data/hadoop/hdfs/data
hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/mapred-site.xml mapreduce.framework.name yarn mapreduce.application.classpath $HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*
hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/yarn-site.xml yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname node1
hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/workersnode1node2node3
在node1上配置好环境变量及配置文件,可以手动再在其他节点上完成同样的配置,或者直接将node1的文件复制到其他节点。
hadoop@node1:~$ scp -r .bashrc apps node2:~/hadoop@node1:~$ scp -r .bashrc apps node3:~/
在启动集群前,需要对NameNode进行格式化,在node1上执行以下命令:
hadoop@node1:~$ hdfs namenode -format
在node1上执行start-all.sh命令启动集群。
hadoop@node1:~$ jps55936 Jpshadoop@node1:~$ start-all.shWARNING: Attempting to start all Apache Hadoop daemons as hadoop in 10 seconds.WARNING: This is not a recommended production deployment configuration.WARNING: Use CTRL-C to abort.Starting namenodes on [node1]Starting datanodesnode2: WARNING: /home/hadoop/logs/hadoop does not exist. Creating.node3: WARNING: /home/hadoop/logs/hadoop does not exist. Creating.Starting secondary namenodes [node1]WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.Starting resourcemanagerWARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.Starting nodemanagersWARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.node3: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.node2: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.node1: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.hadoop@node1:~$ jps57329 ResourceManager57553 NodeManager57027 SecondaryNameNode58165 Jps56437 NameNode56678 DataNode
上传一个文件到HDFS。
hdfs dfs -put .bashrc /
打开HDFS Web UI查看相关信息,默认端口9870。
打开YARN Web UI查看相关信息,默认端口8088。
操作HDFS使用的命令是hdfs,命令格式为:
Usage: hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]
支持的Client命令主要有:
Client Commands:classpath prints the class path needed to get the hadoop jar and the required librariesdfs run a filesystem command on the file systemenvvars display computed Hadoop environment variablesfetchdt fetch a delegation token from the NameNodegetconf get config values from configurationgroups get the groups which users belong tolsSnapshottableDir list all snapshottable dirs owned by the current usersnapshotDiff diff two snapshots of a directory or diff the current directory contents with a snapshotversion print the version
操作HDFS使用的命令是yarn,命令格式为:
Usage: yarn [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS] or yarn [OPTIONS] CLASSNAME [CLASSNAME OPTIONS] where CLASSNAME is a user-provided Java class
支持的Client命令主要有:
Client Commands:applicationattempt prints applicationattempt(s) reportapp|application prints application(s) report/kill application/manage long running applicationclasspath prints the class path needed to get the hadoop jar and the required librariescluster prints cluster informationcontainer prints container(s) reportenvvars display computed Hadoop environment variablesfs2cs converts Fair Scheduler configuration to Capacity Scheduler (EXPERIMENTAL)jar run a jar filelogs dump container logsnodeattributes node attributes cli clientqueue prints queue informationschedulerconf Updates scheduler configurationtimelinereader run the timeline reader servertop view cluster informationversion print the version
yarn jar 可以执行一个jar文件。
验证案例1,统计含有“dfs”的字符串创建一个input目录。
hadoop@node1:~$ hdfs dfs -mkdir /input
将Hadoop的配置文件复制到input目录下。
hadoop@node1:~$ hdfs dfs -put apps/hadoop-3.3.4/etc/hadoop/*.xml /input/
以下命令用于执行一个Hadoop自带的样例程序,统计input目录中含有dfs的字符串,结果输出到output目录。
hadoop@node1:~$ yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar grep /input /output "dfs[a-z.]+"
在YARN上可以看到提交的Job。
执行结果为:
hadoop@node1:~$ hdfs dfs -cat /output/*1 dfsadmin1 dfs.replication1 dfs.namenode.name.dir1 dfs.datanode.data.dir
验证案例2,计算圆周率同样执行Hadoop自带的案例,计算圆周率。
hadoop@node1:~$ yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 10
执行结果为:
hadoop@node1:~$ yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 10WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.Number of Maps = 10Samples per Map = 10Wrote input for Map #0Wrote input for Map #1Wrote input for Map #2Wrote input for Map #3Wrote input for Map #4Wrote input for Map #5Wrote input for Map #6Wrote input for Map #7Wrote input for Map #8Wrote input for Map #9Starting Job... ...Job Finished in 43.014 secondsEstimated value of Pi is 3.20000000000000000000
在YARN上可以看到提交的Job。
bin目录下存放的是Hadoop相关的常用命令,比如操作HDFS的hdfs命令,以及hadoop、yarn等命令。
七彩祥云是一种自然的光的折射作用,但是在民间却认为七彩祥云象征着王者之气、地震的寓意,当然这种说...
2月9日,有着润滑油行业奥斯卡之称的“LubTop中国润滑油行业年度总评榜”正式揭晓。源于德国,在中国区...
答:2023青岛崂山风景名胜区免门票对象,所有国内外游客,免门票期限2023年1月21日至2023年3月31日。景...
1、最低配置:系统:WindowsXP(32-64位) WindowsVista(32-64位) Window
1、1 Doonethingatatime,anddowell 一次只做一件事,做到最好!2 Kee
海口吕梁哈尔滨航线首航成功百余名外省游客包机抵晋
日子如同白驹过隙,不经意间,成绩已属于过去,新一轮的工作即将来临,此时此刻我们需要开始制定一个计...
励志名言警句能够激励我们不断的前进,是激励我们成长的精神依托。今天学习啦小编为你分享的是励志名言...
2022年10月28日,专业从事无损检测设备的研发、生产和销售的高新技术企业广州多浦乐电子科技股份有限公...
中美货物贸易创新高“脱钩论”不得人心,美国,美中,脱钩论,货物贸易,一带一路倡议
同花顺金融研究中心2月8日讯,有投资者向东软载波提问,请问公司在智能化领域公司的业务有哪些关于在人...
新学期拍了拍你丨志愿红温暖开学日
非主流个性伤感网名一款好听的个性的网名非常重要,这样可以显示每个人的个性。以下就是国柱小编为你精...
秋天早晨的优美句子共62句1 秋天,红艳艳的苹果扒开绿叶往外瞧;小红灯笼似的枣子挂满了枝头;像紫玛瑙的...
赠人玫瑰,手有余香作文8篇在日常学习、工作或生活中,大家都经常看到作文的身影吧,作文是人们以书面形...
1、相传二郎神的哮天犬喜欢偷吃月亮,结果被二郎神知道了。2、一气之下将它打下人间,正好落到了黄山的...
1、道法自然,是道德经里的一句话,原文是‘人法地,地法天,天法道,道法自然’,意思是人取法于地,地取法于...
近期最火爆的项目莫过于ChatGPT,其上线两个月,活跃用户已经超过1亿人。关于ChatGPT,马斯克在去年12月...
曹操墓在哪里,河南省安阳市安丰乡西高穴村。全国重点文物保护单位,是一座多墓室大型砖室墓。曹操墓处...
格隆汇2月7日丨风范股份(601700)(601700 SH)公布,2023年2月6日,中国南方电网有限责任公司在其供应链...
秘鲁南部阿雷基帕省部分地区5日开始的持续暴雨引发泥石流和山体滑坡。秘鲁官方消息6日说,已造成至少36...
近日,战区陆军第81集团军某旅组织滑雪集训,进一步提高了特战队员在严寒条件下的作战能力,为遂行多样...
我们会发现NBA现在砍下高分的球员越来越多,特别是当初肖华接手NBA后,就决定提倡球员进攻,打击防守。...
1、饶平三百门港,后改名潮州港,位于潮州市饶平县海山镇,是华南地区深水良港之一,位于柘林湾内,紧台...
X 关闭
X 关闭