Hadoop集群笔记（一）

最新推荐文章于 2025-02-20 00:54:54 发布

原创最新推荐文章于 2025-02-20 00:54:54 发布 · 1.4k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍Hadoop集群的搭建过程，包括环境变量配置、核心配置文件修改、守护进程启动及Web界面查看等关键步骤，适合初学者快速上手。

Hadoop 集群搭建

vim hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_191-amd64

vim core-site.xml

<configuration>
<!-- 指定HDFS中NameNode的地址 -->
     <property>
     <name>fs.defaultFS</name>
         <value>hdfs://node-a.example.com:9000</value>
     </property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
     <property>
     <name>hadoop.tmp.dir</name>
     <value>file:/home/hadoop/hadoop/tmp</value>
     </property>
</configuration>

vim hdfs-site.xml

<configuration>
<!-- 设置dfs副本数，不设置默认是3个   -->
　　<property>
　　　　<name>dfs.replication</name>
　　　　<value>2</value>
　　</property>
<!-- 设置secondname的端口   -->
　　<property>
　　　　<name>dfs.namenode.name.dir</name>
　　　　<value>file:/home/hadoop/hadoop/tmp/dfs/name</value>
　　</property>
　　<property>
　　　　<name>dfs.datanode.data.dir</name>
　　　　<value>file:/home/hadoop/hadoop/tmp/dfs/data</value>
　　</property>
　　<property>
　　　　<name>dfs.namenode.secondary.http-address</name>
　　　　<value>node-b.example.com:9001</value>
　　</property>
</configuration>

vim mapred-site.xml

<configuration>
<!--指定mapreduce运行时框架，这里指定在yarn，默认是local-->
    <property>
　　　　<name>mapreduce.framework.name</name>
　　　　<value>yarn</value>
　　</property>
</configuration>

vim yarn-site.xml

<configuration>
<!-- 指定YARN的老大（ResourceManager）的地址 -->
　　<property>
　　　　<name>yarn.resourcemanager.hostname</name>
　　　　<value>node-a.example.com</value>
　　</property>
<!-- reducer获取数据的方式 -->
　　<property>
　　　　<name>yarn.nodemanager.aux-services</name>
　　　　<value>mapreduce_shuffle</value>
　　</property>
　　<property>
　　　　<name>yarn.log-aggregation-enable</name>
　　　　<value>true</value>
　　</property>
　　<property>
　　　　<name>yarn.log-aggregation.retain-seconds</name>
　　　　<value>604800</value>
　　</property>
</configuration>

vim workers

node-a.example.com
node-b.example.com
node-c.example.com

vim /etc/profile

# Set JAVA 
export JAVA_HOME=/usr/java/jdk1.8.0_191-amd64
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
 
#Set HADOOP
export HADOOP_HOME=/home/hadoop/hadoop-3.1.1/
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_LOG_DIR=/home/hadoop/hadoop-3.1.1/data/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR

scp -r /home/hadoop/hadoop-3.1.1/ root@node2:/home/hadoop/
scp -r /home/hadoop/hadoop-3.1.1/ root@node3:/home/hadoop/

scp -r /etc/profile root@node2:/etc/profile
scp -r /etc/profile root@node3:/etc/profile

启动：需要启动HDSF和YARN两个集群

备注：首次启动HDFS时，必须对其进行格式化操作(格式化只能进行一次，后续启动不在格式化）

注意：格式化在hdfs集群的主角色（namenode）所在的机器上进行

hdfs namenode -format 或者 hadoop  namenode -format

启动

# 主节点:启动 HDFS NameNode
hadoop-daemon.sh start namenode

# 从节点:启动 HDFS NameNode
hadoop-daemon.sh start datanode



# 主节点启动 YARN ResourceManager
yarn-daemon.sh start resourcemanager

# 从节点启动 YARN ResourceManager
yarn-daemon.sh start nodemanager

2个集群

hdfs:

[hadoop@node1 sbin]$ start-dfs.sh 
Starting namenodes on [node-a.example.com]
node-a.example.com: WARNING: HADOOP_NAMENODE_OPTS has been replaced by HDFS_NAMENODE_OPTS. Using value of HADOOP_NAMENODE_OPTS.
Starting datanodes
Starting secondary namenodes [node-b.example.com]
[hadoop@node1 sbin]$ jps
5504 Jps
5212 DataNode
5085 NameNode
[hadoop@node1 sbin]$

yarn:

[hadoop@node1 sbin]$ start-yarn.sh 
WARNING: YARN_LOG_DIR has been replaced by HADOOP_LOG_DIR. Using value of YARN_LOG_DIR.
Starting resourcemanager
WARNING: YARN_LOG_DIR has been replaced by HADOOP_LOG_DIR. Using value of YARN_LOG_DIR.
Starting nodemanagers
WARNING: YARN_LOG_DIR has been replaced by HADOOP_LOG_DIR. Using value of YARN_LOG_DIR.
[hadoop@node1 sbin]$ jps
6274 NodeManager
6610 Jps
6153 ResourceManager
5212 DataNode
5085 NameNode
[hadoop@node1 sbin]$

集群-Web页面

具体的地址请参照hadoop文档

Daemon	Web Interface	Notes
NameNode	http://nn_host:port/	Default HTTP port is 9870.
ResourceManager	http://rm_host:port/	Default HTTP port is 8088.
MapReduce JobHistory Server	http://jhs_host:port/	Default HTTP port is 19888.

创建文件夹

[hadoop@node1 ~]$ 
[hadoop@node1 ~]$ hdfs dfs -ls /
[hadoop@node1 ~]$ hdfs dfs -mkdir /ylanhds
[hadoop@node1 ~]$ hdfs dfs -ls /
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2019-04-28 10:27 /ylanhds
[hadoop@node1 ~]$