Hadoop 3.1.3 完全分布式安装配置文

Hadoop 3.1.3 完全分布式安装配置文档

💡

欢迎您在底部评论区留言，一起交流~

Hadoop 3.1.3 完全分布式安装配置文档

适用环境:

大数据省赛容器环境 (Master, Slave1, Slave2)

使用 root 用户进行所有操作。

所有命令均使用绝对路径。

三个节点的 root 密码均为 123456。

第一步：环境初始化与目录创建

登录到 Master 节点。

第二步：解压安装包

将 JDK 和 Hadoop 安装包解压到 /opt/module/ 目录。

第三步：关闭防火墙

为避免网络通信问题，关闭并禁用防火墙。

第四步：配置主机名映射

编辑 /etc/hosts 文件，添加集群节点的 IP 与主机名映射。

第五步：配置 SSH 免密登录

在 Master 节点生成 SSH 密钥对（一路回车确认）。

将公钥分发到 Master、Slave1、Slave2 三个节点（按提示输入密码 123456）。

为确保 Slave 节点权限一致，将 Master 的授权文件复制到 Slave1 和 Slave2。

第六步：配置全局环境变量

编辑 /etc/profile 文件。

在文件末尾添加以下内容：

使环境变量立即生效。

验证 JDK 安装。成功输出版本信息，表明 JDK 配置正确。

第七步：分发 JDK 和环境变量到 Slave 节点

将配置好的 JDK 和环境变量文件分发到 Slave1 和 Slave2 节点。

激活环境变量

第八步：配置 Hadoop 核心文件

所有配置文件位于 $HADOOP_HOME/etc/hadoop/ 目录下。

配置 core-site.xml

修改 <configuration> 标签内的内容为：

配置 hdfs-site.xml

修改 <configuration> 标签内的内容为：

配置 mapred-site.xml

修改 <configuration> 标签内的内容为：

配置 yarn-site.xml

修改 <configuration> 标签内的内容为：

配置 workers (原 slaves)

清空文件内容，添加以下两行，指定 DataNode 节点：

配置 mapred-env.sh (可选，但推荐)

添加一行，明确指定 MapReduce 使用的 JDK：

第九步：分发 Hadoop 安装包到 Slave 节点

将配置好的整个 Hadoop 目录从 Master 节点分发到 Slave1 和 Slave2 节点。

激活环境变量

第十步：格式化 NameNode 并启动集群

在 Master 节点上格式化 HDFS 文件系统。

启动 Hadoop 集群（包括 HDFS 和 YARN）。

检查各节点进程。

在 Master 节点执行 jps，应看到以下进程：

NameNode
ResourceManager
SecondaryNameNode

在 Slave1 和 Slave2 节点执行 jps，应看到以下进程：

DataNode
NodeManager

第十一步：验证集群

Web UI 验证:

HDFS 管理界面: http://master:9870/

YARN 管理界面: http://master:8088/

运行 MapReduce 示例程序: 如果程序成功运行并输出圆周率的估算值，则证明 Hadoop 集群安装配置成功。

附录：集群异常处理

当集群启动异常时，按以下顺序执行清理和重启操作：

至此，Hadoop 3.1.3 完全分布式集群已安装配置完毕。

神秘人

-- 感谢您的支持 ---

👏欢迎光临寒舍👏

本博客作为学习用途，用于记录学习过程中的笔记，内容可能有误，欢迎在评论区指正！！

日志：

2025/7/29 添加了一些免费的工具和服务😎

2025/2/23 us.kg域名故障,已紧急修复！！

2025/1/29 无聊的博客，祝您新年快乐！！

2024/11/18 网站异常，已紧急修复！！