Hadoop 大数据平台搭建

大数据

实战

发布日期: 2021-01-22

阅读时长: 1 分

阅读次数:

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到论文 MapReduce 、GFS 与 Bigtable 的启发。

Hadoop 具有高可靠性、高扩展性、高效性和高容错性。Hadoop 主要由以下四部分组成：HDFS，一个高可靠、高吞吐量的分布式文件系统；MapReduce，一个分布式的离线并行计算框架；YARN，作业调度与集群资源管理的框架；Common，工具模块，支持配置、RPC、序列化机制、日志操作等。

部署规划

主机名称	IP	HDFS	Yarn	内存
hadoop-01	192.168.226.137	NameNode SecondaryNameNode DataNode	ResourceManager NodeManager	1G
hadoop-02	192.168.226.138	DataNode	NodeManager	1G
Hadoop-03	192.168.226.139	DataNode	NodeManager	1G

网络配置，创建用户

net

user

sudo

安装 JDK 和 Hadoop

解压二进制资源包，配置环境变量

path

验证安装

version

hadoop

设置防火墙、修改 hosts

环境与用户配置

hadoop-env.sh

hadoop-env

start-dfs.sh

start-dfs

start-yarn.sh

start-yarn

参数配置

core-site.xml

core-site

hdfs-site.xml

hdfs-site

mapred-site.xml

mapred-site

yarn-site.xml

yarn-site

格式化 namenode

namenode-format

namenode-format

ssh 免密登录

ssh

启动 Hadoop

start

overview

cluster

node

用 hadoop-01 克隆两台虚拟机

配置网络，修改主机名

clone

分别添加 ssh 公钥

ssh

ssh-copy

修改参数

workers

workers

hdfs-site.xml

hdfs-site

yarn-site.xml

yarn-site

mapred-site.xml

mapred-site

格式化 namenode 并启动

jps02

jps03

start-all

node

测试 wordcount 实例

创建测试文件

words

执行程序

jar

同步时间

ntpd

再次执行

jar

修改 mapred-site.xml

mapred-site

再次执行

jar

directory

cat

参考链接

Hadoop 3.2 环境搭建 - 简书

sleepingraven

https://sleepingraven.github.io/practice/hadoop-da-shu-ju-ping-tai-da-jian/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 sleepingraven !

大数据

评论

上一篇

MapReduce 编程实践

MapReduce 编程实践

2021-01-22 实战

大数据

下一篇

OpenStack 开源云计算平台搭建

OpenStack 开源云计算平台搭建

2021-01-22 实战

大数据云计算