新聞中心
Hadoop 是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ),本篇文章重點(diǎn)為大家講解一下Linux中部署Hadoop集群具體步驟。

成都一家集口碑和實(shí)力的網(wǎng)站建設(shè)服務(wù)商,擁有專業(yè)的企業(yè)建站團(tuán)隊(duì)和靠譜的建站技術(shù),十載企業(yè)及個(gè)人網(wǎng)站建設(shè)經(jīng)驗(yàn) ,為成都千余家客戶提供網(wǎng)頁(yè)設(shè)計(jì)制作,網(wǎng)站開(kāi)發(fā),企業(yè)網(wǎng)站制作建設(shè)等服務(wù),包括成都營(yíng)銷型網(wǎng)站建設(shè),高端網(wǎng)站設(shè)計(jì),同時(shí)也為不同行業(yè)的客戶提供成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作的服務(wù),包括成都電商型網(wǎng)站制作建設(shè),裝修行業(yè)網(wǎng)站制作建設(shè),傳統(tǒng)機(jī)械行業(yè)網(wǎng)站建設(shè),傳統(tǒng)農(nóng)業(yè)行業(yè)網(wǎng)站制作建設(shè)。在成都做網(wǎng)站,選網(wǎng)站制作建設(shè)服務(wù)商就選成都創(chuàng)新互聯(lián)公司。
一、Hadoop框架簡(jiǎn)介
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。
HDFS(Hadoop Distribution File System),稱為Hadoop分布式文件系統(tǒng),主要特點(diǎn):
HDFS最小以64MB的數(shù)據(jù)塊存儲(chǔ)文件,相比其他文件系統(tǒng)中的4KB~32KB分塊大得多。
HDFS在時(shí)延的基礎(chǔ)上對(duì)吞吐量進(jìn)行了優(yōu)化,它能夠高效處理了對(duì)大文件的讀請(qǐng)求流,但不擅長(zhǎng)對(duì)眾多小文件的定位請(qǐng)求
HDFS對(duì)普通的“一次寫(xiě)入,多次讀取”的工作負(fù)載進(jìn)行了優(yōu)化。
每個(gè)存儲(chǔ)節(jié)點(diǎn)運(yùn)行著一個(gè)稱為DataNode的進(jìn)程,它管理著相應(yīng)主機(jī)上的所有數(shù)據(jù)塊。這些存儲(chǔ)節(jié)點(diǎn)都由一個(gè)稱為NameNode的主進(jìn)程來(lái)協(xié)調(diào),該進(jìn)程運(yùn)行于一臺(tái)獨(dú)立進(jìn)程上。
與磁盤(pán)陣列中設(shè)置物理冗余來(lái)處理磁盤(pán)故障或類似策略不同,HDFS使用副本來(lái)處理故障,每個(gè)由文件組成的數(shù)據(jù)塊存儲(chǔ)在集群眾的多個(gè)節(jié)點(diǎn),HDFS的NameNode不斷監(jiān)視各個(gè)DataNode發(fā)來(lái)的報(bào)告。
1、MapReduce工作原理
客戶端,提交MapReduce作業(yè);jobtracker,協(xié)調(diào)作業(yè)的運(yùn)行,jobtracker是一個(gè)java應(yīng)用程序,它的主類是JobTracker;tasktracker。運(yùn)行作業(yè)劃分后的任務(wù),tasktracker是一個(gè)java應(yīng)用程序,TaskTracker是主類。
2、Hadoop優(yōu)點(diǎn)
Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):
高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性:Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。
高容錯(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
低成本:與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開(kāi)源的,項(xiàng)目的軟件成本因此會(huì)大大降低。
Hadoop帶有用Java語(yǔ)言編寫(xiě)的框架,因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語(yǔ)言編寫(xiě),比如 C++。
Hadoop官網(wǎng):http://hadoop.apache.org/
二、先決條件
保持Hadoop集群每個(gè)節(jié)點(diǎn)配置環(huán)境一致,安裝java,配置ssh。
實(shí)驗(yàn)環(huán)境:
Platform:xen vm
OS: CentOS 6.8
Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm
| Hostname | IP Address | OS version | Hadoop role | Node role |
|---|---|---|---|---|
| linux-node1 | 192.168.0.89 | CentOS 6.8 | Master | namenode |
| linux-node2 | 192.168.0.90 | CentOS 6.8 | Slave | datenode |
| linux-node3 | 192.168.0.91 | CentOS 6.8 | Slave | datenode |
| linux-node4 | 192.168.0.92 | CentOS 6.8 | Slave | datenode |
#把需要的軟件包下載下來(lái)上傳到集群的各個(gè)節(jié)點(diǎn)上
三、集群的構(gòu)架和安裝
1、Hosts文件設(shè)置
#Hadoop集群中的每個(gè)節(jié)點(diǎn)的hosts文件都需要修改
[root@linux-node1 ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain linux-node1
192.168.0.89 linux-node1
192.168.0.90 linux-node2
192.168.0.91 linux-node3
192.168.0.92 linux-node4
2、安裝java
#提前把下載好的JDK(rpm包)上傳到服務(wù)器上,然后安裝
rpm -ivh jdk-8u101-linux-x64.rpm
export JAVA_HOME=/usr/java/jdk1.8.0_101/
export PATH=$JAVA_HOME/bin:$PATH
# java -version
java version "1.8.0_101"
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)
3、安裝hadoop
#創(chuàng)建hadoop用戶,設(shè)置使用sudo
[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop
[root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
[root@linux-node1 ~]# su - hadoop
[hadoop@linux-node1 ~]$ cd /usr/local/src/
[hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
[hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop
[hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop
[hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/
#將hadoop的二進(jìn)制目錄添加到PATH變量,并設(shè)置HADOOP_HOME環(huán)境變量
[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/
[hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH
4、創(chuàng)建hadoop相關(guān)目錄
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data}
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp
#節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)備份目錄
sudo mkdir -p /data/hdfs/{name,data}
sudo chown -R hadoop:hadoop /data/
#上述操作需在hadoop集群的每個(gè)節(jié)點(diǎn)都操作
5、SSH配置
#設(shè)置集群主節(jié)點(diǎn)免密碼登陸其他節(jié)點(diǎn)
[hadoop@linux-node1 ~]$ ssh-keygen -t rsa
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
#測(cè)試ssh登錄
6、修改hadoop的配置文件
文件位置:/home/hadoop/hadoop/etc/hadoop,文件名稱:hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml
(1)配置hadoop-env.sh文件
#在hadoop安裝路徑下,進(jìn)入hadoop/etc/hadoop/目錄并編輯hadoop-env.sh,修改JAVA_HOME為JAVA的安裝路徑
[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/
[hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh
# The only required environment variable is JAVA_HOME. All others are
# set JAVA_HOME in this file, so that it is correctly defined on
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/java/jdk1.8.0_101/
(2)配置yarn.sh文件
指定yran框架的java運(yùn)行環(huán)境,該文件是yarn框架運(yùn)行環(huán)境的配置文件,需要修改JAVA_HOME的位置。
[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
export JAVA_HOME=/usr/java/jdk1.8.0_101/
(3)配置slaves文件
指定DataNode數(shù)據(jù)存儲(chǔ)服務(wù)器,將所有的DataNode的機(jī)器的主機(jī)名寫(xiě)入到此文件中,如下:
[hadoop@linux-node1 hadoop]$ cat slaves
linux-node2
linux-node3
linux-node4
Hadoop 3種運(yùn)行模式
本地獨(dú)立模式:Hadoop的所有組件,如NameNode,DataNode,Jobtracker,Tasktracker都運(yùn)行在一個(gè)java進(jìn)程中。
偽分布式模式:Hadoop的各個(gè)組件都擁有一個(gè)單獨(dú)的Java虛擬機(jī),它們之間通過(guò)網(wǎng)絡(luò)套接字通信。
完全分布式模式:Hadoop分布在多臺(tái)主機(jī)上,不同的組件根據(jù)工作性質(zhì)的不同安裝在不通的Guest上。
#配置完全分布式模式
(4)修改core-site.xml文件,添加紅色區(qū)域的代碼,注意藍(lán)色標(biāo)注的內(nèi)容
fs.default.name
hdfs://linux-node1:9000
io.file.buffer.size
131072
hadoop.tmp.dir
file:/home/hadoop/tmp
Abase
for other temporary directories.
(5)修改hdfs-site.xml文件
dfs.namenode.secondary.http-address
linux-node1:9001
# 通過(guò)web界面來(lái)查看HDFS狀態(tài)
dfs.namenode.name.dir
file:/home/hadoop/dfs/name
dfs.datanode.data.dir
file:/home/hadoop/dfs/data
dfs.replication
2
# 每個(gè)Block有2個(gè)備份
dfs.webhdfs.enabled
true
(6)修改mapred-site.xml
這個(gè)是mapreduce任務(wù)的配置,由于hadoop2.x使用了yarn框架,所以要實(shí)現(xiàn)分布式部署,必須在mapreduce.framework.name屬性下配置為yarn。mapred.map.tasks和mapred.reduce.tasks分別為map和reduce的任務(wù)數(shù)。
[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
linux-node1:10020
mapreduce.jobhistory.webapp.address
linux-node1:19888
(7)配置節(jié)點(diǎn)yarn-site.xml
#該文件為yarn架構(gòu)的相關(guān)配置
"1.0"?>
mapred.child.java.opts
-Xmx400m
"1.0"?>
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
linux-node1:8032
yarn.resourcemanager.scheduler.address
linux-node1:8030
yarn.resourcemanager.resource-tracker.address
linux-node1:8031
yarn.resourcemanager.admin.address
linux-node1:8033
yarn.resourcemanager.webapp.address
linux-node1:8088
yarn.nodemanager.resource.memory-mb
8192
7、復(fù)制hadoop到其他節(jié)點(diǎn)
scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/
scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/
scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/
8、在linux-node1使用hadoop用戶初始化NameNode
/home/hadoop/hadoop/bin/hdfs namenode –format
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
#echo $?
#sudo yum –y install tree
# tree /home/hadoop/dfs
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
9、啟動(dòng)hadoop
/home/hadoop/hadoop/sbin/start-dfs.sh
/home/hadoop/hadoop/sbin/stop-dfs.sh
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
#namenode節(jié)點(diǎn)上面查看進(jìn)程
ps aux | grep --color namenode
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
#DataNode上面查看進(jìn)程
ps aux | grep --color datanode
10、啟動(dòng)yarn分布式計(jì)算框架
[hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons
#NameNode節(jié)點(diǎn)上查看進(jìn)程
ps aux | grep --color resourcemanager
#DataNode節(jié)點(diǎn)上查看進(jìn)程
ps aux | grep --color nodemanager
注:start-dfs.sh和start-yarn.sh這兩個(gè)腳本可用start-all.sh代替
/home/hadoop/hadoop/sbin/stop-all.sh
/home/hadoop/hadoop/sbin/start-all.sh
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
11、啟動(dòng)jobhistory服務(wù),查看mapreduce狀態(tài)
#在NameNode節(jié)點(diǎn)上
[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver
starting historyserver, logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out
12、查看HDFS分布式文件系統(tǒng)狀態(tài)
/home/hadoop/hadoop/bin/hdfs dfsadmin –report
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
#查看文件塊組成,一個(gè)文件由那些塊組成
/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks
實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)實(shí)戰(zhàn)CentOS系統(tǒng)部署Hadoop集群服務(wù)
13、web頁(yè)面查看hadoop集群狀態(tài)
網(wǎng)頁(yè)名稱:Linux中部署Hadoop集群具體步驟
URL分享:http://www.5511xx.com/article/dhgpjed.html


咨詢
建站咨詢
