新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

Hadoop之完全分布式集群

hadoop之完全分布式集群

作者：kocdaniel 2019-09-26 15:43:52

開(kāi)發(fā)

架構(gòu)

分布式

Hadoop 首先準(zhǔn)備三臺(tái)客戶機(jī)（hadoop102，hadoop103，hadoop104），關(guān)閉防火墻，修改為靜態(tài)ip和ip地址映射

讓客戶滿意是我們工作的目標(biāo)，不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶，將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴，公司提供的服務(wù)項(xiàng)目有：空間域名、網(wǎng)絡(luò)空間、營(yíng)銷軟件、網(wǎng)站建設(shè)、孟連網(wǎng)站維護(hù)、網(wǎng)站推廣。

首先準(zhǔn)備三臺(tái)客戶機(jī)(hadoop102，hadoop103，hadoop104)，關(guān)閉防火墻，修改為靜態(tài)ip和ip地址映射

配置集群

編寫集群分發(fā)腳本

創(chuàng)建一個(gè)遠(yuǎn)程同步的腳本xsync，并放到當(dāng)前用戶下新建的bin目錄下，配置到PATH中，使得此腳本在任何目錄下都可以執(zhí)行
腳本實(shí)現(xiàn)

  
 
 
    
  
  
  [kocdaniel@hadoop102 ~]$ mkdir bin    
  
  
  [kocdaniel@hadoop102 ~]$ cd bin/    
  
  
  [kocdaniel@hadoop102 bin]$ vim xsync

在文件中編寫如下腳本代碼

  
 
 
    
  
  
  #!/bin/bash    
  
  
  #1 獲取輸入?yún)?shù)個(gè)數(shù)，如果沒(méi)有參數(shù)，直接退出    
  
  
  pcount=$#    
  
  
  if((pcount==0)); then    
  
  
  echo no args;    
  
  
  exit;    
  
  
  fi    
  
  
      
  
  
  #2 獲取文件名稱    
  
  
  p1=$1    
  
  
  fname=`basename $p1`    
  
  
  echo fname=$fname    
  
  
      
  
  
  #3 獲取上級(jí)目錄到絕對(duì)路徑 –P指向?qū)嶋H物理地址，防止軟連接    
  
  
  pdir=`cd -P $(dirname $p1); pwd`    
  
  
  echo pdir=$pdir    
  
  
      
  
  
  #4 獲取當(dāng)前用戶名稱    
  
  
  user=`whoami`    
  
  
      
  
  
  #5 循環(huán)    
  
  
  for((host=103; host<105; host++)); do    
  
  
          echo ------------------- hadoop$host --------------    
  
  
          rsync -rvl $pdir/$fname $user@hadoop$host:$pdir    
  
  
  done

修改腳本xsync具有執(zhí)行權(quán)限，并調(diào)用腳本，將腳本復(fù)制到103和104節(jié)點(diǎn)

  
 
 
    
  
  
  [kocdaniel@hadoop102 bin]$ chmod 777 xsync    
  
  
  [kocdaniel@hadoop102 bin]$ xsync /home/atguigu/bin

集群配置

1.集群部署規(guī)劃

由于計(jì)算機(jī)配置有限，只能使用三臺(tái)虛擬機(jī)，工作環(huán)境中根據(jù)需要規(guī)劃集群

2.配置集群

切換到hadoop安裝目錄/etc/hadoop/

配置core-site.xml

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim core-site.xml    
  
  
  # 在文件中寫入如下內(nèi)容    
  
  
      
  
  
      
  
  
      fs.defaultFS    
  
  
        hdfs://hadoop102:9000    
  
  
      
  
  
      
  
  
      
  
  
      
  
  
          hadoop.tmp.dir    
  
  
          /opt/module/hadoop-2.7.2/data/tmp

HDFS配置文件

配置hadoop-env.sh

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim hadoop-env.sh    
  
  
  export JAVA_HOME=/opt/module/jdk1.8.0_144

export JAVA_HOME=/opt/module/jdk1.8.0_144

注意：我們已經(jīng)在/etc/profile文件中配置了JAVA_HOME，這里為什么還需要配置JAVA_HOME?

答：因?yàn)镠adoop運(yùn)行是守護(hù)進(jìn)程(守護(hù)進(jìn)程是一個(gè)在后臺(tái)運(yùn)行并且不受任何終端控制的進(jìn)程。--摘自百度百科))，正是因?yàn)樗笈_(tái)運(yùn)行，不接受任何終端控制，所以它讀取不到我們配置好的環(huán)境變量，所以這里需要單獨(dú)配置一下。

配置hdfs-site.xml

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim hdfs-site.xml    
  
  
  # 寫入如下配置    
  
  
      
  
  
      
  
  
          dfs.replication    
  
  
          3    
  
  
      
  
  
      
  
  
      
  
  
      
  
  
        dfs.namenode.secondary.http-address    
  
  
        hadoop104:50090

YARN配置文件

配置yarn-env.sh

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim yarn-env.sh    
  
  
  export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vi yarn-site.xml    
  
  
  # 增加如下配置    
  
  
      
  
  
      
  
  
          yarn.nodemanager.aux-services    
  
  
          mapreduce_shuffle    
  
  
      
  
  
      
  
  
      
  
  
      
  
  
          yarn.resourcemanager.hostname    
  
  
          hadoop103

MapReduce配置文件

配置mapred-env.sh

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim mapred-env.sh    
  
  
  export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml

  
 
 
    
  
  
  # 如果是第一次配置的話，需要先將mapred-site.xml.template重命名為mapred-site.xml    
  
  
  [kocdaniel@hadoop102 hadoop]$ cp mapred-site.xml.template mapred-site.xml    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim mapred-site.xml    
  
  
  # 在文件中增加如下配置    
  
  
      
  
  
      
  
  
          mapreduce.framework.name    
  
  
          yarn

3.將配置好的文件利用集群分發(fā)腳本同步到hadoop103和hadoop104節(jié)點(diǎn)

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/

最好在同步完成之后檢查一下同步結(jié)果，避免錯(cuò)誤

單點(diǎn)啟動(dòng)

1.如果是第一次啟動(dòng)，需要格式化namenode，否則跳過(guò)此步

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop-2.7.2]$ hadoop namenode -format

格式化需要注意的問(wèn)題：

只有第一次啟動(dòng)需要格式化，以后不要總是格式化，否則會(huì)出現(xiàn)namenode和datanode的集群id不一致的情況，導(dǎo)致datanode啟動(dòng)失敗
正確的格式化姿勢(shì)：

在執(zhí)行第一次格式化時(shí)會(huì)在hadoop安裝目錄下產(chǎn)生data文件夾，里面會(huì)生成namenode的信息
在啟動(dòng)namenode和datanode后，還會(huì)在同樣的目錄下產(chǎn)生logs的日志文件夾
所以在格式化之前需要先將這兩個(gè)文件夾刪除，然后再格式化，最后啟動(dòng)namenode和datanode

2.在hadoop102上啟動(dòng)namenode

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start namenode    
  
  
  [kocdaniel@hadoop102 hadoop-2.7.2]$ jps    
  
  
  3461 NameNode

3.在hadoop102、hadoop103以及hadoop104上分別啟動(dòng)DataNode

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start datanode    
  
  
  [kocdaniel@hadoop102 hadoop-2.7.2]$ jps    
  
  
  3461 NameNode    
  
  
  3608 Jps    
  
  
  3561 DataNode    
  
  
  [kocdaniel@hadoop103 hadoop-2.7.2]$ hadoop-daemon.sh start datanode    
  
  
  [kocdaniel@hadoop103 hadoop-2.7.2]$ jps    
  
  
  3190 DataNode    
  
  
  3279 Jps    
  
  
  [kocdaniel@hadoop104 hadoop-2.7.2]$ hadoop-daemon.sh start datanode    
  
  
  [kocdaniel@hadoop104 hadoop-2.7.2]$ jps    
  
  
  3237 Jps    
  
  
  3163 DataNode

4.訪問(wèn)hadoop102:50070查看結(jié)果

但是以上單點(diǎn)啟動(dòng)有一個(gè)問(wèn)題：

每次都一個(gè)一個(gè)節(jié)點(diǎn)啟動(dòng)，如果節(jié)點(diǎn)數(shù)增加到1000個(gè)怎么辦?

配置ssh免密登錄

1.配置ssh

ssh 另一個(gè)節(jié)點(diǎn)的ip 就可以切換到另一臺(tái)機(jī)器，但是得輸入密碼

2.免密ssh配置

免密登錄原理

在配置namenode的主機(jī)hadoop102上生成私鑰和公鑰

切換目錄到/home/用戶名/.ssh/

  
 
 
    
  
  
  [kocdaniel@hadoop102 .ssh]$ ssh-keygen -t rsa

  
 
 
    
  
  
  - 然后敲（三個(gè)回車），就會(huì)生成兩個(gè)文件id_rsa（私鑰）、id_rsa.pub（公鑰）    
  
  
   - 將公鑰拷貝到要免密登錄的目標(biāo)機(jī)器上    
  
  
      
  
  
   ```shell    
  
  
   [kocdaniel@hadoop102 .ssh]$ ssh-copy-id hadoop103    
  
  
   [kocdaniel@hadoop102 .ssh]$ ssh-copy-id hadoop104    
  
  
   # 注意：ssh訪問(wèn)自己也需要輸入密碼，所以我們需要將公鑰也拷貝給102    
  
  
   [kocdaniel@hadoop102 .ssh]$ ssh-copy-id hadoop102    
  
  
       
  
  
   ```

同樣，在配置resourcemanager的主機(jī)hadoop103上執(zhí)行同樣的操作，然后就可以群起集群了

群起集群

1.配置slaves

切換目錄到：hadoop安裝目錄/etc/hadoop/
在目錄下的slaves文件中添加如下內(nèi)容

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ vim slaves    
  
  
  # 注意結(jié)尾不能有空格，文件中不能有空行    
  
  
  hadoop102    
  
  
  hadoop103    
  
  
  hadoop104

同步所有節(jié)點(diǎn)的配置文件

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop]$ xsync slaves

2.啟動(dòng)集群

同樣，如果是第一次啟動(dòng)，需要格式化
啟動(dòng)HDFS

  
 
 
    
  
  
  [kocdaniel@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh    
  
  
      
  
  
  # 查看啟動(dòng)結(jié)果，和集群規(guī)劃（配置文件中）的一致    
  
  
  [atguigu@hadoop102 hadoop-2.7.2]$ jps    
  
  
  4166 NameNode    
  
  
  4482 Jps    
  
  
  4263 DataNode    
  
  
      
  
  
  [atguigu@hadoop103 hadoop-2.7.2]$ jps    
  
  
  3218 DataNode    
  
  
  3288 Jps    
  
  
      
  
  
  [atguigu@hadoop104 hadoop-2.7.2]$ jps    
  
  
  3221 DataNode    
  
  
  3283 SecondaryNameNode    
  
  
  3364 Jps

啟動(dòng)YARN

  
 
 
    
  
  
  # 注意：NameNode和ResourceManger如果不是同一臺(tái)機(jī)器，不能在NameNode上啟動(dòng) YARN，應(yīng)該在ResouceManager所在的機(jī)器上啟動(dòng)YARN    
  
  
  [kocdaniel@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

3.web端查看相關(guān)信息

網(wǎng)站名稱：Hadoop之完全分布式集群
文章地址：http://www.5511xx.com/article/dpghpcp.html