日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
nutch+hadoop配置使用方法簡(jiǎn)明介紹

本節(jié)繼續(xù)向大家介紹一下nutch+hadoop配置方面的內(nèi)容,上節(jié)介紹了配置的步驟,本節(jié)介紹一下nutch+hadoop配置完成后如何使用,歡迎大家一起來(lái)學(xué)習(xí)。

創(chuàng)新互聯(lián)建站服務(wù)項(xiàng)目包括延川網(wǎng)站建設(shè)、延川網(wǎng)站制作、延川網(wǎng)頁(yè)制作以及延川網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái),我們專(zhuān)注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,延川網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶(hù)以成都為中心已經(jīng)輻射到延川省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶(hù)的支持與信任!

nutch+hadoop配置使用

中文分詞:
1.對(duì)建立索引所用分詞工具的修改
將下載的中文分詞包放到lib目錄下,改名為analysis-zh.jar(當(dāng)然,你也可以不用改)。找到下面文件
src\java\org\apache\nutch\analysis\NutchDocumentAnalyzer.java
修改tokenStream方法如下
publicTokenStreamtokenStream(StringfieldName,Readerreader){
Analyzeranalyzer;
analyzer=newMMAnalyzer();
returnanalyzer.tokenStream(fieldName,reader);
}
注意:由于加入信息的分析類(lèi),你需要將該類(lèi)導(dǎo)入。使用如下語(yǔ)句。
importjeasy.analysis.*;

2.對(duì)查詢(xún)所用分析部分的修改
nutch+hadoop配置使用總需要對(duì)查詢(xún)所用分析部分的修改。src\java\org\apache\nutch\analysis\中的NutchAnalysis.jj文件
>
改為:|)+>
使用javacc工具將NutchAnalysis.jj生成java文件,共會(huì)生成7個(gè)java文件,將他們拷貝到下面的文件夾中替換原有文件。
src\java\org\apache\nutch\analysis

如何安裝與使用javacc?
下載javacc并解壓,然后將javacc的主目錄添加到環(huán)境變量下。進(jìn)入命令行,輸入javacc,如果不出現(xiàn)不能識(shí)別該命令之類(lèi)的說(shuō)法,證明安裝成功。
進(jìn)入NutchAnalysis.jj文件所在的目錄,輸入javaccNutchAnalysis.jj命令就會(huì)生成7個(gè)java文件了。

3.重新編譯工程文件
這里你需要用到ant工具了,那么ant工具怎么安裝呢?
ant的安裝與配置與javacc類(lèi)似,下載后解壓,然后在path環(huán)境變量中加如指向ant下的bin文件夾的路徑。
使用:從命令行進(jìn)入nutch目錄中,輸入ant命令,它會(huì)自動(dòng)根據(jù)當(dāng)前目錄下的build.xml進(jìn)行重建。重建完畢后會(huì)在改目錄下產(chǎn)生一個(gè)build文件夾。

4.重建后的文件替換
一、將nutch-0.x.x.job文件拷貝出來(lái)替換nutch目錄下的同名文件。
二、將\build\classes\org\apache\nutch\analysis目錄下的所有文件拷貝替換nutch-0.x.x.jar中org\apache\nutch\analysis目錄下的文件。
三、將nutch-0.x.x.jar文件和你的分詞包(我的是analysis-zh.jar)拷貝到tomcat中WEB-INF\lib下面。

5.重新爬行與建立索引,重新啟動(dòng)tomcat即可。

nutch搜索url過(guò)濾規(guī)則:
對(duì)于每一次(由depth決定)對(duì)url進(jìn)行filter,所以要搜子頁(yè)面,首頁(yè)一定要通過(guò)filter,否則搜索不到。本節(jié)關(guān)于nutch+hadoop配置使用介紹到這里。

【編輯推薦】

  1. nutch+hadoop配置步驟及問(wèn)題解決方法深入剖析
  2. Hadoop配置注意事項(xiàng)及命令使用經(jīng)驗(yàn)總結(jié)
  3. Hadoop配置和啟動(dòng)Hadoop方法詳解
  4. Hadoop集群搭建過(guò)程中相關(guān)環(huán)境配置詳解
  5. Hadoop完全分布模式安裝實(shí)現(xiàn)詳解

本文名稱(chēng):nutch+hadoop配置使用方法簡(jiǎn)明介紹
網(wǎng)頁(yè)網(wǎng)址:http://www.5511xx.com/article/cceighi.html