AV整片动漫亚洲,五月婷婷丁香AV,亚洲一区成人电影永久在线

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

爬蟲是什么？

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲

創(chuàng)新互聯(lián)是專業(yè)的鼓樓網(wǎng)站建設(shè)公司，鼓樓接單;提供成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè),網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行鼓樓網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!

爬蟲的分類

爬蟲之間也有不同，不過大致可以分為以下幾類

通用爬蟲

這類爬蟲的目標(biāo)從幾個(gè)URL擴(kuò)展到整個(gè)網(wǎng)絡(luò)，一般用于為搜索引擎和Web服務(wù)提供商采集數(shù)據(jù)。這類爬蟲不太看重頁面間的聯(lián)系，而看重獲得頁面的數(shù)量，因此對存儲空間有一定要求。

聚焦爬蟲

這類爬蟲主要根據(jù)選定好的主題來搜索頁面，主要來滿足對特定領(lǐng)域信息的需求，保存的頁面數(shù)量不多，可以節(jié)省網(wǎng)絡(luò)資源與存儲空間。

增量爬蟲

這類爬蟲主要是對新產(chǎn)生或是發(fā)生變化的網(wǎng)頁來搜尋的爬蟲，雖然這樣也可以避免重復(fù)爬行造成空間與網(wǎng)絡(luò)資源浪費(fèi)，但是所需要的算法比其他爬蟲更復(fù)雜。

Deep Web 爬蟲

這些爬蟲主要對不能夠通過鏈接進(jìn)入的頁面進(jìn)行搜索，比如說注冊后可見的頁面等等。這類爬蟲通常需要一個(gè)附帶具有填寫表單的能力之類的輔助模塊來幫助進(jìn)入之后的頁面。

爬蟲的各種搜索策略

IP地址搜索

IP 地址搜索策略是先給爬蟲一個(gè)起始的 IP 地址，然后根據(jù) IP 地址以遞增的方式搜索本 IP 地址段后的每一個(gè)地址中的文檔，它完全不考慮各文檔中指向其它 Web 站點(diǎn)的超級鏈接地址。這種搜索策略的優(yōu)點(diǎn)是搜索比較全面，因此能夠發(fā)現(xiàn)那些沒被其它文檔引用的新文檔的信息源；但是缺點(diǎn)是不適合大規(guī)模搜索。

深度優(yōu)先搜索

深度優(yōu)先搜索是一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn)(即那些不包含任何超鏈的 HTML 文件)。例如，在一個(gè) HTML 文件中，當(dāng)一個(gè)超鏈被選擇后，被鏈接的 HTML 文件將執(zhí)行深度優(yōu)先搜索，也就是說在搜索其余的超鏈結(jié)果之前必須先完整地搜索單獨(dú)的一條鏈。深度優(yōu)先搜索沿著 HTML 文件上的超鏈走到不能再深入為止，然后返回到某一個(gè) HTML 文件，再繼續(xù)選擇該 HTML 文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時(shí)，說明搜索已經(jīng)結(jié)束。

寬度優(yōu)先搜索

寬度優(yōu)先搜索的過程是先搜索完一個(gè) Web 頁面中所有的超級鏈接，然后再繼續(xù)搜索下一層，直到底層為止。例如，一個(gè) HTML 文件中有三個(gè)超鏈，選擇其中之一并處理相應(yīng)的HTML文件，然后不再選擇第二個(gè) HTML 文件中的任何超鏈，而是返回并選擇第二個(gè)超鏈，處理相應(yīng)的 HTML 文件，再返回，選擇第三個(gè)超鏈并處理相應(yīng)的 HTML 文件。當(dāng)一層上的所有超鏈都已被選擇過，就可以開始在剛才處理過的 HIML 文件中搜索其余的超鏈。

寬度優(yōu)先搜索的優(yōu)點(diǎn)：一個(gè)是保證了對淺層的優(yōu)先處理，當(dāng)遇到一個(gè)無窮盡的深層分支時(shí)，不會導(dǎo)致陷進(jìn)深層文檔中出現(xiàn)出不來的情況發(fā)生；另一個(gè)是它能在兩個(gè) HTML 文件之間找到最短路徑。

寬度優(yōu)先搜索策略通常是實(shí)現(xiàn)爬蟲的最佳策略，因?yàn)樗菀讓?shí)現(xiàn)，而且具備大多數(shù)期望的功能。但是如果要遍歷一個(gè)指定的站點(diǎn)或者深層嵌套的 HTML 文件集，用寬度優(yōu)先搜索策略則需要花費(fèi)比較長的時(shí)間才能到達(dá)深層的 HTML 文件。

爬蟲面臨的問題

截止到 2007 年底，Internet 上網(wǎng)頁數(shù)量超出 160 億個(gè)，研究表明接近 30%的頁面是重復(fù)的；動態(tài)頁面的存在：客戶端、服務(wù)器端腳本語言的應(yīng)用使得指向相同 Web 信息的 URL 數(shù)量呈指數(shù)級增長。上述特征使得網(wǎng)絡(luò)爬蟲面臨一定的困難，主要體現(xiàn)在 Web 信息的巨大容量使得爬蟲在給定時(shí)間內(nèi)只能下載少量網(wǎng)頁。 Lawrence 和 Giles 的研究表明沒有哪個(gè)搜索引擎能夠索引超出 16%的 Internet 上 Web 頁面，即使能夠提取全部頁面，也沒有足夠的空間來存儲。為提高爬行效率，爬蟲需要在單位時(shí)間內(nèi)盡可能多的獲取高質(zhì)量頁面，這也是是它面臨的難題之一。當(dāng)前有五種表示頁面質(zhì)量高低的方式：Similarity（頁面與爬行主題之間的相似度）、Backlink（頁面在 Web 圖中的入度大?。?、PageRank（指向它的所有頁面平均權(quán)值之和）、Forwardlink（頁面在 Web 圖中的出度大?。?、Location（頁面的信息位置）。

Parallel（并行性問題）：為了提高爬行速度，網(wǎng)絡(luò)通常會采取并行爬行的工作方式，隨之引入了新的問題：

重復(fù)性：并行運(yùn)行的爬蟲或爬行線程同時(shí)運(yùn)行時(shí)增加了重復(fù)頁面

質(zhì)量問題：并行運(yùn)行時(shí)，每個(gè)爬蟲或爬行線程只能獲取部分頁面，導(dǎo)致頁面質(zhì)量下降

通信帶寬代價(jià)：并行運(yùn)行時(shí)，各個(gè)爬蟲或爬行線程之間不可避免要進(jìn)行一些通信

并行運(yùn)行時(shí)，網(wǎng)絡(luò)爬蟲通常采用三種方式：獨(dú)立方式（各個(gè)爬蟲獨(dú)立爬行頁面，互不通信）、動態(tài)分配方式（由一個(gè)中央?yún)f(xié)調(diào)器動態(tài)協(xié)調(diào)分配 URL 給各個(gè)爬蟲）、靜態(tài)分配方式（URL 事先劃分給各個(gè)爬蟲）。

網(wǎng)頁標(biāo)題：爬蟲是什么？
文章出自：http://www.5511xx.com/article/cdeheep.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区