日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
從零開始的Python爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

引言

用最短的時(shí)間寫一個(gè)最簡單的爬蟲,可以抓一些簡單的論壇、帖子、網(wǎng)頁。

入門

1.準(zhǔn)備工作

  • 安裝Python
  • 安裝scrapy框架
  • 一個(gè)IDE或者可以用自帶的

2.開始寫爬蟲

在spiders文件夾中創(chuàng)建一個(gè)python文件,比如miao.py,來作為爬蟲的腳本。

代碼如下:

3.運(yùn)行一下

如果用命令行的話就這樣:

解析

1.試試神奇的xpath

2.看看xpath的效果

在最上面加上引用:

from scrapy import Selector

把parse函數(shù)改成:

我們?cè)俅芜\(yùn)行一下,你就可以看到輸出“壇星際區(qū)”***頁所有帖子的標(biāo)題和url了。

遞歸

完整的代碼如下:

Pipelines——管道

現(xiàn)在是對(duì)已抓取、解析后的內(nèi)容的處理,我們可以通過管道寫入本地文件、數(shù)據(jù)庫。

1.定義一個(gè)Item

在miao文件夾中創(chuàng)建一個(gè)items.py文件

這里我們定義了兩個(gè)簡單的class用來描述我們爬取的結(jié)果。

2. 處理方法

3.在爬蟲中調(diào)用這個(gè)處理方法。

4.在配置文件里指定這個(gè)pipeline

可以這樣配置多個(gè)pipeline:

Middleware——中間件

1.Middleware的配置

2.破網(wǎng)站查UA, 我要換UA

這里就是一個(gè)簡單的隨機(jī)更換UA的中間件,agents的內(nèi)容可以自行擴(kuò)充。

3.破網(wǎng)站封IP,我要用代理

結(jié)束

看懂了嗎 ?是不是超簡單!


當(dāng)前標(biāo)題:從零開始的Python爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新
文章出自:http://www.5511xx.com/article/dhppjdi.html