日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
如何正確使用 Scrapy 自帶的 FilesPipeline?

Scrapy自帶的 FilesPipeline和ImagesPipeline用來(lái)下載圖片和文件非常方便,根據(jù)它的官方文檔[1]說(shuō)明,我們可以很容易地開(kāi)啟這兩個(gè) Pipeline。

目前成都創(chuàng)新互聯(lián)公司已為上千的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)頁(yè)空間、網(wǎng)站托管運(yùn)營(yíng)、企業(yè)網(wǎng)站設(shè)計(jì)、埇橋區(qū)網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。

如果只是要下載圖片,那么用 FilesPipeline 和 ImagesPipeline 都可以,畢竟圖片也是文件。但因?yàn)槭褂?ImagesPipeline 要單獨(dú)安裝第三方庫(kù) Pillow,所以我們以 FilesPipeline 為例來(lái)進(jìn)行說(shuō)明。

假設(shè)爬蟲(chóng)通過(guò)解析網(wǎng)頁(yè)的源代碼,獲取到了一張圖片,圖片的地址為:https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/640.gif 當(dāng)然,png 、 jpg 、甚至 rar、pdf、zip 都可以。

為了使用 Scrapy 自帶的 FilesPipeline來(lái)下載這張圖片,我們需要做幾步設(shè)置。

定義 items

首先定義任意一個(gè) items,需要確保這個(gè) items 里面,必須包含file_urls字段和files字段,除了這兩個(gè)必備字段外,你還可以任意增加其他字段。

啟動(dòng)FilesPipeline

在settings.py中,找到 ITEM_PIPELINES配置,如果它被注釋了,那么就解除注釋。然后添加如下的配置:

 
 
 
 
  1. 'scrapy.pipelines.files.FilesPipeline': 1 

再添加一個(gè)配置項(xiàng)FILES_STORE,它的值是你想要保存圖片的文件夾地址。

修改以后如下圖所示:

下載圖片

接下來(lái),就進(jìn)入到我們具體的爬蟲(chóng)邏輯中了。在爬蟲(chóng)里面,你在任意一個(gè) parse 函數(shù)中提取到了一張或者幾張圖片的URL 后,把它(們)以列表的形式放入到 item 里面的 file_urls 字段中。如下圖所示。

注意,此時(shí)files字段不需要設(shè)置任何的值。其他非必需字段就根據(jù)你的需求只有設(shè)置即可。

獲取結(jié)果

由于我們?cè)O(shè)置了scrapy.pipelines.images.FilesPipeline的優(yōu)先級(jí)為1,是最高優(yōu)先級(jí),所以它會(huì)比所有其他的 Pipeline 更先運(yùn)行。于是,我們可以在后面的其他Pipeline 中,檢查 item 的 files 字段,就會(huì)發(fā)現(xiàn)我們需要的圖片地址已經(jīng)在里面了。如下圖所示:

item 中的 files 字段變成了一個(gè)包含字典的列表。字典中有一項(xiàng)叫做path的 Key,它的值就是圖片在電腦上的路徑,例如full/7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif表示在images文件夾中的full文件夾中的7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif文件,如下圖所示:

文件名是該文件的 md5值,如果你想重命名,可以在后續(xù)的 pipeline 中,根據(jù) path 的值找到文件,然后修改名字。

修改請(qǐng)求頭

看到這里,大家會(huì)不會(huì)有一個(gè)疑問(wèn),在使用FilesPipeline的時(shí)候,Scrapy 會(huì)加上請(qǐng)求頭嗎?它會(huì)用哪一個(gè)請(qǐng)求頭呢?

實(shí)際上,Scrapy 在使用 FilesPipeline和ImagesPipeline時(shí),是不會(huì)設(shè)置請(qǐng)求頭的。如果網(wǎng)站會(huì)監(jiān)控請(qǐng)求圖片或者文件的請(qǐng)求的請(qǐng)求頭,那么就可以立刻發(fā)現(xiàn)這個(gè)請(qǐng)求是通過(guò) Scrapy 發(fā)起的。

為了證明這一點(diǎn),我們可以查看FilesPipeline的源代碼:

在 scrapy/pipelines/files.py文件中,可以看到,F(xiàn)ilesPipeline是通過(guò)get_media_requests方法來(lái)構(gòu)造對(duì)圖片的請(qǐng)求對(duì)象的。這個(gè)請(qǐng)求對(duì)象沒(méi)有設(shè)置任何的請(qǐng)求頭。

上面的截圖是老版本的 Scrapy 的源代碼。新版本的源代碼里面,get_media_requests可能是這樣的:

 
 
 
 
  1. def get_media_requests(self, item, info): 
  2.     urls = ItemAdapter(item).get(self.files_urls_field, []) 
  3.     return [Request(u) for u in urls] 

為了手動(dòng)加上請(qǐng)求頭,我們可以自己寫(xiě)一個(gè) pipeline,繼承FilesPipeline但覆蓋get_media_requests方法,如下圖所示:

注意,在實(shí)際使用中,你可能還要加上 Host 和 Referer。

然后修改settings.py中的ITEM_PIPELINES,指向我們自定義的這個(gè)pipeline:

這樣一來(lái),F(xiàn)ilesPipeline就能夠正確加上請(qǐng)求頭了。

最后考大家一個(gè)問(wèn)題,F(xiàn)ilesPipeline發(fā)起的請(qǐng)求,會(huì)經(jīng)過(guò)下載器中間件嗎?如果要添加代理 IP 應(yīng)該怎么做?歡迎大家在本文下面評(píng)論回復(fù)。

參考資料

[1]官方文檔: https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline

本文轉(zhuǎn)載自微信公眾號(hào)「未聞Code」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系未聞Code公眾號(hào)。


本文標(biāo)題:如何正確使用 Scrapy 自帶的 FilesPipeline?
路徑分享:http://www.5511xx.com/article/djcihjs.html