无码在线播放三区,日韩岛国大片一区二区在线观看,性爱视频十分钟91AV

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

手把手教你使用Scrapy框架來爬取北京新發(fā)地價(jià)格行情（實(shí)戰(zhàn)篇）

大家好!我是霖hero。上個(gè)月的時(shí)候，我寫了一篇關(guān)于IP代理的文章，手把手教你使用XPath爬取免費(fèi)代理IP;前幾天，我又發(fā)布了第二篇文章，這篇文章主要是講Scrapy理論知識(shí)的，手把手教你使用scrapy框架來爬取北京新發(fā)地價(jià)格行情(理論篇)，今天在這里分享我的第三篇文章，關(guān)于Scrapy實(shí)戰(zhàn)的應(yīng)用文章，希望大家可以喜歡。

成都創(chuàng)新互聯(lián)是一家專注于成都網(wǎng)站建設(shè)、網(wǎng)站制作與策劃設(shè)計(jì),高郵網(wǎng)站建設(shè)哪家好?成都創(chuàng)新互聯(lián)做網(wǎng)站,專注于網(wǎng)站建設(shè)十余年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:高郵等地區(qū)。高郵做網(wǎng)站價(jià)格咨詢:18980820575

前言

關(guān)于Scrapy理論的知識(shí)，可以參考我的上一篇文章，這里不再贅述，直接上干貨。

實(shí)戰(zhàn)演練

爬取分析

首先我們進(jìn)入北京新發(fā)地價(jià)格行情網(wǎng)頁并打開開發(fā)者工具，如下圖所示：

經(jīng)過簡單的查找，發(fā)現(xiàn)每個(gè)getPriceData.html存放著價(jià)格行情的數(shù)據(jù)，由此可得，我們可以通過getPriceData.html來進(jìn)行數(shù)據(jù)的獲取。

觀察Headers請求，如下圖所示：

發(fā)現(xiàn)它是POST請求，請求URL鏈接是http://www.xinfadi.com.cn/getPriceData.html，current是翻頁的重要參數(shù)，limit是每頁有多少行數(shù)據(jù)，我們可以構(gòu)造消息體，代碼如下所示：

 
 
 
 
  
  
  
  data={   
  
  
  'limit': '20',   
  
  
  'current':page   
  
  
  }

通過scrapy.Request()方法將消息體傳入到參數(shù)里面。

或者我們可以根據(jù)測試和觀察規(guī)律，自己構(gòu)造URL鏈接，通過觀察分析，請求的URL鏈接可以為：

 
 
 
 
  
  
  
  http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=1   
  
  
  http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=2   
  
  
  http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=3

創(chuàng)建Spider爬蟲

分析北京新發(fā)地價(jià)格行情后，接下來我們首先創(chuàng)建一個(gè)Scrapy項(xiàng)目，使用如下命令：

 
 
 
 
  
  
  
  scrapy startproject Vegetables

這樣我們就成功創(chuàng)建了一個(gè)Scrapy項(xiàng)目，項(xiàng)目文件如下所示：

接下來創(chuàng)建spider爬蟲，使用如下命令：

 
 
 
 
  
  
  
  scrapy genspider vegetables www.xinfadi.com.cn

創(chuàng)建后vegetables.py內(nèi)容如下所示：

 
 
 
 
  
  
  
  import scrapy   
  
  
     
  
  
  class VegetablesSpider(scrapy.Spider):   
  
  
     name = 'vegetables'   
  
  
     allowed_domains = ['www.xinfadi.com.cn']   
  
  
     start_urls = ['https://www.xinfadi.com.cn']   
  
  
        
  
  
     def parse(self, response):   
  
  
         pass

提取數(shù)據(jù)

在提取數(shù)據(jù)前，我們首先把要爬取的數(shù)據(jù)字段在items.py文件中定義好，代碼如下所示：

 
 
 
 
  
  
  
  import scrapy   
  
  
     
  
  
  class VegetablesItem(scrapy.Item):   
  
  
     # define the fields for your item here like:   
  
  
     productName = scrapy.Field()   
  
  
     lowPrice=scrapy.Field()   
  
  
     highPrice=scrapy.Field()

這里我們定義了三個(gè)字段分別是productName、lowPrice、highPrice

定義好字段后，接下來將在創(chuàng)建的vegetables.py文件中進(jìn)行數(shù)據(jù)的提取，具體代碼如下

 
 
 
 
  
  
  
  import scrapy   
  
  
  from Vegetables.items import VegetablesItem   
  
  
     
  
  
  class VegetablesSpider(scrapy.Spider):   
  
  
     name = 'vegetables'   
  
  
     allowed_domains = ['www.xinfadi.com.cn']   
  
  
     def start_requests(self):   
  
  
         for i in range(1, 3):   
  
  
             url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t={i}'   
  
  
             yield scrapy.Request(url=url, callback=self.parse)   
  
  
     
  
  
     def parse(self, response):   
  
  
         html = response.json()   
  
  
         fooddata = html.get('list')   
  
  
         for i in fooddata:   
  
  
             item=VegetablesItem()   
  
  
             item['highPrice'] =i.get('highPrice'),   
  
  
             item['lowPrice'] = i.get('lowPrice'),   
  
  
             item['prodName'] = i.get('prodName'),   
  
  
             yield item

首先我們導(dǎo)入vegetablesitem，使用start_requests函數(shù)實(shí)現(xiàn)翻頁，大家可以使用剛才我們所講的方法實(shí)現(xiàn)翻頁，實(shí)現(xiàn)翻頁后，我們通過編寫parse()方法實(shí)現(xiàn)數(shù)據(jù)的獲取，首先我們把引擎響應(yīng)的數(shù)據(jù)以json()格式存放在html里面，調(diào)用get()方法來提取我們想要的數(shù)據(jù)，最后通過yield生成器返回給引擎。

最后我們在settings.py設(shè)置引擎的啟動(dòng)，代碼如下所示：

 
 
 
 
  
  
  
  ITEM_PIPELINES = {   
  
  
    'Vegetables.pipelines.VegetablesPipeline': 300,   
  
  
  }

在這里我們就不保存數(shù)據(jù)在MongoDB數(shù)據(jù)庫里面了，我們直接啟動(dòng)Spider爬蟲并把數(shù)據(jù)以csv格式輸出，使用如下命令：

 
 
 
 
  
  
  
  scrapy crawl vegetables -o 11.c

運(yùn)行結(jié)果如下：

好了，Scrapy框架爬取北京新發(fā)地就講解到這里了，感謝觀看!!!

總結(jié)

大家好，我是霖hero。這篇文章基于上篇理論文章，主要給大家分享了Scrapy爬蟲框架的實(shí)戰(zhàn)內(nèi)容，Scrapy是一個(gè)基于Twisted的異步處理框架，是純Python實(shí)現(xiàn)的爬蟲框架，是提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架，其架構(gòu)清晰，模塊之間的耦合程度低，可擴(kuò)展性極強(qiáng)。

本文標(biāo)題：手把手教你使用Scrapy框架來爬取北京新發(fā)地價(jià)格行情（實(shí)戰(zhàn)篇）
本文URL：http://www.5511xx.com/article/ccicsej.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区