欧美日韩大陆在线,日本一区二区欧美在线播放

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

利用Python爬取網(wǎng)站的新手指南

通過基本的 Python 工具獲得爬取完整 HTML 網(wǎng)站的實(shí)踐經(jīng)驗(yàn)。

有很多很棒的書可以幫助你學(xué)習(xí) Python ，但是誰真正讀了這那些大部頭呢？（劇透：反正不是我）。

許多人覺得教學(xué)書籍很有用，但我通常不會(huì)從頭到尾地閱讀一本書來學(xué)習(xí)。我是通過做一個(gè)項(xiàng)目，努力的弄清楚一些內(nèi)容，然后再讀另一本書來學(xué)習(xí)。因此，暫時(shí)丟掉書，讓我們一起學(xué)習(xí) Python。

接下來是我的第一個(gè) Python 爬取項(xiàng)目的指南。它對(duì) Python 和 HTML 的假定知識(shí)要求很低。這篇文章旨在說明如何使用 Python 的 requests 庫訪問網(wǎng)頁內(nèi)容，并使用 BeatifulSoup4 庫以及 JSON 和 pandas 庫解析網(wǎng)頁內(nèi)容。我將簡(jiǎn)要介紹 Selenium 庫，但我不會(huì)深入研究如何使用該庫——這個(gè)主題值得有自己的教程。最終，我希望向你展示一些技巧和小竅門，以減少網(wǎng)頁爬取過程中遇到的問題。

安裝依賴

我的 GitHub 存儲(chǔ)庫中提供了本指南的所有資源。如果需要安裝 Python3 的幫助，請(qǐng)查看 Linux、Windows 和 Mac 的教程。

 
 
 
 
  
  
  
  $ python3 -m venv
  
  
  
  $ source venv/bin/activate
  
  
  
  $ pip install requests bs4 pandas

如果你喜歡使用 JupyterLab ，則可以使用 notebook 運(yùn)行所有代碼。安裝 JupyterLab 有很多方法，這是其中一種：

 
 
 
 
  
  
  
  # from the same virtual environment as above, run:
  
  
  
  $ pip install jupyterlab

為網(wǎng)站抓取項(xiàng)目設(shè)定目標(biāo)

現(xiàn)在我們已經(jīng)安裝了依賴項(xiàng)，但是爬取網(wǎng)頁需要做什么？

讓我們退一步，確保使目標(biāo)清晰。下面是成功完成網(wǎng)頁爬取項(xiàng)目需求列表：

我們收集的信息，是值得我們花大力氣去建立一個(gè)有效的網(wǎng)頁爬取器的。
我們所下載的信息是可以通過網(wǎng)頁爬取器合法和道德地收集的。
對(duì)如何在 HTML 代碼中找到目標(biāo)信息有一定的了解。
利用恰當(dāng)?shù)墓ぞ撸涸诖饲闆r下，需要使用 BeautifulSoup 庫和 requests 庫。
知道（或愿意去學(xué)習(xí)）如何解析 JSON 對(duì)象。
有足夠的 pandas 數(shù)據(jù)處理技能。

關(guān)于 HTML 的備注：HTML 是運(yùn)行在互聯(lián)網(wǎng)上的“猛獸”，但我們最需要了解的是標(biāo)簽的工作方式。標(biāo)簽是一對(duì)由尖括號(hào)包圍關(guān)鍵詞（一般成對(duì)出現(xiàn)，其內(nèi)容在兩個(gè)標(biāo)簽中間）。比如，這是一個(gè)假裝的標(biāo)簽，稱為 pro-tip：

 
 
 
 
  
  
  
   All you need to know about html is how tags work

我們可以通過調(diào)用標(biāo)簽 pro-tip 來訪問其中的信息（All you need to know…）。本教程將進(jìn)一步介紹如何查找和訪問標(biāo)簽。要進(jìn)一步了解 HTML 基礎(chǔ)知識(shí)，請(qǐng)查看本文。

網(wǎng)站爬取項(xiàng)目中要找的是什么

有些數(shù)據(jù)利用網(wǎng)站爬取采集比利用其他方法更合適。以下是我認(rèn)為合適項(xiàng)目的準(zhǔn)則：

沒有可用于數(shù)據(jù)（處理）的公共 API。通過 API 抓取結(jié)構(gòu)化數(shù)據(jù)會(huì)容易得多，（所以沒有 API ）有助于澄清收集數(shù)據(jù)的合法性和道德性。而有相當(dāng)數(shù)量的結(jié)構(gòu)化數(shù)據(jù)，并有規(guī)律的、可重復(fù)的格式，才能證明這種努力的合理性。網(wǎng)頁爬取可能會(huì)很痛苦。BeautifulSoup（bs4）使操作更容易，但無法避免網(wǎng)站的個(gè)別特殊性，需要進(jìn)行定制。數(shù)據(jù)的相同格式化不是必須的，但這確實(shí)使事情變得更容易。存在的 “邊際案例”（偏離規(guī)范）越多，爬取就越復(fù)雜。

免責(zé)聲明：我沒有參加過法律培訓(xùn)；以下內(nèi)容無意作為正式的法律建議。

關(guān)于合法性，訪問大量有價(jià)值信息可能令人興奮，但僅僅因?yàn)樗强赡艿模⒉灰馕吨鴳?yīng)該這樣做。

值得慶幸的是，有一些公共信息可以指導(dǎo)我們的道德規(guī)范和網(wǎng)頁爬取工具。大多數(shù)網(wǎng)站都有與該網(wǎng)站關(guān)聯(lián)的 robots.txt 文件，指出允許哪些爬取活動(dòng)，哪些不被允許。它主要用于與搜索引擎（網(wǎng)頁抓取工具的終極形態(tài)）進(jìn)行交互。然而，網(wǎng)站上的許多信息都被視為公共信息。因此，有人將 robots.txt 文件視為一組建議，而不是具有法律約束力的文檔。 robots.txt 文件并不涉及數(shù)據(jù)的道德收集和使用等主題。

在開始爬取項(xiàng)目之前，問自己以下問題：

我是否在爬取版權(quán)材料？
我的爬取活動(dòng)會(huì)危害個(gè)人隱私嗎？
我是否發(fā)送了大量可能會(huì)使服務(wù)器超載或損壞的請(qǐng)求？
爬取是否會(huì)泄露出我不擁有的知識(shí)產(chǎn)權(quán)？
是否有規(guī)范網(wǎng)站使用的服務(wù)條款，我是否遵循了這些條款？
我的爬取活動(dòng)會(huì)減少原始數(shù)據(jù)的價(jià)值嗎？（例如，我是否打算按原樣重新打包數(shù)據(jù)，或者可能從原始來源中抽取網(wǎng)站流量）？

當(dāng)我爬取一個(gè)網(wǎng)站時(shí)，請(qǐng)確?？梢詫?duì)所有這些問題回答 “否”。

要深入了解這些法律問題，請(qǐng)參閱 2018 年出版的 Krotov 和 Silva 撰寫的《Web 爬取的合法性和道德性》和 Sellars 的《二十年 Web 爬取和計(jì)算機(jī)欺詐與濫用法案》。

現(xiàn)在開始爬取網(wǎng)站

經(jīng)過上述評(píng)估，我想出了一個(gè)項(xiàng)目。我的目標(biāo)是爬取愛達(dá)荷州所有 Family Dollar 商店的地址。這些商店在農(nóng)村地區(qū)規(guī)模很大，因此我想了解有多少家這樣的商店。

起點(diǎn)是 Family Dollar 的位置頁面

愛達(dá)荷州 Family Dollar 所在地頁面

首先，讓我們?cè)?Python 虛擬環(huán)境中加載先決條件。此處的代碼將被添加到一個(gè) Python 文件（如果你想要個(gè)名稱，則為 scraper.py）或在 JupyterLab 的單元格中運(yùn)行。

 
 
 
 
  
  
  
  import requests # for making standard html requests
  
  
  
  from bs4 import BeautifulSoup # magical tool for parsing html data
  
  
  
  import json # for parsing data
  
  
  
  from pandas import DataFrame as df # premier library for data organization

接下來，我們從目標(biāo) URL 中請(qǐng)求數(shù)據(jù)。

 
 
 
 
  
  
  
  page = requests.get("https://locations.familydollar.com/id/")
  
  
  
  soup = BeautifulSoup(page.text, 'html.parser')

BeautifulSoup 將 HTML 或 XML 內(nèi)容轉(zhuǎn)換為復(fù)雜樹對(duì)象。這是我們將使用的幾種常見對(duì)象類型。

BeautifulSoup —— 解析的內(nèi)容
Tag —— 標(biāo)準(zhǔn) HTML 標(biāo)記，這是你將遇到的 bs4 元素的主要類型
NavigableString —— 標(biāo)簽內(nèi)的文本字符串
Comment —— NavigableString 的一種特殊類型

當(dāng)我們查看 requests.get() 輸出時(shí)，還有更多要考慮的問題。我僅使用 page.text() 將請(qǐng)求的頁面轉(zhuǎn)換為可讀的內(nèi)容，但是還有其他輸出類型：

page.text() 文本（最常見）
page.content() 逐字節(jié)輸出
page.json() JSON 對(duì)象
page.raw() 原始套接字響應(yīng)（對(duì)你沒啥用）

我只在使用拉丁字母的純英語網(wǎng)站上操作。 requests 中的默認(rèn)編碼設(shè)置可以很好地解決這一問題。然而，除了純英語網(wǎng)站之外，就是更大的互聯(lián)網(wǎng)世界。為了確保 requests 正確解析內(nèi)容，你可以設(shè)置文本的編碼：

 
 
 
 
  
  
  
  page = requests.get(URL)
  
  
  
  page.encoding = 'ISO-885901'
  
  
  
  soup = BeautifulSoup(page.text, 'html.parser')

仔細(xì)研究 BeautifulSoup 標(biāo)簽，我們看到:

bs4 元素 tag 捕獲的是一個(gè) HTML 標(biāo)記。
它具有名稱和屬性，可以像字典一樣訪問：tag['someAttribute']。
如果標(biāo)簽具有相同名稱的多個(gè)屬性，則僅訪問第一個(gè)實(shí)例。
可通過 tag.contents 訪問子標(biāo)簽。
所有標(biāo)簽后代都可以通過 tag.contents 訪問。
你始終可以使用以下字符串：re.compile("your_string") 訪問一個(gè)字符串的所有內(nèi)容，而不是瀏覽 HTML 樹。

確定如何提取相應(yīng)內(nèi)容

警告：此過程可能令人沮喪。

網(wǎng)站爬取過程中的提取可能是一個(gè)令人生畏的充滿了誤區(qū)的過程。我認(rèn)為解決此問題的最佳方法是從一個(gè)有代表性的示例開始然后進(jìn)行擴(kuò)展（此原理對(duì)于任何編程任務(wù)都是適用的）。查看頁面的 HTML 源代碼至關(guān)重要。有很多方法可以做到這一點(diǎn)。

你可以在終端中使用 Python 查看頁面的整個(gè)源代碼（不建議使用）。運(yùn)行此代碼需要你自擔(dān)風(fēng)險(xiǎn)：

 
 
 
 
  
  
  
  print(soup.prettify())

雖然打印出頁面的整個(gè)源代碼可能適用于某些教程中顯示的玩具示例，但大多數(shù)現(xiàn)代網(wǎng)站的頁面上都有大量?jī)?nèi)容。甚至 404 頁面也可能充滿了頁眉、頁腳等代碼。

通常，在你喜歡的瀏覽器中通過 “查看頁面源代碼” 來瀏覽源代碼是最容易的（單擊右鍵，然后選擇 “查看頁面源代碼” ）。這是找到目標(biāo)內(nèi)容的最可靠方法（稍后我將解釋原因）。

Family Dollar 頁面源代碼

在這種情況下，我需要在這個(gè)巨大的 HTML 海洋中找到我的目標(biāo)內(nèi)容 —— 地址、城市、州和郵政編碼。通常，對(duì)頁面源（ctrl+F）的簡(jiǎn)單搜索就會(huì)得到目標(biāo)位置所在的位置。一旦我實(shí)際看到目標(biāo)內(nèi)容的示例（至少一個(gè)商店的地址），便會(huì)找到將該內(nèi)容與其他內(nèi)容區(qū)分開的屬性或標(biāo)簽。

首先，我需要在愛達(dá)荷州 Family Dollar 商店中收集不同城市的網(wǎng)址，并訪問這些網(wǎng)站以獲取地址信息。這些網(wǎng)址似乎都包含在 href 標(biāo)記中。太棒了！我將嘗試使用 find_all 命令進(jìn)行搜索：

 
 
 
 
  
  
  
  dollar_tree_list = soup.find_all('href')
  
  
  
  dollar_tree_list

搜索 href 不會(huì)產(chǎn)生任何結(jié)果，該死。這可能是因?yàn)?nbsp;href 嵌套在 itemlist 類中而失敗。對(duì)于下一次嘗試，請(qǐng)搜索 item_list。由于 class 是 Python 中的保留字，因此使用 class_ 來作為替代。soup.find_all() 原來是 bs4 函數(shù)的瑞士軍刀。

 
 
 
 
  
  
  
  dollar_tree_list = soup.find_all(class_ = 'itemlist')
  
  
  
  for i in dollar_tree_list[:2]:
  
  
  
    print(i)

有趣的是，我發(fā)現(xiàn)搜索一個(gè)特定類的方法一般是一種成功的方法。通過找出對(duì)象的類型和長(zhǎng)度，我們可以了解更多有關(guān)對(duì)象的信息。

 
 
 
 
  
  
  
  type(dollar_tree_list)
  
  
  
  len(dollar_tree_list)

可以使用 .contents 從 BeautifulSoup “結(jié)果集” 中提取內(nèi)容。這也是創(chuàng)建單個(gè)代表性示例的好時(shí)機(jī)。

 
 
 
 
  
  
  
  example = dollar_tree_list[2] # a representative example
  
  
  
  example_content = example.contents
  
  
  
  print(example_content)

使用 .attr 查找該對(duì)象內(nèi)容中存在的屬性。注意：.contents 通常會(huì)返回一個(gè)項(xiàng)目的精確的列表，因此第一步是使用方括號(hào)符號(hào)為該項(xiàng)目建立索引。

 
 
 
 
  
  
  
  example_content = example.contents[0]
  
  
  
  example_content.attrs

現(xiàn)在，我可以看到 href 是一個(gè)屬性，可以像字典項(xiàng)一樣提取它：

 
 
 
 
  
  
  
  example_href = example_content['href']
  
  
  
  print(example_href)

整合網(wǎng)站抓取工具

所有的這些探索為我們提供了前進(jìn)的路徑。這是厘清上面邏輯的一個(gè)清理版本。

 
 
 
 
  
  
  
  city_hrefs = [] # initialise empty list
  
  
  
  
  
  
  
  for i in dollar_tree_list:
  
  
  
      cont = i.contents[0]
  
  
  
      href = cont['href']
  
  
  
      city_hrefs.append(href)
  
  
  
  
  
  
  
  #  check to be sure all went well
  
  
  
  for i in city_hrefs[:2]:
  
  
  
    print(i)

輸出的內(nèi)容是一個(gè)關(guān)于抓取愛達(dá)荷州 Family Dollar 商店 URL 的列表。

也就是說，我仍然沒有獲得地址信息！現(xiàn)在，需要抓取每個(gè)城市的 URL 以獲得此信息。因此，我們使用一個(gè)具有代表性的示例重新開始該過程。

 
 
 
 
  
  
  
  page2 = requests.get(city_hrefs[2]) # again establish a representative example
  
  
  
  soup2 = BeautifulSoup(page2.text, 'html.parser')

Family Dollar 地圖和代碼

地址信息嵌套在 type="application/ld+json" 里。經(jīng)過大量的地理位置抓取之后，我開始認(rèn)識(shí)到這是用于存儲(chǔ)地址信息的一般結(jié)構(gòu)。幸運(yùn)的是，soup.find_all() 開啟了利用 type 搜索。

 
 
 
 
  
  
  
  arco = soup2.find_all(type="application/ld+json")
  
  
  
  print(arco[1])

地址信息在第二個(gè)列表成員中！原來如此！

使用 .contents 提取（從第二個(gè)列表項(xiàng)中）內(nèi)容（這是過濾后的合適的默認(rèn)操作）。同樣，由于輸出的內(nèi)容是一個(gè)列表，因此我為該列表項(xiàng)建立了索引：

 
 
 
 
  
  
  
  arco_contents = arco[1].contents[0]
  
  
  
  arco_contents

喔，看起來不錯(cuò)。此處提供的格式與 JSON 格式一致（而且，該類型的名稱中確實(shí)包含 “json”）。 JSON 對(duì)象的行為就像是帶有嵌套字典的字典。一旦你熟悉利用其去工作，它實(shí)際上是一種不錯(cuò)的格式（當(dāng)然，它比一長(zhǎng)串正則表達(dá)式命令更容易編程）。盡管從結(jié)構(gòu)上看起來像一個(gè) JSON 對(duì)象，但它仍然是 bs4 對(duì)象，需要通過編程方式轉(zhuǎn)換為 JSON 對(duì)象才能對(duì)其進(jìn)行訪問：

 
 
 
 
  
  
  
  arco_json =  json.loads(arco_contents)

 
 
 
 
  
  
  
  type(arco_json)
  
  
  
  print(arco_json)

在該內(nèi)容中，有一個(gè)被調(diào)用的 address 鍵，該鍵要求地址信息在一個(gè)比較小的嵌套字典里?？梢赃@樣檢索：

 
 
 
 
  
  
  
  arco_address = arco_json['address']
  
  
  
  arco_address

好吧，請(qǐng)大家注意?，F(xiàn)在我可以遍歷存儲(chǔ)愛達(dá)荷州 URL 的列表：

 
 
 
 
  
  
  
  locs_dict = [] # initialise empty list
  
  
  
  
  
  
  
  for link in city_hrefs:
  
  
  
    locpage = requests.get(link)   # request page info
  
  
  
    locsoup = BeautifulSoup(locpage.text, 'html.parser')
  
  
  
        # parse the page's content
  
  
  
    locinfo = locsoup.find_all(type="application/ld+json")
  
  
  
        # extract specific element
  
  
  
    loccont = locinfo[1].contents[0]  
  
  
  
        # get contents from the bs4 element set
  
  
  
    locjson = json.loads(loccont)  # convert to json
  
  
  
    locaddr = locjson['address'] # get address
  
  
  
    locs_dict.append(locaddr) # add address to list

用 Pandas 整理我們的網(wǎng)站抓取結(jié)果

我們?cè)谧值渲醒b載了大量數(shù)據(jù)，但是還有一些額外的無用項(xiàng)，它們會(huì)使重用數(shù)據(jù)變得比需要的更為復(fù)雜。要執(zhí)行最終的數(shù)據(jù)組織，我們需要將其轉(zhuǎn)換為 Pandas 數(shù)據(jù)框架，刪除不需要的列 @type 和 country，并檢查前五行以確保一切正常。

 
 
 
 
  
  
  
  locs_df = df.from_records(locs_dict)
  
  
  
  locs_df.drop(['@type', 'addressCountry'], axis = 1, inplace = True)
  
  
  
  locs_df.head(n = 5)

確保保存結(jié)果?。?/p>

 
 
 
 
  
  
  
  df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)

我們做到了！所有愛達(dá)荷州 Family Dollar 商店都有一個(gè)用逗號(hào)分隔的列表。多令人興奮。

Selenium 和數(shù)據(jù)抓取的一點(diǎn)說明

Selenium 是用于與網(wǎng)頁自動(dòng)交互的常用工具。為了解釋為什么有時(shí)必須使用它，讓我們來看一個(gè)使用 Walgreens 網(wǎng)站的示例。 “檢查元素” 提供了瀏覽器顯示內(nèi)容的代碼：

Walgreens 位置頁面和代碼

雖然 “查看頁面源代碼” 提供了有關(guān) requests 將獲得什么內(nèi)容的代碼：

Walgreens 源代碼

如果這兩個(gè)不一致，是有一些插件可以修改源代碼 —— 因此，應(yīng)在將頁面加載到瀏覽器后對(duì)其進(jìn)行訪問。requests 不能做到這一點(diǎn)，但是 Selenium 可以做到。

Selenium 需要 Web 驅(qū)動(dòng)程序來檢索內(nèi)容。實(shí)際上，它會(huì)打開 Web 瀏覽器，并收集此頁面的內(nèi)容。Selenium 功能強(qiáng)大 —— 它可以通過多種方式與加載的內(nèi)容進(jìn)行交互（請(qǐng)閱讀文檔）。使用 Selenium 獲取數(shù)據(jù)后，繼續(xù)像以前一樣使用 BeautifulSoup：

 
 
 
 
  
  
  
  url = "https://www.walgreens.com/storelistings/storesbycity.jsp?requestType=locator&state=ID"
  
  
  
  driver = webdriver.Firefox(executable_path = 'mypath/geckodriver.exe')
  
  
  
  driver.get(url)
  
  
  
  soup_ID = BeautifulSoup(driver.page_source, 'html.parser')
  
  
  
  store_link_soup = soup_ID.find_all(class_ = 'col-xl-4 col-lg-4 col-md-4')

對(duì)于 Family Dollar 這種情形，我不需要 Selenium，但是當(dāng)呈現(xiàn)的內(nèi)容與源代碼不同時(shí)，我確實(shí)會(huì)保留使用 Selenium。

小結(jié)

總之，使用網(wǎng)站抓取來完成有意義的任務(wù)時(shí)：

耐心一點(diǎn)
查閱手冊(cè)（它們非常有幫助）

如果你對(duì)答案感到好奇：

Family Dollar 位置圖

美國(guó)有很多 Family Dollar 商店。

完整的源代碼是：

 
 
 
 
  
  
  
  import requests
  
  
  
  from bs4 import BeautifulSoup
  
  
  
  import json
  
  
  
  from pandas import DataFrame as df
  
  
  
  
  
  
  
  page = requests.get("https://www.familydollar.com/locations/")
  
  
  
  soup = BeautifulSoup(page.text, 'html.parser')
  
  
  
  
  
  
  
  # find all state links
  
  
  
  state_list = soup.find_all(class_ = 'itemlist')
  
  
  
  
  
  
  
  state_links = []
  
  
  
  
  
  
  
  for i in state_list:
  
  
  
   cont = i.contents[0]
  
  
  
   attr = cont.attrs
  
  
  
   hrefs = attr['href']
  
  
  
   state_links.append(hrefs)
  
  
  
  
  
  
  
  # find all city links
  
  
  
  city_links = []
  
  
  
  
  
  
  
  for link in state_links:
  
  
  
   page = requests.get(link)
  
  
  
   soup = BeautifulSoup(page.text, 'html.parser')
  
  
  
   familydollar_list = soup.find_all(class_ = 'itemlist')
  
  
  
   for store in familydollar_list:
  
  
  
   cont = store.contents[0]
  
  
  
   attr = cont.attrs
  
  
  
   city_hrefs = attr['href']
  
  
  
   city_links.append(city_hrefs)
  
  
  
  # to get individual store links
  
  
  
  store_links = []
  
  
  
  
  
  
  
  for link in city_links:
  
  
  
   locpage = requests.get(link)
  
  
  
   locsoup = BeautifulSoup(locpage.text, 'html.parser')
  
  
  
   locinfo = locsoup.find_all(type="application/ld+json")
  
  
  
   for i in locinfo:
  
  
  
   loccont = i.contents[0]
  
  
  
   locjson = json.loads(loccont)
  
  
  
   try:
  
  
  
   store_url = locjson['url']
  
  
  
   store_links.append(store_url)
  
  
  
   except:
  
  
  
   pass
  
  
  
  
  
  
  
  # get address and geolocation information
  
  
  
  stores = []
  
  
  
  
  
  
  
  for store in store_links:
  
  
  
   storepage = requests.get(store)
  
  
  
   storesoup = BeautifulSoup(storepage.text, 'html.parser')
  
  
  
   storeinfo = storesoup.find_all(type="application/ld+json")
  
  
  
   for i in storeinfo:
  
  
  
   storecont = i.contents[0]
  
  
  
   storejson = json.loads(storecont)
  
  
  
   try:
  
  
  
   store_addr = storejson['address']
  
  
  
   store_addr.update(storejson['geo'])
  
  
  
   stores.append(store_addr)
  
  
  
   except:
  
  
  
   pass
  
  
  
  
  
  
  
  # final data parsing
  
  
  
  stores_df = df.from_records(stores)
  
  
  
  stores_df.drop(['@type', 'addressCountry'], axis = 1, inplace = True)
  
  
  
  stores_df['Store'] = "Family Dollar"
  
  
  
  
  
  
  
  df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)

網(wǎng)站題目：利用Python爬取網(wǎng)站的新手指南
標(biāo)題來源：http://www.5511xx.com/article/dhpiihj.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区