日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
Python爬蟲:手把手教你采集登陸后才能看到數(shù)據(jù)

 爬蟲在采集網(wǎng)站的過(guò)程中,部分?jǐn)?shù)據(jù)價(jià)值較高的網(wǎng)站,會(huì)限制訪客的訪問行為。這種時(shí)候建議通過(guò)登錄的方式,獲取目標(biāo)網(wǎng)站的cookie,然后再使用cookie配合代理IP進(jìn)行數(shù)據(jù)采集分析。

專注于為中小企業(yè)提供成都做網(wǎng)站、成都網(wǎng)站制作服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)梨樹免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了上千企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

1 使用表單登陸

這種情況屬于post請(qǐng)求,即先向服務(wù)器發(fā)送表單數(shù)據(jù),服務(wù)器再將返回的cookie存入本地。

 
 
 
  1. #! -*- encoding:utf-8 -*-
  2. import requests
  3. import random
  4. import requests.adapters
  5. # 要訪問的目標(biāo)頁(yè)面
  6. targetUrlList = [
  7.     "https://httpbin.org/ip",
  8.     "https://httpbin.org/headers",
  9.     "https://httpbin.org/user-agent",
  10. ]
  11. # 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn)
  12. proxyHost = "t.16yun.cn"
  13. proxyPort = "31111"
  14. # 代理隧道驗(yàn)證信息
  15. proxyUser = "username"
  16. proxyPass = "password"
  17. proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
  18.     "host": proxyHost,
  19.     "port": proxyPort,
  20.     "user": proxyUser,
  21.     "pass": proxyPass,
  22. }
  23. # 設(shè)置 http和https訪問都是用HTTP代理
  24. proxies = {
  25.     "http": proxyMeta,
  26.     "https": proxyMeta,
  27. }
  28. # 訪問三次網(wǎng)站,使用相同的Session(keep-alive),均能夠保持相同的外網(wǎng)IP
  29. s = requests.session()
  30. # 設(shè)置cookie
  31. cookie_dict = {"JSESSION":"123456789"}
  32. cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
  33. s.cookies = cookies
  34. for i in range(3):
  35.     for url in targetUrlList:
  36.         r = s.get(url, proxies=proxies)
  37.         print r.text

2 使用cookie登陸

使用cookie登陸,服務(wù)器會(huì)認(rèn)為你是一個(gè)已登陸的用戶,所以就會(huì)返回給你一個(gè)已登陸的內(nèi)容。因此,需要驗(yàn)證碼的情況可以使用帶驗(yàn)證碼登陸的cookie解決。

 
 
 
  1. response_captcha = requests_session.get(url=url_login, cookies=cookies)
  2.  
  3. response1 = requests.get(url_login) # 未登陸
  4.  
  5. response2 = requests_session.get(url_login) # 已登陸,因?yàn)橹澳玫搅薘esponse Cookie!
  6.  
  7. response3 = requests_session.get(url_results) # 已登陸,因?yàn)橹澳玫搅薘esponse Cookie!

若存在驗(yàn)證碼,此時(shí)采用response = requests_session.post(url=url_login, data=data)是不行的,做法應(yīng)該如下:

 
 
 
  1. response_captcha = requests_session.get(url=url_login, cookies=cookies)
  2.  
  3. response1 = requests.get(url_login) # 未登陸
  4.  
  5. response2 = requests_session.get(url_login) # 已登陸,因?yàn)橹澳玫搅薘esponse Cookie!
  6.  
  7. response3 = requests_session.get(url_results) # 已登陸,因?yàn)橹澳玫搅薘esponse Cookie!
  8.  

文章題目:Python爬蟲:手把手教你采集登陸后才能看到數(shù)據(jù)
網(wǎng)頁(yè)URL:http://www.5511xx.com/article/cojcige.html