日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
爬蟲實(shí)戰(zhàn)|用Python爬取指定關(guān)鍵詞的微博~

本文轉(zhuǎn)載自微信公眾號「志斌的python筆記」,作者 志斌。轉(zhuǎn)載本文請聯(lián)系志斌的python筆記公眾號。

大家好,我是志斌~

前幾天學(xué)校一個(gè)老師在做微博的輿情分析找我?guī)退阋粋€(gè)用關(guān)鍵字爬取微博的爬蟲,再加上最近很多讀者問志斌微博爬蟲的問題,今天志斌來跟大家分享一下。

01分析頁面

我們此次選擇的是從移動(dòng)端來對微博進(jìn)行爬取。移動(dòng)端的反爬就是信息校驗(yàn)反爬蟲的cookie反爬蟲,所以我們首先要登陸獲取cookie。

登陸過后我們就可以獲取到自己的cookie了,有不懂的小伙伴可以看這篇文章學(xué)會(huì)Cookie,解決登錄爬取的困擾!。然后我們來觀察用戶是如何搜索微博內(nèi)容的。

平時(shí)我們都是在這個(gè)地方輸入關(guān)鍵字,來進(jìn)行搜索微博。

我通過在開發(fā)者模式下對這個(gè)頁面觀察發(fā)現(xiàn),它每次對關(guān)鍵字發(fā)起請求后,就會(huì)返回一個(gè)XHR響應(yīng)。

我們現(xiàn)在已經(jīng)找到數(shù)據(jù)真實(shí)存在的頁面了,那就可以進(jìn)行爬蟲的常規(guī)操作了。

02數(shù)據(jù)采集

在上面我們已經(jīng)找到了數(shù)據(jù)存儲(chǔ)的真實(shí)網(wǎng)頁,現(xiàn)在我們只需對該網(wǎng)頁發(fā)起請求,然后提取數(shù)據(jù)即可。

01發(fā)起請求

通過對請求頭進(jìn)行觀察,我們不難構(gòu)造出請求代碼。

代碼如下:

 
 
 
 
  1. key = input("請輸入爬取關(guān)鍵字:") 
  2. for page in range(1,10): 
  3.    params = ( 
  4.        ('containerid', f'100103type=1&q={key}'), 
  5.        ('page_type', 'searchall'), 
  6.        ('page', str(page)), 
  7.    ) 
  8.  
  9.    response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params) 

02提取數(shù)據(jù)

從上面我們觀察發(fā)現(xiàn)這個(gè)數(shù)據(jù)可以轉(zhuǎn)化成字典來進(jìn)行爬取,但是經(jīng)過我實(shí)際測試發(fā)現(xiàn),用正則來提取是最為簡單方便的,所以這里展示的是正則提取的方式,有興趣的讀者可以嘗試用字典方式來提取數(shù)據(jù)。代碼如下:

 
 
 
 
  1. r = response.text 
  2. title = re.findall('"page_title":"(.*?)"',r) 
  3. comments_count = re.findall('"comments_count":(.*?),',r) 
  4. attitudes_count = re.findall('"attitudes_count":(.*?),',r) 
  5. for i in range(len(title)): 
  6.    print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i]) 

在這里有一個(gè)小問題要注意,微博的標(biāo)題是用Unicode編碼的,如果直接爬取存儲(chǔ),將存儲(chǔ)的是Unicode編碼,在這里要感謝大佬—小明哥的幫助,志斌在網(wǎng)上搜了好多解決方法都沒有成功,最后小明哥一個(gè)簡單的函數(shù)就給解決了,實(shí)在是佩服!

解決方案:用eval()來輸出標(biāo)題,就可以將Unicode轉(zhuǎn)換成漢字了。

03小結(jié)

1. 本文詳細(xì)介紹了如何用Python指定關(guān)鍵字爬取微博,有興趣的讀者可以嘗試自己動(dòng)手練習(xí)一下。

2. 本文僅供讀者學(xué)習(xí)使用,不做其他用途!

3. 點(diǎn)擊下方[在看],即可找志斌領(lǐng)取本文全部代碼。


本文標(biāo)題:爬蟲實(shí)戰(zhàn)|用Python爬取指定關(guān)鍵詞的微博~
網(wǎng)址分享:http://www.5511xx.com/article/dhcgdpj.html