亚洲福利在线美女福利,黄片精品在线观看,在线免费A片av中文天堂

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

代碼詳解Python多線程、多進程、協(xié)程

一、前言

很多時候我們寫了一個爬蟲，實現(xiàn)了需求后會發(fā)現(xiàn)了很多值得改進的地方，其中很重要的一點就是爬取速度。本文就通過代碼講解如何使用多進程、多線程、協(xié)程來提升爬取速度。注意：我們不深入介紹理論和原理，一切都在代碼中。

公司主營業(yè)務(wù)：做網(wǎng)站、網(wǎng)站制作、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)公司是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化，感謝他們對我們的高要求，感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn)，讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)公司推出紅旗免費做網(wǎng)站回饋大家。

???

二、同步

首先我們寫一個簡化的爬蟲，對各個功能細分，有意識進行函數(shù)式編程。下面代碼的目的是訪問300次百度頁面并返回狀態(tài)碼，其中parse_1函數(shù)可以設(shè)定循環(huán)次數(shù)，每次循環(huán)將當(dāng)前循環(huán)數(shù)(從0開始)和url傳入parse_2函數(shù)。

import requests  def parse_1():     url = 'https://www.baidu.com'     for i in range(300):         parse_2(url)  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

性能的消耗主要在IO請求中，當(dāng)單進程單線程模式下請求URL時必然會引起等待

示例代碼就是典型的串行邏輯，parse_1將url和循環(huán)數(shù)傳遞給parse_2，parse_2請求并返回狀態(tài)碼后parse_1繼續(xù)迭代一次，重復(fù)之前步驟

三、多線程

因為CPU在執(zhí)行程序時每個時間刻度上只會存在一個線程，因此多線程實際上提高了進程的使用率從而提高了CPU的使用率

實現(xiàn)多線程的庫有很多，這里用concurrent.futures中的ThreadPoolExecutor來演示。介紹ThreadPoolExecutor庫是因為它相比其他庫代碼更簡潔

為了方便說明問題，下面代碼中如果是新增加的部分，代碼行前會加上 > 符號便于觀察說明問題，實際運行需要去掉

import requests > from concurrent.futures import ThreadPoolExecutor  def parse_1():     url = 'https://www.baidu.com'     # 建立線程池     > pool = ThreadPoolExecutor(6)     for i in range(300):         > pool.submit(parse_2, url)     > pool.shutdown(wait=True)  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

跟同步相對的就是異步。異步就是彼此獨立,在等待某事件的過程中繼續(xù)做自己的事，不需要等待這一事件完成后再工作。線程就是實現(xiàn)異步的一個方式，也就是說多線程是異步處理異步就意味著不知道處理結(jié)果，有時候我們需要了解處理結(jié)果，就可以采用回調(diào)

import requests from concurrent.futures import ThreadPoolExecutor  # 增加回調(diào)函數(shù) > def callback(future):     > print(future.result())  def parse_1():     url = 'https://www.baidu.com'     pool = ThreadPoolExecutor(6)     for i in range(300):         > results = pool.submit(parse_2, url)         # 回調(diào)的關(guān)鍵步驟         > results.add_done_callback(callback)     pool.shutdown(wait=True)  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

Python實現(xiàn)多線程有一個無數(shù)人詬病的GIL(全局解釋器鎖)，但多線程對于爬取網(wǎng)頁這種多數(shù)屬于IO密集型的任務(wù)依舊很合適。

四、多進程

多進程用兩個方法實現(xiàn)：ProcessPoolExecutor和multiprocessing

1. ProcessPoolExecutor

和實現(xiàn)多線程的ThreadPoolExecutor類似

import requests > from concurrent.futures import ProcessPoolExecutor  def parse_1():     url = 'https://www.baidu.com'     # 建立線程池     > pool = ProcessPoolExecutor(6)     for i in range(300):         > pool.submit(parse_2, url)     > pool.shutdown(wait=True)  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

可以看到改動了兩次類名，代碼依舊很簡潔，同理也可以添加回調(diào)函數(shù)

import requests from concurrent.futures import ProcessPoolExecutor  > def callback(future):     > print(future.result())  def parse_1():     url = 'https://www.baidu.com'     pool = ProcessPoolExecutor(6)     for i in range(300):         > results = pool.submit(parse_2, url)         > results.add_done_callback(callback)     pool.shutdown(wait=True)  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

2. multiprocessing

直接看代碼，一切都在注釋中。

import requests > from multiprocessing import Pool  def parse_1():     url = 'https://www.baidu.com'     # 建池     > pool = Pool(processes=5)     # 存放結(jié)果     > res_lst = []     for i in range(300):         # 把任務(wù)加入池中         > res = pool.apply_async(func=parse_2, args=(url,))         # 獲取完成的結(jié)果(需要取出)         > res_lst.append(res)     # 存放最終結(jié)果(也可以直接存儲或者print)     > good_res_lst = []     > for res in res_lst:         # 利用get獲取處理后的結(jié)果         > good_res = res.get()         # 判斷結(jié)果的好壞         > if good_res:             > good_res_lst.append(good_res)     # 關(guān)閉和等待完成     > pool.close()     > pool.join()  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

可以看到multiprocessing庫的代碼稍繁瑣，但支持更多的拓展。多進程和多線程確實能夠達到加速的目的，但如果遇到IO阻塞會出現(xiàn)線程或者進程的浪費，因此有一個更好的方法……

五、異步非阻塞

協(xié)程+回調(diào)配合動態(tài)協(xié)作就可以達到異步非阻塞的目的，本質(zhì)只用了一個線程，所以很大程度利用了資源

實現(xiàn)異步非阻塞經(jīng)典是利用asyncio庫+yield，為了方便利用逐漸出現(xiàn)了更上層的封裝 aiohttp，要想更好的理解異步非阻塞最好還是深入了解asyncio庫。而gevent是一個非常方便實現(xiàn)協(xié)程的庫

import requests > from gevent import monkey # 猴子補丁是協(xié)作運行的靈魂 > monkey.patch_all() > import gevent  def parse_1():     url = 'https://www.baidu.com'     # 建立任務(wù)列表     > tasks_list = []     for i in range(300):         > task = gevent.spawn(parse_2, url)         > tasks_list.append(task)     > gevent.joinall(tasks_list)  def parse_2(url):     response = requests.get(url)     print(response.status_code)  if __name__ == '__main__':     parse_1()

gevent能很大提速，也引入了新的問題：如果我們不想速度太快給服務(wù)器造成太大負擔(dān)怎么辦?如果是多進程多線程的建池方法，可以控制池內(nèi)數(shù)量。如果用gevent想要控制速度也有一個不錯的方法：建立隊列。gevent中也提供了Quene類，下面代碼改動較大

import requests from gevent import monkey monkey.patch_all() import gevent > from gevent.queue import Queue  def parse_1():     url = 'https://www.baidu.com'     tasks_list = []     # 實例化隊列     > quene = Queue()     for i in range(300):         # 全部url壓入隊列         > quene.put_nowait(url)     # 兩路隊列     > for _ in range(2):         > task = gevent.spawn(parse_2)         > tasks_list.append(task)     gevent.joinall(tasks_list)  # 不需要傳入?yún)?shù)，都在隊列中 > def parse_2():     # 循環(huán)判斷隊列是否為空     > while not quene.empty():         # 彈出隊列         > url = quene.get_nowait()         response = requests.get(url)         # 判斷隊列狀態(tài)         > print(quene.qsize(), response.status_code)  if __name__ == '__main__':     parse_1()

結(jié)束語

以上就是幾種常用的加速方法。如果對代碼測試感興趣可以利用time模塊判斷運行時間。爬蟲的加速是重要技能，但適當(dāng)控制速度也是爬蟲工作者的良好習(xí)慣，不要給服務(wù)器太大壓力，拜拜～

分享題目：代碼詳解Python多線程、多進程、協(xié)程
網(wǎng)頁URL：http://www.5511xx.com/article/cojjpsd.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

一、前言

二、同步

三、多線程

四、多進程

五、異步非阻塞

結(jié)束語

其他資訊

新聞中心

一、前言

二、同步

三、多線程

四、多進程

五、異步非阻塞

結(jié)束語

其他資訊

二、同步

三、多線程

四、多進程