新聞中心
從今天開始我們來聊聊Netty的那些事兒,我們都知道Netty是一個高性能異步事件驅(qū)動的網(wǎng)絡(luò)框架。

創(chuàng)新互聯(lián)成立與2013年,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項目成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元順義做網(wǎng)站,已為上家服務(wù),為順義各地企業(yè)和個人服務(wù),聯(lián)系電話:13518219792
它的設(shè)計異常優(yōu)雅簡潔,擴展性高,穩(wěn)定性強。擁有非常詳細(xì)完整的用戶文檔。
同時內(nèi)置了很多非常有用的模塊基本上做到了開箱即用,用戶只需要編寫短短幾行代碼,就可以快速構(gòu)建出一個具有高吞吐,低延時,更少的資源消耗,高性能(非必要的內(nèi)存拷貝最小化)等特征的高并發(fā)網(wǎng)絡(luò)應(yīng)用程序。
本文我們來探討下支持Netty具有高吞吐,低延時特征的基石----netty的網(wǎng)絡(luò)IO模型。
由Netty的網(wǎng)絡(luò)IO模型開始,我們來正式揭開本系列Netty源碼解析的序幕:
網(wǎng)絡(luò)包接收流程
- 當(dāng)網(wǎng)絡(luò)數(shù)據(jù)幀通過網(wǎng)絡(luò)傳輸?shù)竭_(dá)網(wǎng)卡時,網(wǎng)卡會將網(wǎng)絡(luò)數(shù)據(jù)幀通過DMA的方式放到環(huán)形緩沖區(qū)RingBuffer中。
RingBuffer是網(wǎng)卡在啟動的時候分配和初始化的環(huán)形緩沖隊列。當(dāng)RingBuffer滿的時候,新來的數(shù)據(jù)包就會被丟棄。我們可以通過ifconfig命令查看網(wǎng)卡收發(fā)數(shù)據(jù)包的情況。其中overruns數(shù)據(jù)項表示當(dāng)RingBuffer滿時,被丟棄的數(shù)據(jù)包。如果發(fā)現(xiàn)出現(xiàn)丟包情況,可以通過ethtool命令來增大RingBuffer長度。
- 當(dāng)DMA操作完成時,網(wǎng)卡會向CPU發(fā)起一個硬中斷,告訴CPU有網(wǎng)絡(luò)數(shù)據(jù)到達(dá)。CPU調(diào)用網(wǎng)卡驅(qū)動注冊的硬中斷響應(yīng)程序。網(wǎng)卡硬中斷響應(yīng)程序會為網(wǎng)絡(luò)數(shù)據(jù)幀創(chuàng)建內(nèi)核數(shù)據(jù)結(jié)構(gòu)sk_buffer,并將網(wǎng)絡(luò)數(shù)據(jù)幀拷貝到sk_buffer中。然后發(fā)起軟中斷請求,通知內(nèi)核有新的網(wǎng)絡(luò)數(shù)據(jù)幀到達(dá)。
sk_buff緩沖區(qū),是一個維護網(wǎng)絡(luò)幀結(jié)構(gòu)的雙向鏈表,鏈表中的每一個元素都是一個網(wǎng)絡(luò)幀。雖然 TCP/IP 協(xié)議棧分了好幾層,但上下不同層之間的傳遞,實際上只需要操作這個數(shù)據(jù)結(jié)構(gòu)中的指針,而無需進行數(shù)據(jù)復(fù)制。
- 內(nèi)核線程ksoftirqd發(fā)現(xiàn)有軟中斷請求到來,隨后調(diào)用網(wǎng)卡驅(qū)動注冊的poll函數(shù),poll函數(shù)將sk_buffer中的網(wǎng)絡(luò)數(shù)據(jù)包送到內(nèi)核協(xié)議棧中注冊的ip_rcv函數(shù)中。
每個CPU會綁定一個ksoftirqd內(nèi)核線程專門用來處理軟中斷響應(yīng)。2個 CPU 時,就會有 ksoftirqd/0 和 ksoftirqd/1這兩個內(nèi)核線程。
這里有個事情需要注意下: 網(wǎng)卡接收到數(shù)據(jù)后,當(dāng)DMA拷貝完成時,向CPU發(fā)出硬中斷,這時哪個CPU上響應(yīng)了這個硬中斷,那么在網(wǎng)卡硬中斷響應(yīng)程序中發(fā)出的軟中斷請求也會在這個CPU綁定的ksoftirqd線程中響應(yīng)。所以如果發(fā)現(xiàn)Linux軟中斷,CPU消耗都集中在一個核上的話,那么就需要調(diào)整硬中斷的CPU親和性,來將硬中斷打散到不通的CPU核上去。
- 在ip_rcv函數(shù)中也就是上圖中的網(wǎng)絡(luò)層,取出數(shù)據(jù)包的IP頭,判斷該數(shù)據(jù)包下一跳的走向,如果數(shù)據(jù)包是發(fā)送給本機的,則取出傳輸層的協(xié)議類型(TCP或者UDP),并去掉數(shù)據(jù)包的IP頭,將數(shù)據(jù)包交給上圖中得傳輸層處理。
傳輸層的處理函數(shù):TCP協(xié)議對應(yīng)內(nèi)核協(xié)議棧中注冊的tcp_rcv函數(shù),UDP協(xié)議對應(yīng)內(nèi)核協(xié)議棧中注冊的udp_rcv函數(shù)。
- 當(dāng)我們采用的是TCP協(xié)議時,數(shù)據(jù)包到達(dá)傳輸層時,會在內(nèi)核協(xié)議棧中的tcp_rcv函數(shù)處理,在tcp_rcv函數(shù)中去掉TCP頭,根據(jù)四元組(源IP,源端口,目的IP,目的端口)查找對應(yīng)的Socket,如果找到對應(yīng)的Socket則將網(wǎng)絡(luò)數(shù)據(jù)包中的傳輸數(shù)據(jù)拷貝到Socket中的接收緩沖區(qū)中。如果沒有找到,則發(fā)送一個目標(biāo)不可達(dá)的icmp包。
- 內(nèi)核在接收網(wǎng)絡(luò)數(shù)據(jù)包時所做的工作我們就介紹完了,現(xiàn)在我們把視角放到應(yīng)用層,當(dāng)我們程序通過系統(tǒng)調(diào)用read讀取Socket接收緩沖區(qū)中的數(shù)據(jù)時,如果接收緩沖區(qū)中沒有數(shù)據(jù),那么應(yīng)用程序就會在系統(tǒng)調(diào)用上阻塞,直到Socket接收緩沖區(qū)有數(shù)據(jù),然后CPU將內(nèi)核空間(Socket接收緩沖區(qū))的數(shù)據(jù)拷貝到用戶空間,最后系統(tǒng)調(diào)用read返回,應(yīng)用程序讀取數(shù)據(jù)。
性能開銷
從內(nèi)核處理網(wǎng)絡(luò)數(shù)據(jù)包接收的整個過程來看,內(nèi)核幫我們做了非常之多的工作,最終我們的應(yīng)用程序才能讀取到網(wǎng)絡(luò)數(shù)據(jù)。
隨著而來的也帶來了很多的性能開銷,結(jié)合前面介紹的網(wǎng)絡(luò)數(shù)據(jù)包接收過程我們來看下網(wǎng)絡(luò)數(shù)據(jù)包接收的過程中都有哪些性能開銷:
- 應(yīng)用程序通過系統(tǒng)調(diào)用從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)的開銷以及系統(tǒng)調(diào)用返回時從內(nèi)核態(tài)轉(zhuǎn)為用戶態(tài)的開銷。
- 網(wǎng)絡(luò)數(shù)據(jù)從內(nèi)核空間通過CPU拷貝到用戶空間的開銷。
- 內(nèi)核線程ksoftirqd響應(yīng)軟中斷的開銷。
- CPU響應(yīng)硬中斷的開銷。
- DMA拷貝網(wǎng)絡(luò)數(shù)據(jù)包到內(nèi)存中的開銷。
網(wǎng)絡(luò)包發(fā)送流程
- 當(dāng)我們在應(yīng)用程序中調(diào)用send系統(tǒng)調(diào)用發(fā)送數(shù)據(jù)時,由于是系統(tǒng)調(diào)用所以線程會發(fā)生一次用戶態(tài)到內(nèi)核態(tài)的轉(zhuǎn)換,在內(nèi)核中首先根據(jù)fd將真正的Socket找出,這個Socket對象中記錄著各種協(xié)議棧的函數(shù)地址,然后構(gòu)造struct msghdr對象,將用戶需要發(fā)送的數(shù)據(jù)全部封裝在這個struct msghdr結(jié)構(gòu)體中。
- 調(diào)用內(nèi)核協(xié)議棧函數(shù)inet_sendmsg,發(fā)送流程進入內(nèi)核協(xié)議棧處理。在進入到內(nèi)核協(xié)議棧之后,內(nèi)核會找到Socket上的具體協(xié)議的發(fā)送函數(shù)。
比如:我們使用的是TCP協(xié)議,對應(yīng)的TCP協(xié)議發(fā)送函數(shù)是tcp_sendmsg,如果是UDP協(xié)議的話,對應(yīng)的發(fā)送函數(shù)為udp_sendmsg。
- 在TCP協(xié)議的發(fā)送函數(shù)tcp_sendmsg中,創(chuàng)建內(nèi)核數(shù)據(jù)結(jié)構(gòu)sk_buffer,將struct msghdr結(jié)構(gòu)體中的發(fā)送數(shù)據(jù)拷貝到sk_buffer中。調(diào)用tcp_write_queue_tail函數(shù)獲取Socket發(fā)送隊列中的隊尾元素,將新創(chuàng)建的sk_buffer添加到Socket發(fā)送隊列的尾部。
Socket的發(fā)送隊列是由sk_buffer組成的一個雙向鏈表。
發(fā)送流程走到這里,用戶要發(fā)送的數(shù)據(jù)總算是從用戶空間拷貝到了內(nèi)核中,這時雖然發(fā)送數(shù)據(jù)已經(jīng)拷貝到了內(nèi)核Socket中的發(fā)送隊列中,但并不代表內(nèi)核會開始發(fā)送,因為TCP協(xié)議的流量控制和擁塞控制,用戶要發(fā)送的數(shù)據(jù)包并不一定會立馬被發(fā)送出去,需要符合TCP協(xié)議的發(fā)送條件。如果沒有達(dá)到發(fā)送條件,那么本次send系統(tǒng)調(diào)用就會直接返回。
- 如果符合發(fā)送條件,則開始調(diào)用tcp_write_xmit內(nèi)核函數(shù)。在這個函數(shù)中,會循環(huán)獲取Socket發(fā)送隊列中待發(fā)送的sk_buffer,然后進行擁塞控制以及滑動窗口的管理。
- 將從Socket發(fā)送隊列中獲取到的sk_buffer重新拷貝一份,設(shè)置sk_buffer副本中的TCP HEADER。
sk_buffer 內(nèi)部其實包含了網(wǎng)絡(luò)協(xié)議中所有的 header。在設(shè)置 TCP HEADER的時候,只是把指針指向 sk_buffer的合適位置。后面再設(shè)置 IP HEADER的時候,在把指針移動一下就行,避免頻繁的內(nèi)存申請和拷貝,效率很高。
為什么不直接使用Socket發(fā)送隊列中的sk_buffer而是需要拷貝一份呢?因為TCP協(xié)議是支持丟包重傳的,在沒有收到對端的ACK之前,這個sk_buffer是不能刪除的。內(nèi)核每次調(diào)用網(wǎng)卡發(fā)送數(shù)據(jù)的時候,實際上傳遞的是sk_buffer的拷貝副本,當(dāng)網(wǎng)卡把數(shù)據(jù)發(fā)送出去后,sk_buffer拷貝副本會被釋放。當(dāng)收到對端的ACK之后,Socket發(fā)送隊列中的sk_buffer才會被真正刪除。
- 當(dāng)設(shè)置完TCP頭后,內(nèi)核協(xié)議棧傳輸層的事情就做完了,下面通過調(diào)用ip_queue_xmit內(nèi)核函數(shù),正式來到內(nèi)核協(xié)議棧網(wǎng)絡(luò)層的處理。
通過route命令可以查看本機路由配置。
如果你使用 iptables配置了一些規(guī)則,那么這里將檢測是否命中規(guī)則。如果你設(shè)置了非常復(fù)雜的 netfilter 規(guī)則,在這個函數(shù)里將會導(dǎo)致你的線程 CPU 開銷會極大增加。
- 將sk_buffer中的指針移動到IP頭位置上,設(shè)置IP頭。
- 執(zhí)行netfilters過濾。過濾通過之后,如果數(shù)據(jù)大于 MTU的話,則執(zhí)行分片。
- 檢查Socket中是否有緩存路由表,如果沒有的話,則查找路由項,并緩存到Socket中。接著在把路由表設(shè)置到sk_buffer中。
內(nèi)核協(xié)議棧網(wǎng)絡(luò)層的事情處理完后,現(xiàn)在發(fā)送流程進入了到了鄰居子系統(tǒng),鄰居子系統(tǒng)位于內(nèi)核協(xié)議棧中的網(wǎng)絡(luò)層和網(wǎng)絡(luò)接口層之間,用于發(fā)送ARP請求獲取MAC地址,然后將sk_buffer中的指針移動到MAC頭位置,填充MAC頭。
經(jīng)過鄰居子系統(tǒng)的處理,現(xiàn)在sk_buffer中已經(jīng)封裝了一個完整的數(shù)據(jù)幀,隨后內(nèi)核將sk_buffer交給網(wǎng)絡(luò)設(shè)備子系統(tǒng)進行處理。網(wǎng)絡(luò)設(shè)備子系統(tǒng)主要做以下幾項事情:
- 選擇發(fā)送隊列(RingBuffer)。因為網(wǎng)卡擁有多個發(fā)送隊列,所以在發(fā)送前需要選擇一個發(fā)送隊列。
- 將sk_buffer添加到發(fā)送隊列中。
- 循環(huán)從發(fā)送隊列(RingBuffer)中取出sk_buffer,調(diào)用內(nèi)核函數(shù)sch_direct_xmit發(fā)送數(shù)據(jù),其中會調(diào)用網(wǎng)卡驅(qū)動程序來發(fā)送數(shù)據(jù)。
以上過程全部是用戶線程的內(nèi)核態(tài)在執(zhí)行,占用的CPU時間是系統(tǒng)態(tài)時間(sy),當(dāng)分配給用戶線程的CPU quota用完的時候,會觸發(fā)NET_TX_SOFTIRQ類型的軟中斷,內(nèi)核線程ksoftirqd會響應(yīng)這個軟中斷,并執(zhí)行NET_TX_SOFTIRQ類型的軟中斷注冊的回調(diào)函數(shù)net_tx_action,在回調(diào)函數(shù)中會執(zhí)行到驅(qū)動程序函數(shù) dev_hard_start_xmit來發(fā)送數(shù)據(jù)。
注意:當(dāng)觸發(fā)NET_TX_SOFTIRQ軟中斷來發(fā)送數(shù)據(jù)時,后邊消耗的 CPU 就都顯示在 si這里了,不會消耗用戶進程的系統(tǒng)態(tài)時間(sy)了。
從這里可以看到網(wǎng)絡(luò)包的發(fā)送過程和接受過程是不同的,在介紹網(wǎng)絡(luò)包的接受過程時,我們提到是通過觸發(fā)NET_RX_SOFTIRQ類型的軟中斷在內(nèi)核線程ksoftirqd中執(zhí)行內(nèi)核網(wǎng)絡(luò)協(xié)議棧接受數(shù)據(jù)。而在網(wǎng)絡(luò)數(shù)據(jù)包的發(fā)送過程中是用戶線程的內(nèi)核態(tài)在執(zhí)行內(nèi)核網(wǎng)絡(luò)協(xié)議棧,只有當(dāng)線程的CPU quota用盡時,才觸發(fā)NET_TX_SOFTIRQ軟中斷來發(fā)送數(shù)據(jù)。
在整個網(wǎng)絡(luò)包的發(fā)送和接受過程中,NET_TX_SOFTIRQ類型的軟中斷只會在發(fā)送網(wǎng)絡(luò)包時并且當(dāng)用戶線程的CPU quota用盡時,才會觸發(fā)。剩下的接受過程中觸發(fā)的軟中斷類型以及發(fā)送完數(shù)據(jù)觸發(fā)的軟中斷類型均為NET_RX_SOFTIRQ。所以這就是你在服務(wù)器上查看 /proc/softirqs,一般 NET_RX都要比 NET_TX大很多的的原因。
- 現(xiàn)在發(fā)送流程終于到了網(wǎng)卡真實發(fā)送數(shù)據(jù)的階段,前邊我們講到無論是用戶線程的內(nèi)核態(tài)還是觸發(fā)NET_TX_SOFTIRQ類型的軟中斷在發(fā)送數(shù)據(jù)的時候最終會調(diào)用到網(wǎng)卡的驅(qū)動程序函數(shù)dev_hard_start_xmit來發(fā)送數(shù)據(jù)。在網(wǎng)卡驅(qū)動程序函數(shù)dev_hard_start_xmit中會將sk_buffer映射到網(wǎng)卡可訪問的內(nèi)存 DMA 區(qū)域,最終網(wǎng)卡驅(qū)動程序通過DMA的方式將數(shù)據(jù)幀通過物理網(wǎng)卡發(fā)送出去。
- 當(dāng)數(shù)據(jù)發(fā)送完畢后,還有最后一項重要的工作,就是清理工作。數(shù)據(jù)發(fā)送完畢后,網(wǎng)卡設(shè)備會向CPU發(fā)送一個硬中斷,CPU調(diào)用網(wǎng)卡驅(qū)動程序注冊的硬中斷響應(yīng)程序,在硬中斷響應(yīng)中觸發(fā)NET_RX_SOFTIRQ類型的軟中斷,在軟中斷的回調(diào)函數(shù)igb_poll中清理釋放 sk_buffer,清理網(wǎng)卡發(fā)送隊列(RingBuffer),解除 DMA 映射。
無論硬中斷是因為有數(shù)據(jù)要接收,還是說發(fā)送完成通知,從硬中斷觸發(fā)的軟中斷都是 NET_RX_SOFTIRQ。
這里釋放清理的只是sk_buffer的副本,真正的sk_buffer現(xiàn)在還是存放在Socket的發(fā)送隊列中。前面在傳輸層處理的時候我們提到過,因為傳輸層需要保證可靠性,所以 sk_buffer其實還沒有刪除。它得等收到對方的 ACK 之后才會真正刪除。
性能開銷
前邊我們提到了在網(wǎng)絡(luò)包接收過程中涉及到的性能開銷,現(xiàn)在介紹完了網(wǎng)絡(luò)包的發(fā)送過程,我們來看下在數(shù)據(jù)包發(fā)送過程中的性能開銷:
和接收數(shù)據(jù)一樣,應(yīng)用程序在調(diào)用系統(tǒng)調(diào)用send的時候會從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)以及發(fā)送完數(shù)據(jù)后,系統(tǒng)調(diào)用返回時從內(nèi)核態(tài)轉(zhuǎn)為用戶態(tài)的開銷。
用戶線程內(nèi)核態(tài)CPU quota用盡時觸發(fā)NET_TX_SOFTIRQ類型軟中斷,內(nèi)核響應(yīng)軟中斷的開銷。
網(wǎng)卡發(fā)送完數(shù)據(jù),向CPU發(fā)送硬中斷,CPU響應(yīng)硬中斷的開銷。以及在硬中斷中發(fā)送NET_RX_SOFTIRQ軟中斷執(zhí)行具體的內(nèi)存清理動作。內(nèi)核響應(yīng)軟中斷的開銷。
內(nèi)存拷貝的開銷。我們來回顧下在數(shù)據(jù)包發(fā)送的過程中都發(fā)生了哪些內(nèi)存拷貝:
- 在內(nèi)核協(xié)議棧的傳輸層中,TCP協(xié)議對應(yīng)的發(fā)送函數(shù)tcp_sendmsg會申請sk_buffer,將用戶要發(fā)送的數(shù)據(jù)拷貝到sk_buffer中。
- 在發(fā)送流程從傳輸層到網(wǎng)絡(luò)層的時候,會拷貝一個sk_buffer副本出來,將這個sk_buffer副本向下傳遞。原始sk_buffer保留在Socket發(fā)送隊列中,等待網(wǎng)絡(luò)對端ACK,對端ACK后刪除Socket發(fā)送隊列中的sk_buffer。對端沒有發(fā)送ACK,則重新從Socket發(fā)送隊列中發(fā)送,實現(xiàn)TCP協(xié)議的可靠傳輸。
- 在網(wǎng)絡(luò)層,如果發(fā)現(xiàn)要發(fā)送的數(shù)據(jù)大于MTU,則會進行分片操作,申請額外的sk_buffer,并將原來的sk_buffer拷貝到多個小的sk_buffer中。
再談(阻塞,非阻塞)與(同步,異步)
在我們聊完網(wǎng)絡(luò)數(shù)據(jù)的接收和發(fā)送過程后,我們來談下IO中特別容易混淆的概念:阻塞與同步,非阻塞與異步。
網(wǎng)上各種博文還有各種書籍中有大量的關(guān)于這兩個概念的解釋,但是筆者覺得還是不夠形象化,只是對概念的生硬解釋,如果硬套概念的話,其實感覺阻塞與同步,非阻塞與異步還是沒啥區(qū)別,時間長了,還是比較模糊容易混淆。
所以筆者在這里嘗試換一種更加形象化,更加容易理解記憶的方式來清晰地解釋下什么是阻塞與非阻塞,什么是同步與異步。
經(jīng)過前邊對網(wǎng)絡(luò)數(shù)據(jù)包接收流程的介紹,在這里我們可以將整個流程總結(jié)為兩個階段:
- 數(shù)據(jù)準(zhǔn)備階段: 在這個階段,網(wǎng)絡(luò)數(shù)據(jù)包到達(dá)網(wǎng)卡,通過DMA的方式將數(shù)據(jù)包拷貝到內(nèi)存中,然后經(jīng)過硬中斷,軟中斷,接著通過內(nèi)核線程ksoftirqd經(jīng)過內(nèi)核協(xié)議棧的處理,最終將數(shù)據(jù)發(fā)送到內(nèi)核Socket的接收緩沖區(qū)中。
- 數(shù)據(jù)拷貝階段: 當(dāng)數(shù)據(jù)到達(dá)內(nèi)核Socket的接收緩沖區(qū)中時,此時數(shù)據(jù)存在于內(nèi)核空間中,需要將數(shù)據(jù)拷貝到用戶空間中,才能夠被應(yīng)用程序讀取。
阻塞與非阻塞
阻塞與非阻塞的區(qū)別主要發(fā)生在第一階段:數(shù)據(jù)準(zhǔn)備階段。
當(dāng)應(yīng)用程序發(fā)起系統(tǒng)調(diào)用read時,線程從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài),讀取內(nèi)核Socket的接收緩沖區(qū)中的網(wǎng)絡(luò)數(shù)據(jù)。
阻塞
如果這時內(nèi)核Socket的接收緩沖區(qū)沒有數(shù)據(jù),那么線程就會一直等待,直到Socket接收緩沖區(qū)有數(shù)據(jù)為止。隨后將數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間,系統(tǒng)調(diào)用read返回。
從圖中我們可以看出:阻塞的特點是在第一階段和第二階段都會等待。
非阻塞
阻塞和非阻塞主要的區(qū)分是在第一階段:數(shù)據(jù)準(zhǔn)備階段。
- 在第一階段,當(dāng)Socket的接收緩沖區(qū)中沒有數(shù)據(jù)的時候,阻塞模式下應(yīng)用線程會一直等待。非阻塞模式下應(yīng)用線程不會等待,系統(tǒng)調(diào)用直接返回錯誤標(biāo)志EWOULDBLOCK。
- 當(dāng)Socket的接收緩沖區(qū)中有數(shù)據(jù)的時候,阻塞和非阻塞的表現(xiàn)是一樣的,都會進入第二階段等待數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間,然后系統(tǒng)調(diào)用返回。
從上圖中,我們可以看出:非阻塞的特點是第一階段不會等待,但是在第二階段還是會等待。
同步與異步
同步與異步主要的區(qū)別發(fā)生在第二階段:數(shù)據(jù)拷貝階段。
前邊我們提到在數(shù)據(jù)拷貝階段主要是將數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間。然后應(yīng)用程序才可以讀取數(shù)據(jù)。
當(dāng)內(nèi)核Socket的接收緩沖區(qū)有數(shù)據(jù)到達(dá)時,進入第二階段。
同步
同步模式在數(shù)據(jù)準(zhǔn)備好后,是由用戶線程的內(nèi)核態(tài)來執(zhí)行第二階段。所以應(yīng)用程序會在第二階段發(fā)生阻塞,直到數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間,系統(tǒng)調(diào)用才會返回。
Linux下的 epoll和Mac 下的 kqueue都屬于同步 IO。
異步
異步模式下是由內(nèi)核來執(zhí)行第二階段的數(shù)據(jù)拷貝操作,當(dāng)內(nèi)核執(zhí)行完第二階段,會通知用戶線程IO操作已經(jīng)完成,并將數(shù)據(jù)回調(diào)給用戶線程。所以在異步模式下 數(shù)據(jù)準(zhǔn)備階段和數(shù)據(jù)拷貝階段均是由內(nèi)核來完成,不會對應(yīng)用程序造成任何阻塞。
基于以上特征,我們可以看到異步模式需要內(nèi)核的支持,比較依賴操作系統(tǒng)底層的支持。
在目前流行的操作系統(tǒng)中,只有Windows 中的 IOCP才真正屬于異步 IO,實現(xiàn)的也非常成熟。但Windows很少用來作為服務(wù)器使用。
而常用來作為服務(wù)器使用的Linux,異步IO機制實現(xiàn)的不夠成熟,與NIO相比性能提升的也不夠明顯。
但Linux kernel 在5.1版本由Facebook的大神Jens Axboe引入了新的異步IO庫io_uring 改善了原來Linux native AIO的一些性能問題。性能相比Epoll以及之前原生的AIO提高了不少,值得關(guān)注。
IO模型
在進行網(wǎng)絡(luò)IO操作時,用什么樣的IO模型來讀寫數(shù)據(jù)將在很大程度上決定了網(wǎng)絡(luò)框架的IO性能。所以IO模型的選擇是構(gòu)建一個高性能網(wǎng)絡(luò)框架的基礎(chǔ)。
在《UNIX 網(wǎng)絡(luò)編程》一書中介紹了五種IO模型:阻塞IO,非阻塞IO,IO多路復(fù)用,信號驅(qū)動IO,異步IO,每一種IO模型的出現(xiàn)都是對前一種的升級優(yōu)化。
下面我們就來分別介紹下這五種IO模型各自都解決了什么問題,適用于哪些場景,各自的優(yōu)缺點是什么?
阻塞IO(BIO)
經(jīng)過前一小節(jié)對阻塞這個概念的介紹,相信大家可以很容易理解阻塞IO的概念和過程。
既然這小節(jié)我們談的是IO,那么下邊我們來看下在阻塞IO模型下,網(wǎng)絡(luò)數(shù)據(jù)的讀寫過程。
阻塞讀
當(dāng)用戶線程發(fā)起read系統(tǒng)調(diào)用,用戶線程從用戶態(tài)切換到內(nèi)核態(tài),在內(nèi)核中去查看Socket接收緩沖區(qū)是否有數(shù)據(jù)到來。
- Socket接收緩沖區(qū)中有數(shù)據(jù),則用戶線程在內(nèi)核態(tài)將內(nèi)核空間中的數(shù)據(jù)拷貝到用戶空間,系統(tǒng)IO調(diào)用返回。
- Socket接收緩沖區(qū)中無數(shù)據(jù),則用戶線程讓出CPU,進入阻塞狀態(tài)。當(dāng)數(shù)據(jù)到達(dá)Socket接收緩沖區(qū)后,內(nèi)核喚醒阻塞狀態(tài)中的用戶線程進入就緒狀態(tài),隨后經(jīng)過CPU的調(diào)度獲取到CPU quota進入運行狀態(tài),將內(nèi)核空間的數(shù)據(jù)拷貝到用戶空間,隨后系統(tǒng)調(diào)用返回。
阻塞寫
當(dāng)用戶線程發(fā)起send系統(tǒng)調(diào)用時,用戶線程從用戶態(tài)切換到內(nèi)核態(tài),將發(fā)送數(shù)據(jù)從用戶空間拷貝到內(nèi)核空間中的Socket發(fā)送緩沖區(qū)中。
- 當(dāng)Socket發(fā)送緩沖區(qū)能夠容納下發(fā)送數(shù)據(jù)時,用戶線程會將全部的發(fā)送數(shù)據(jù)寫入Socket緩沖區(qū),然后執(zhí)行在《網(wǎng)絡(luò)包發(fā)送流程》這小節(jié)介紹的后續(xù)流程,然后返回。
- 當(dāng)Socket發(fā)送緩沖區(qū)空間不夠,無法容納下全部發(fā)送數(shù)據(jù)時,用戶線程讓出CPU,進入阻塞狀態(tài),直到Socket發(fā)送緩沖區(qū)能夠容納下全部發(fā)送數(shù)據(jù)時,內(nèi)核喚醒用戶線程,執(zhí)行后續(xù)發(fā)送流程。
阻塞IO模型下的寫操作做事風(fēng)格比較硬剛,非得要把全部的發(fā)送數(shù)據(jù)寫入發(fā)送緩沖區(qū)才肯善罷甘休。
阻塞IO模型
由于阻塞IO的讀寫特點,所以導(dǎo)致在阻塞IO模型下,每個請求都需要被一個獨立的線程處理。一個線程在同一時刻只能與一個連接綁定。來一個請求,服務(wù)端就需要創(chuàng)建一個線程用來處理請求。
當(dāng)客戶端請求的并發(fā)量突然增大時,服務(wù)端在一瞬間就會創(chuàng)建出大量的線程,而創(chuàng)建線程是需要系統(tǒng)資源開銷的,這樣一來就會一瞬間占用大量的系統(tǒng)資源。
如果客戶端創(chuàng)建好連接后,但是一直不發(fā)數(shù)據(jù),通常大部分情況下,網(wǎng)絡(luò)連接也并不總是有數(shù)據(jù)可讀,那么在空閑的這段時間內(nèi),服務(wù)端線程就會一直處于阻塞狀態(tài),無法干其他的事情。CPU也無法得到充分的發(fā)揮,同時還會導(dǎo)致大量線程切換的開銷。
適用場景
基于以上阻塞IO模型的特點,該模型只適用于連接數(shù)少,并發(fā)度低的業(yè)務(wù)場景。
比如公司內(nèi)部的一些管理系統(tǒng),通常請求數(shù)在100個左右,使用阻塞IO模型還是非常適合的。而且性能還不輸NIO。
該模型在C10K之前,是普遍被采用的一種IO模型。
非阻塞IO(NIO)
阻塞IO模型最大的問題就是一個線程只能處理一個連接,如果這個連接上沒有數(shù)據(jù)的話,那么這個線程就只能阻塞在系統(tǒng)IO調(diào)用上,不能干其他的事情。這對系統(tǒng)資源來說,是一種極大的浪費。同時大量的線程上下文切換,也是一個巨大的系統(tǒng)開銷。
所以為了解決這個問題,我們就需要用盡可能少的線程去處理更多的連接。,網(wǎng)絡(luò)IO模型的演變也是根據(jù)這個需求來一步一步演進的。
基于這個需求,第一種解決方案非阻塞IO就出現(xiàn)了。我們在上一小節(jié)中介紹了非阻塞的概念,現(xiàn)在我們來看下網(wǎng)絡(luò)讀寫操作在非阻塞IO下的特點:
非阻塞讀
當(dāng)用戶線程發(fā)起非阻塞read系統(tǒng)調(diào)用時,用戶線程從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài),在內(nèi)核中去查看Socket接收緩沖區(qū)是否有數(shù)據(jù)到來。
- Socket接收緩沖區(qū)中無數(shù)據(jù),系統(tǒng)調(diào)用立馬返回,并帶有一個 EWOULDBLOCK 或 EAGAIN錯誤,這個階段用戶線程不會阻塞,也不會讓出CPU,而是會繼續(xù)輪訓(xùn)直到Socket接收緩沖區(qū)中有數(shù)據(jù)為止。
- Socket接收緩沖區(qū)中有數(shù)據(jù),用戶線程在內(nèi)核態(tài)會將內(nèi)核空間中的數(shù)據(jù)拷貝到用戶空間,注意這個數(shù)據(jù)拷貝階段,應(yīng)用程序是阻塞的,當(dāng)數(shù)據(jù)拷貝完成,系統(tǒng)調(diào)用返回。
非阻塞寫
前邊我們在介紹阻塞寫的時候提到阻塞寫的風(fēng)格特別的硬朗,頭比較鐵非要把全部發(fā)送數(shù)據(jù)一次性都寫到Socket的發(fā)送緩沖區(qū)中才返回,如果發(fā)送緩沖區(qū)中沒有足夠的空間容納,那么就一直阻塞死等,特別的剛。
相比較而言非阻塞寫的特點就比較佛系,當(dāng)發(fā)送緩沖區(qū)中沒有足夠的空間容納全部發(fā)送數(shù)據(jù)時,非阻塞寫的特點是能寫多少寫多少,寫不下了,就立即返回。并將寫入到發(fā)送緩沖區(qū)的字節(jié)數(shù)返回給應(yīng)用程序,方便用戶線程不斷的輪訓(xùn)嘗試將剩下的數(shù)據(jù)寫入發(fā)送緩沖區(qū)中。
非阻塞IO模型
基于以上非阻塞IO的特點,我們就不必像阻塞IO那樣為每個請求分配一個線程去處理連接上的讀寫了。
我們可以利用一個線程或者很少的線程,去不斷地輪詢每個Socket的接收緩沖區(qū)是否有數(shù)據(jù)到達(dá),如果沒有數(shù)據(jù),不必阻塞線程,而是接著去輪詢下一個Socket接收緩沖區(qū),直到輪詢到數(shù)據(jù)后,處理連接上的讀寫,或者交給業(yè)務(wù)線程池去處理,輪詢線程則繼續(xù)輪詢其他的Socket接收緩沖區(qū)。
這樣一個非阻塞IO模型就實現(xiàn)了我們在本小節(jié)開始提出的需求:我們需要用盡可能少的線程去處理更多的連接。
適用場景
雖然非阻塞IO模型與阻塞IO模型相比,減少了很大一部分的資源消耗和系統(tǒng)開銷。
但是它仍然有很大的性能問題,因為在非阻塞IO模型下,需要用戶線程去不斷地發(fā)起系統(tǒng)調(diào)用去輪訓(xùn)Socket接收緩沖區(qū),這就需要用戶線程不斷地從用戶態(tài)切換到內(nèi)核態(tài),內(nèi)核態(tài)切換到用戶態(tài)。隨著并發(fā)量的增大,這個上下文切換的開銷也是巨大的。
所以單純的非阻塞IO模型還是無法適用于高并發(fā)的場景。只能適用于C10K以下的場景。
IO多路復(fù)用
在非阻塞IO這一小節(jié)的開頭,我們提到網(wǎng)絡(luò)IO模型的演變都是圍繞著---如何用盡可能少的線程去處理更多的連接這個核心需求開始展開的。
本小節(jié)我們來談?wù)処O多路復(fù)用模型,那么什么是多路?,什么又是復(fù)用呢?
我們還是以這個核心需求來對這兩個概念展開闡述:
- 多路:我們的核心需求是要用盡可能少的線程來處理盡可能多的連接,這里的多路指的就是我們需要處理的眾多連接。
- 復(fù)用:核心需求要求我們使用盡可能少的線程,盡可能少的系統(tǒng)開銷去處理盡可能多的連接(多路),那么這里的復(fù)用指的就是用有限的資源,比如用一個線程或者固定數(shù)量的線程去處理眾多連接上的讀寫事件。換句話說,在阻塞IO模型中一個連接就需要分配一個獨立的線程去專門處理這個連接上的讀寫,到了IO多路復(fù)用模型中,多個連接可以復(fù)用這一個獨立的線程去處理這多個連接上的讀寫。
好了,IO多路復(fù)用模型的概念解釋清楚了,那么問題的關(guān)鍵是我們?nèi)绾稳崿F(xiàn)這個復(fù)用,也就是如何讓一個獨立的線程去處理眾多連接上的讀寫事件呢?
這個問題其實在非阻塞IO模型中已經(jīng)給出了它的答案,在非阻塞IO模型中,利用非阻塞的系統(tǒng)IO調(diào)用去不斷的輪詢眾多連接的Socket接收緩沖區(qū)看是否有數(shù)據(jù)到來,如果有則處理,如果沒有則繼續(xù)輪詢下一個Socket。這樣就達(dá)到了用一個線程去處理眾多連接上的讀寫事件了。
但是非阻塞IO模型最大的問題就是需要不斷的發(fā)起系統(tǒng)調(diào)用去輪詢各個Socket中的接收緩沖區(qū)是否有數(shù)據(jù)到來,頻繁的系統(tǒng)調(diào)用隨之帶來了大量的上下文切換開銷。隨著并發(fā)量的提升,這樣也會導(dǎo)致非常嚴(yán)重的性能問題。
那么如何避免頻繁的系統(tǒng)調(diào)用同時又可以實現(xiàn)我們的核心需求呢?
這就需要操作系統(tǒng)的內(nèi)核來支持這樣的操作,我們可以把頻繁的輪詢操作交給操作系統(tǒng)內(nèi)核來替我們完成,這樣就避免了在用戶空間頻繁的去使用系統(tǒng)調(diào)用來輪詢所帶來的性能開銷。
正如我們所想,操作系統(tǒng)內(nèi)核也確實為我們提供了這樣的功能實現(xiàn),下面我們來一起看下操作系統(tǒng)對IO多路復(fù)用模型的實現(xiàn)。
select
select是操作系統(tǒng)內(nèi)核提供給我們使用的一個系統(tǒng)調(diào)用,它解決了在非阻塞IO模型中需要不斷的發(fā)起系統(tǒng)IO調(diào)用去輪詢各個連接上的Socket接收緩沖區(qū)所帶來的用戶空間與內(nèi)核空間不斷切換的系統(tǒng)開銷。
select系統(tǒng)調(diào)用將輪詢的操作交給了內(nèi)核來幫助我們完成,從而避免了在用戶空間不斷的發(fā)起輪詢所帶來的的系統(tǒng)性能開銷。
- 首先用戶線程在發(fā)起select系統(tǒng)調(diào)用的時候會阻塞在select系統(tǒng)調(diào)用上。此時,用戶線程從用戶態(tài)切換到了內(nèi)核態(tài)完成了一次上下文切換。
- 用戶線程將需要監(jiān)聽的Socket對應(yīng)的文件描述符fd數(shù)組通過select系統(tǒng)調(diào)用傳遞給內(nèi)核。此時,用戶線程將用戶空間中的文件描述符fd數(shù)組拷貝到內(nèi)核空間。
這里的文件描述符數(shù)組其實是一個BitMap,BitMap下標(biāo)為文件描述符fd,下標(biāo)對應(yīng)的值為:1表示該fd上有讀寫事件,0表示該fd上沒有讀寫事件。
文件描述符fd其實就是一個整數(shù)值,在Linux中一切皆文件,Socket也是一個文件。描述進程所有信息的數(shù)據(jù)結(jié)構(gòu)task_struct中有一個屬性struct files_struct *files,它最終指向了一個數(shù)組,數(shù)組里存放了進程打開的所有文件列表,文件信息封裝在struct file結(jié)構(gòu)體中,這個數(shù)組存放的類型就是struct file結(jié)構(gòu)體,數(shù)組的下標(biāo)則是我們常說的文件描述符fd。
- 當(dāng)用戶線程調(diào)用完select后開始進入阻塞狀態(tài),內(nèi)核開始輪詢遍歷fd數(shù)組,查看fd對應(yīng)的Socket接收緩沖區(qū)中是否有數(shù)據(jù)到來。如果有數(shù)據(jù)到來,則將fd對應(yīng)BitMap的值設(shè)置為1。如果沒有數(shù)據(jù)到來,則保持值為0。
注意:這里內(nèi)核會修改原始的fd數(shù)組!!
- 內(nèi)核遍歷一遍fd數(shù)組后,如果發(fā)現(xiàn)有些fd上有IO數(shù)據(jù)到來,則將修改后的fd數(shù)組返回給用戶線程。此時,會將fd數(shù)組從內(nèi)核空間拷貝到用戶空間。
- 當(dāng)內(nèi)核將修改后的fd數(shù)組返回給用戶線程后,用戶線程解除阻塞,由用戶線程開始遍歷fd數(shù)組然后找出fd數(shù)組中值為1的Socket文件描述符。最后對這些Socket發(fā)起系統(tǒng)調(diào)用讀取數(shù)據(jù)。
select不會告訴用戶線程具體哪些fd上有IO數(shù)據(jù)到來,只是在IO活躍的fd上打上標(biāo)記,將打好標(biāo)記的完整fd數(shù)組返回給用戶線程,所以用戶線程還需要遍歷fd數(shù)組找出具體哪些fd上有IO數(shù)據(jù)到來。
- 由于內(nèi)核在遍歷的過程中已經(jīng)修改了fd數(shù)組,所以在用戶線程遍歷完fd數(shù)組后獲取到IO就緒的Socket后,就需要重置fd數(shù)組,并重新調(diào)用select傳入重置后的fd數(shù)組,讓內(nèi)核發(fā)起新的一輪遍歷輪詢。
API介紹
當(dāng)我們熟悉了select的原理后,就很容易理解內(nèi)核給我們提供的select API了。
int select(int maxfdp1,fd_set *readset,fd_set *writeset,fd_set *exceptset,const struct timeval *timeout)
從select API中我們可以看到,select系統(tǒng)調(diào)用是在規(guī)定的超時時間內(nèi),監(jiān)聽(輪詢)用戶感興趣的文件描述符集合上的可讀,可寫,異常三類事件。
- maxfdp1 : select傳遞給內(nèi)核監(jiān)聽的文件描述符集合中數(shù)值最大的文件描述符+1,目的是用于限定內(nèi)核遍歷范圍。比如:select監(jiān)聽的文件描述符集合為{0,1,2,3,4},那么maxfdp1的值為5。
- fd_set *readset: 對可讀事件感興趣的文件描述符集合。
- fd_set *writeset: 對可寫事件感興趣的文件描述符集合。
- fd_set *exceptset:對可寫事件感興趣的文件描述符集合。
這里的fd_set就是我們前邊提到的文件描述符數(shù)組,是一個BitMap結(jié)構(gòu)。
- const struct timeval *timeout:select系統(tǒng)調(diào)用超時時間,在這段時間內(nèi),內(nèi)核如果沒有發(fā)現(xiàn)有IO就緒的文件描述符,就直接返回。
上小節(jié)提到,在內(nèi)核遍歷完fd數(shù)組后,發(fā)現(xiàn)有IO就緒的fd,則會將該fd對應(yīng)的BitMap中的值設(shè)置為1,并將修改后的fd數(shù)組,返回給用戶線程。
在用戶線程中需要重新遍歷fd數(shù)組,找出IO就緒的fd出來,然后發(fā)起真正的讀寫調(diào)用。
下面介紹下在用戶線程中重新遍歷fd數(shù)組的過程中,我們需要用到的API:
- void FD_ZERO(fd_set *fdset):清空指定的文件描述符集合,即讓fd_set中不在包含任何文件描述符。
- void FD_SET(int fd, fd_set *fdset):將一個給定的文件描述符加入集合之中。
每次調(diào)用select之前都要通過FD_ZERO和FD_SET重新設(shè)置文件描述符,因為文件描述符集合會在內(nèi)核中被修改。
- int FD_ISSET(int fd, fd_set *fdset):檢查集合中指定的文件描述符是否可以讀寫。用戶線程遍歷文件描述符集合,調(diào)用該方法檢查相應(yīng)的文件描述符是否IO就緒。
- void FD_CLR(int fd, fd_set *fdset):將一個給定的文件描述符從集合中刪除
性能開銷
雖然select解決了非阻塞IO模型中頻繁發(fā)起系統(tǒng)調(diào)用的問題,但是在整個select工作過程中,我們還是看出了select有些不足的地方。
- 在發(fā)起select系統(tǒng)調(diào)用以及返回時,用戶線程各發(fā)生了一次用戶態(tài)到內(nèi)核態(tài)以及內(nèi)核態(tài)到用戶態(tài)的上下文切換開銷。發(fā)生2次上下文切換
- 在發(fā)起select系統(tǒng)調(diào)用以及返回時,用戶線程在內(nèi)核態(tài)需要將文件描述符集合從用戶空間拷貝到內(nèi)核空間。以及在內(nèi)核修改完文件描述符集合后,又要將它從內(nèi)核空間拷貝到用戶空間。發(fā)生2次文件描述符集合的拷貝
- 雖然由原來在用戶空間發(fā)起輪詢優(yōu)化成了在內(nèi)核空間發(fā)起輪詢但select不會告訴用戶線程到底是哪些Socket上發(fā)生了IO就緒事件,只是對IO就緒的Socket作了標(biāo)記,用戶線程依然要遍歷文件描述符集合去查找具體IO就緒的Socket。時間復(fù)雜度依然為O(n)。
大部分情況下,網(wǎng)絡(luò)連接并不總是活躍的,如果select監(jiān)聽了大量的客戶端連接,只有少數(shù)的連接活躍,然而使用輪詢的這種方式會隨著連接數(shù)的增大,效率會越來越低。
- 內(nèi)核會對原始的文件描述符集合進行修改。導(dǎo)致每次在用戶空間重新發(fā)起select調(diào)用時,都需要對文件描述符集合進行重置。
- BitMap結(jié)構(gòu)的文件描述符集合,長度為固定的1024,所以只能監(jiān)聽0~1023的文件描述符。
- select系統(tǒng)調(diào)用 不是線程安全的。
以上select的不足所產(chǎn)生的性能開銷都會隨著并發(fā)量的增大而線性增長。
很明顯select也不能解決C10K問題,只適用于1000個左右的并發(fā)連接場景。
poll
poll相當(dāng)于是改進版的select,但是工作原理基本和select沒有本質(zhì)的區(qū)別。
int poll(struct pollfd *fds, unsigned int nfds, int timeout)
struct pollfd {
int fd; /* 文件描述符 */
short events; /* 需要監(jiān)聽的事件 */
short revents; /* 實際發(fā)生的事件 由內(nèi)核修改設(shè)置 */
};select中使用的文件描述符集合是采用的固定長度為1024的BitMap結(jié)構(gòu)的fd_set,而poll換成了一個pollfd結(jié)構(gòu)沒有固定長度的數(shù)組,這樣就沒有了最大描述符數(shù)量的限制(當(dāng)然還會受到系統(tǒng)文件描述符限制)。
poll只是改進了select只能監(jiān)聽1024個文件描述符的數(shù)量限制,但是并沒有在性能方面做出改進。和select上本質(zhì)并沒有多大差別。
- 同樣需要在內(nèi)核空間和用戶空間中對文件描述符集合進行輪詢,查找出IO就緒的Socket的時間復(fù)雜度依然為O(n)。
- 同樣需要將包含大量文件描述符的集合整體在用戶空間和內(nèi)核空間之間來回復(fù)制,無論這些文件描述符是否就緒。他們的開銷都會隨著文件描述符數(shù)量的增加而線性增大。
- select,poll在每次新增,刪除需要監(jiān)聽的socket時,都需要將整個新的socket集合全量傳至內(nèi)核。
poll同樣不適用高并發(fā)的場景。依然無法解決C10K問題。
epoll
通過上邊對select,poll核心原理的介紹,我們看到select,poll的性能瓶頸主要體現(xiàn)在下面三個地方:
- 因為內(nèi)核不會保存我們要監(jiān)聽的socket集合,所以在每次調(diào)用select,poll的時候都需要傳入,傳出全量的socket文件描述符集合。這導(dǎo)致了大量的文件描述符在用戶空間和內(nèi)核空間頻繁的來回復(fù)制。
- 由于內(nèi)核不會通知具體IO就緒的socket,只是在這些IO就緒的socket上打好標(biāo)記,所以當(dāng)select系統(tǒng)調(diào)用返回時,在用戶空間還是需要完整遍歷一遍socket文件描述符集合來獲取具體IO就緒的socket。
- 在內(nèi)核空間中也是通過遍歷的方式來得到IO就緒的socket。
下面我們來看下epoll是如何解決這些問題的。在介紹epoll的核心原理之前,我們需要介紹下理解epoll工作過程所需要的一些核心基礎(chǔ)知識。
Socket的創(chuàng)建
服務(wù)端線程調(diào)用accept系統(tǒng)調(diào)用后開始阻塞,當(dāng)有客戶端連接上來并完成TCP三次握手后,內(nèi)核會創(chuàng)建一個對應(yīng)的Socket作為服務(wù)端與客戶端通信的內(nèi)核接口。
在Linux內(nèi)核的角度看來,一切皆是文件,Socket也不例外,當(dāng)內(nèi)核創(chuàng)建出Socket之后,會將這個Socket放到當(dāng)前進程所打開的文件列表中管理起來。
下面我們來看下進程管理這些打開的文件列表相關(guān)的內(nèi)核數(shù)據(jù)結(jié)構(gòu)是什么樣的?在了解完這些數(shù)據(jù)結(jié)構(gòu)后,我們會更加清晰的理解Socket在內(nèi)核中所發(fā)揮的作用。并且對后面我們理解epoll的創(chuàng)建過程有很大的幫助。
進程中管理文件列表結(jié)構(gòu)
struct tast_struct是內(nèi)核中用來表示進程的一個數(shù)據(jù)結(jié)構(gòu),它包含了進程的所有信息。本小節(jié)我們只列出和文件管理相關(guān)的屬性。
其中進程內(nèi)打開的所有文件是通過一個數(shù)組fd_array來進行組織管理,數(shù)組的下標(biāo)即為我們常提到的文件描述符,數(shù)組中存放的是對應(yīng)的文件數(shù)據(jù)結(jié)構(gòu)struct file。每打開一個文件,內(nèi)核都會創(chuàng)建一個struct file與之對應(yīng),并在fd_array中找到一個空閑位置分配給它,數(shù)組中對應(yīng)的下標(biāo),就是我們在用戶空間用到的文件描述符。
對于任何一個進程,默認(rèn)情況下,文件描述符 0表示 stdin 標(biāo)準(zhǔn)輸入,文件描述符 1表示stdout 標(biāo)準(zhǔn)輸出,文件描述符2表示stderr 標(biāo)準(zhǔn)錯誤輸出。
進程中打開的文件列表fd_array定義在內(nèi)核數(shù)據(jù)結(jié)構(gòu)struct files_struct中,在struct fdtable結(jié)構(gòu)中有一個指針struct fd **fd指向fd_array。
由于本小節(jié)討論的是內(nèi)核網(wǎng)絡(luò)系統(tǒng)部分的數(shù)據(jù)結(jié)構(gòu),所以這里拿Socket文件類型來舉例說明:
用于封裝文件元信息的內(nèi)核數(shù)據(jù)結(jié)構(gòu)struct file中的private_data指針指向具體的Socket結(jié)構(gòu)。
struct file中的file_operations屬性定義了文件的操作函數(shù),不同的文件類型,對應(yīng)的file_operations是不同的,針對Socket文件類型,這里的file_operations指向socket_file_ops。
我們在用戶空間對Socket發(fā)起的讀寫等系統(tǒng)調(diào)用,進入內(nèi)核首先會調(diào)用的是Socket對應(yīng)的struct file中指向的socket_file_ops。比如:對Socket發(fā)起write寫操作,在內(nèi)核中首先被調(diào)用的就是socket_file_ops中定義的sock_write_iter。Socket發(fā)起read讀操作內(nèi)核中對應(yīng)的則是sock_read_iter。
static const struct file_operations socket_file_ops = {
.owner = THIS_MODULE,
.llseek = no_llseek,
.read_iter = sock_read_iter,
.write_iter = sock_write_iter,
.poll = sock_poll,
.unlocked_ioctl = sock_ioctl,
.mmap = sock_mmap,
.release = sock_close,
.fasync = sock_fasync,
.sendpage = sock_sendpage,
.splice_write = generic_splice_sendpage,
.splice_read = sock_splice_read,
};
Socket內(nèi)核結(jié)構(gòu)
在我們進行網(wǎng)絡(luò)程序的編寫時會首先創(chuàng)建一個Socket,然后基于這個Socket進行bind,listen,我們先將這個Socket稱作為監(jiān)聽Socket。
當(dāng)我們調(diào)用accept后,內(nèi)核會基于監(jiān)聽Socket創(chuàng)建出來一個新的Socket專門用于與客戶端之間的網(wǎng)絡(luò)通信。并將監(jiān)聽Socket中的Socket操作函數(shù)集合(inet_stream_ops)ops賦值到新的Socket的ops屬性中。
const struct proto_ops inet_stream_ops = {
.bind = inet_bind,
.connect = inet_stream_connect,
.accept = inet_accept,
.poll = tcp_poll,
.listen = inet_listen,
.sendmsg = inet_sendmsg,
.recvmsg = inet_recvmsg,
......
}這里需要注意的是,監(jiān)聽的 socket和真正用來網(wǎng)絡(luò)通信的 Socket,是兩個 Socket,一個叫作監(jiān)聽 Socket,一個叫作已連接的Socket。
接著內(nèi)核會為已連接的Socket創(chuàng)建struct file并初始化,并把Socket文件操作函數(shù)集合(socket_file_ops)賦值給struct file中的f_ops指針。然后將struct socket中的file指針指向這個新分配申請的struct file結(jié)構(gòu)體。
內(nèi)核會維護兩個隊列:
- 一個是已經(jīng)完成TCP三次握手,連接狀態(tài)處于established的連接隊列。內(nèi)核中為icsk_accept_queue。
- 一個是還沒有完成TCP三次握手,連接狀態(tài)處于syn_rcvd的半連接隊列。
然后調(diào)用socket->ops->accept,從Socket內(nèi)核結(jié)構(gòu)圖中我們可以看到其實調(diào)用的是inet_accept,該函數(shù)會在icsk_accept_queue中查找是否有已經(jīng)建立好的連接,如果有的話,直接從icsk_accept_queue中獲取已經(jīng)創(chuàng)建好的struct sock。并將這個struct sock對象賦值給struct socket中的sock指針。
struct sock在struct socket中是一個非常核心的內(nèi)核對象,正是在這里定義了我們在介紹網(wǎng)絡(luò)包的接收發(fā)送流程中提到的接收隊列,發(fā)送隊列,等待隊列,數(shù)據(jù)就緒回調(diào)函數(shù)指針,內(nèi)核協(xié)議棧操作函數(shù)集合
- 根據(jù)創(chuàng)建Socket時發(fā)起的系統(tǒng)調(diào)用sock_create中的protocol參數(shù)(對于TCP協(xié)議這里的參數(shù)值為SOCK_STREAM)查找到對于 tcp 定義的操作方法實現(xiàn)集合inet_stream_ops 和tcp_prot。并把它們分別設(shè)置到socket->ops和sock->sk_prot上。
這里可以回看下本小節(jié)開頭的《Socket內(nèi)核結(jié)構(gòu)圖》捋一下他們之間的關(guān)系。
socket相關(guān)的操作接口定義在inet_stream_ops函數(shù)集合中,負(fù)責(zé)對上給用戶提供接口。而socket與內(nèi)核協(xié)議棧之間的操作接口定義在struct sock中的sk_prot指針上,這里指向tcp_prot協(xié)議操作函數(shù)集合。
struct proto tcp_prot = {
.name = "TCP",
.owner = THIS_MODULE,
.close = tcp_close,
.connect = tcp_v4_connect,
.disconnect = tcp_disconnect,
.accept = inet_csk_accept,
.keepalive = tcp_set_keepalive,
.recvmsg = tcp_recvmsg,
.sendmsg = tcp_sendmsg,
.backlog_rcv = tcp_v4_do_rcv,
......
}之前提到的對Socket發(fā)起的系統(tǒng)IO調(diào)用,在內(nèi)核中首先會調(diào)用Socket的文件結(jié)構(gòu)struct file中的file_operations文件操作集合,然后調(diào)用struct socket中的ops指向的inet_stream_opssocket操作函數(shù),最終調(diào)用到struct sock中sk_prot指針指向的tcp_prot內(nèi)核協(xié)議棧操作函數(shù)接口集合。
- 將struct sock 對象中的sk_data_ready 函數(shù)指針設(shè)置為 sock_def_readable,在Socket數(shù)據(jù)就緒的時候內(nèi)核會回調(diào)該函數(shù)。
- struct sock中的等待隊列中存放的是系統(tǒng)IO調(diào)用發(fā)生阻塞的進程fd,以及相應(yīng)的回調(diào)函數(shù)。記住這個地方,后邊介紹epoll的時候我們還會提到!
當(dāng)struct file,struct socket,struct sock這些核心的內(nèi)核對象創(chuàng)建好之后,最后就是把socket對象對應(yīng)的struct file放到進程打開的文件列表fd_array中。隨后系統(tǒng)調(diào)用accept返回socket的文件描述符fd給用戶程序。
阻塞IO中用戶進程阻塞以及喚醒原理
在前邊小節(jié)我們介紹阻塞IO的時候提到,當(dāng)用戶進程發(fā)起系統(tǒng)IO調(diào)用時,這里我們拿read舉例,用戶進程會在內(nèi)核態(tài)查看對應(yīng)Socket接收緩沖區(qū)是否有數(shù)據(jù)到來。
- Socket接收緩沖區(qū)有數(shù)據(jù),則拷貝數(shù)據(jù)到用戶空間,系統(tǒng)調(diào)用返回。
- Socket接收緩沖區(qū)沒有數(shù)據(jù),則用戶進程讓出CPU進入阻塞狀態(tài),當(dāng)數(shù)據(jù)到達(dá)接收緩沖區(qū)時,用戶進程會被喚醒,從阻塞狀態(tài)進入就緒狀態(tài),等待CPU調(diào)度。
本小節(jié)我們就來看下用戶進程是如何阻塞在Socket上,又是如何在Socket上被喚醒的。理解這個過程很重要,對我們理解epoll的事件通知過程很有幫助
- 首先我們在用戶進程中對Socket進行read系統(tǒng)調(diào)用時,用戶進程會從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)。
- 在進程的struct task_struct結(jié)構(gòu)找到fd_array,并根據(jù)Socket的文件描述符fd找到對應(yīng)的struct file,調(diào)用struct file中的文件操作函數(shù)結(jié)合file_operations,read系統(tǒng)調(diào)用對應(yīng)的是sock_read_iter。
- 在sock_read_iter函數(shù)中找到struct file指向的struct socket,并調(diào)用socket->ops->recvmsg,這里我們知道調(diào)用的是inet_stream_ops集合中定義的inet_recvmsg。
- 在inet_recvmsg中會找到struct sock,并調(diào)用sock->skprot->recvmsg,這里調(diào)用的是tcp_prot集合中定義的tcp_recvmsg函數(shù)。
整個調(diào)用過程可以參考上邊的《系統(tǒng)IO調(diào)用結(jié)構(gòu)圖》。
熟悉了內(nèi)核函數(shù)調(diào)用棧后,我們來看下系統(tǒng)IO調(diào)用在tcp_recvmsg內(nèi)核函數(shù)中是如何將用戶進程給阻塞掉的。
int tcp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,
size_t len, int nonblock, int flags, int *addr_len)
{
.................省略非核心代碼...............
//訪問sock對象中定義的接收隊列
skb_queue_walk(&sk->sk_receive_queue, skb) {
.................省略非核心代碼...............
//沒有收到足夠數(shù)據(jù),調(diào)用sk_wait_data 阻塞當(dāng)前進程
sk_wait_data(sk, &timeo);
}
int sk_wait_data(struct sock *sk, long *timeo)
{
//創(chuàng)建struct sock中等待隊列上的元素wait_queue_t
//將進程描述符和回調(diào)函數(shù)autoremove_wake_function關(guān)聯(lián)到wait_queue_t中
DEFINE_WAIT(wait);
// 調(diào)用 sk_sleep 獲取 sock 對象下的等待隊列的頭指針wait_queue_head_t
// 調(diào)用prepare_to_wait將新創(chuàng)建的等待項wait_queue_t插入到等待隊列中,并將進程狀態(tài)設(shè)置為可打斷 INTERRUPTIBLE
prepare_to_wait(sk_sleep(sk), &wait, TASK_INTERRUPTIBLE);
set_bit(SOCK_ASYNC_WAITDATA, &sk->sk_socket->flags);
// 通過調(diào)用schedule_timeout讓出CPU,然后進行睡眠,導(dǎo)致一次上下文切換
rc = sk_wait_event(sk, timeo, !skb_queue_empty(&sk->sk_receive_queue));
...
- 首先會在DEFINE_WAIT中創(chuàng)建struct sock中等待隊列上的等待類型wait_queue_t。
#define DEFINE_WAIT(name) DEFINE_WAIT_FUNC(name, autoremove_wake_function)
#define DEFINE_WAIT_FUNC(name, function) \
wait_queue_t name = { \
.private = current, \
.func = function, \
.task_list = LIST_HEAD_INIT(
本文名稱:聊聊Netty那些事兒之從內(nèi)核角度看IO模型
文章來源:http://www.5511xx.com/article/dphpejj.html


咨詢
建站咨詢
