在线播放av有码,亚洲线路一网址二

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

聊聊Netty那些事兒之從內(nèi)核角度看IO模型

從今天開始我們來(lái)聊聊Netty的那些事兒，我們都知道Netty是一個(gè)高性能異步事件驅(qū)動(dòng)的網(wǎng)絡(luò)框架。

創(chuàng)新互聯(lián)成立與2013年，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項(xiàng)目成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)網(wǎng)站策劃，項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命，1280元順義做網(wǎng)站,已為上家服務(wù),為順義各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:13518219792

它的設(shè)計(jì)異常優(yōu)雅簡(jiǎn)潔，擴(kuò)展性高，穩(wěn)定性強(qiáng)。擁有非常詳細(xì)完整的用戶文檔。

同時(shí)內(nèi)置了很多非常有用的模塊基本上做到了開箱即用，用戶只需要編寫短短幾行代碼，就可以快速構(gòu)建出一個(gè)具有高吞吐，低延時(shí)，更少的資源消耗，高性能(非必要的內(nèi)存拷貝最小化)等特征的高并發(fā)網(wǎng)絡(luò)應(yīng)用程序。

本文我們來(lái)探討下支持Netty具有高吞吐，低延時(shí)特征的基石----netty的網(wǎng)絡(luò)IO模型。

由Netty的網(wǎng)絡(luò)IO模型開始，我們來(lái)正式揭開本系列Netty源碼解析的序幕：

網(wǎng)絡(luò)包接收流程

當(dāng)網(wǎng)絡(luò)數(shù)據(jù)幀通過(guò)網(wǎng)絡(luò)傳輸?shù)竭_(dá)網(wǎng)卡時(shí)，網(wǎng)卡會(huì)將網(wǎng)絡(luò)數(shù)據(jù)幀通過(guò)DMA的方式放到環(huán)形緩沖區(qū)RingBuffer中。

RingBuffer是網(wǎng)卡在啟動(dòng)的時(shí)候分配和初始化的環(huán)形緩沖隊(duì)列。當(dāng)RingBuffer滿的時(shí)候，新來(lái)的數(shù)據(jù)包就會(huì)被丟棄。我們可以通過(guò)ifconfig命令查看網(wǎng)卡收發(fā)數(shù)據(jù)包的情況。其中overruns數(shù)據(jù)項(xiàng)表示當(dāng)RingBuffer滿時(shí)，被丟棄的數(shù)據(jù)包。如果發(fā)現(xiàn)出現(xiàn)丟包情況，可以通過(guò)ethtool命令來(lái)增大RingBuffer長(zhǎng)度。

當(dāng)DMA操作完成時(shí)，網(wǎng)卡會(huì)向CPU發(fā)起一個(gè)硬中斷，告訴CPU有網(wǎng)絡(luò)數(shù)據(jù)到達(dá)。CPU調(diào)用網(wǎng)卡驅(qū)動(dòng)注冊(cè)的硬中斷響應(yīng)程序。網(wǎng)卡硬中斷響應(yīng)程序會(huì)為網(wǎng)絡(luò)數(shù)據(jù)幀創(chuàng)建內(nèi)核數(shù)據(jù)結(jié)構(gòu)sk_buffer，并將網(wǎng)絡(luò)數(shù)據(jù)幀拷貝到sk_buffer中。然后發(fā)起軟中斷請(qǐng)求，通知內(nèi)核有新的網(wǎng)絡(luò)數(shù)據(jù)幀到達(dá)。

sk_buff緩沖區(qū)，是一個(gè)維護(hù)網(wǎng)絡(luò)幀結(jié)構(gòu)的雙向鏈表，鏈表中的每一個(gè)元素都是一個(gè)網(wǎng)絡(luò)幀。雖然 TCP/IP 協(xié)議棧分了好幾層，但上下不同層之間的傳遞，實(shí)際上只需要操作這個(gè)數(shù)據(jù)結(jié)構(gòu)中的指針，而無(wú)需進(jìn)行數(shù)據(jù)復(fù)制。

內(nèi)核線程ksoftirqd發(fā)現(xiàn)有軟中斷請(qǐng)求到來(lái)，隨后調(diào)用網(wǎng)卡驅(qū)動(dòng)注冊(cè)的poll函數(shù)，poll函數(shù)將sk_buffer中的網(wǎng)絡(luò)數(shù)據(jù)包送到內(nèi)核協(xié)議棧中注冊(cè)的ip_rcv函數(shù)中。

每個(gè)CPU會(huì)綁定一個(gè)ksoftirqd內(nèi)核線程專門用來(lái)處理軟中斷響應(yīng)。2個(gè) CPU 時(shí)，就會(huì)有 ksoftirqd/0 和 ksoftirqd/1這兩個(gè)內(nèi)核線程。

這里有個(gè)事情需要注意下：網(wǎng)卡接收到數(shù)據(jù)后，當(dāng)DMA拷貝完成時(shí)，向CPU發(fā)出硬中斷，這時(shí)哪個(gè)CPU上響應(yīng)了這個(gè)硬中斷，那么在網(wǎng)卡硬中斷響應(yīng)程序中發(fā)出的軟中斷請(qǐng)求也會(huì)在這個(gè)CPU綁定的ksoftirqd線程中響應(yīng)。所以如果發(fā)現(xiàn)Linux軟中斷，CPU消耗都集中在一個(gè)核上的話，那么就需要調(diào)整硬中斷的CPU親和性，來(lái)將硬中斷打散到不通的CPU核上去。

在ip_rcv函數(shù)中也就是上圖中的網(wǎng)絡(luò)層，取出數(shù)據(jù)包的IP頭，判斷該數(shù)據(jù)包下一跳的走向，如果數(shù)據(jù)包是發(fā)送給本機(jī)的，則取出傳輸層的協(xié)議類型(TCP或者UDP)，并去掉數(shù)據(jù)包的IP頭，將數(shù)據(jù)包交給上圖中得傳輸層處理。

傳輸層的處理函數(shù)：TCP協(xié)議對(duì)應(yīng)內(nèi)核協(xié)議棧中注冊(cè)的tcp_rcv函數(shù)，UDP協(xié)議對(duì)應(yīng)內(nèi)核協(xié)議棧中注冊(cè)的udp_rcv函數(shù)。

當(dāng)我們采用的是TCP協(xié)議時(shí)，數(shù)據(jù)包到達(dá)傳輸層時(shí)，會(huì)在內(nèi)核協(xié)議棧中的tcp_rcv函數(shù)處理，在tcp_rcv函數(shù)中去掉TCP頭，根據(jù)四元組(源IP，源端口，目的IP，目的端口)查找對(duì)應(yīng)的Socket，如果找到對(duì)應(yīng)的Socket則將網(wǎng)絡(luò)數(shù)據(jù)包中的傳輸數(shù)據(jù)拷貝到Socket中的接收緩沖區(qū)中。如果沒(méi)有找到，則發(fā)送一個(gè)目標(biāo)不可達(dá)的icmp包。
內(nèi)核在接收網(wǎng)絡(luò)數(shù)據(jù)包時(shí)所做的工作我們就介紹完了，現(xiàn)在我們把視角放到應(yīng)用層，當(dāng)我們程序通過(guò)系統(tǒng)調(diào)用read讀取Socket接收緩沖區(qū)中的數(shù)據(jù)時(shí)，如果接收緩沖區(qū)中沒(méi)有數(shù)據(jù)，那么應(yīng)用程序就會(huì)在系統(tǒng)調(diào)用上阻塞，直到Socket接收緩沖區(qū)有數(shù)據(jù)，然后CPU將內(nèi)核空間(Socket接收緩沖區(qū))的數(shù)據(jù)拷貝到用戶空間，最后系統(tǒng)調(diào)用read返回，應(yīng)用程序讀取數(shù)據(jù)。

性能開銷

從內(nèi)核處理網(wǎng)絡(luò)數(shù)據(jù)包接收的整個(gè)過(guò)程來(lái)看，內(nèi)核幫我們做了非常之多的工作，最終我們的應(yīng)用程序才能讀取到網(wǎng)絡(luò)數(shù)據(jù)。

隨著而來(lái)的也帶來(lái)了很多的性能開銷，結(jié)合前面介紹的網(wǎng)絡(luò)數(shù)據(jù)包接收過(guò)程我們來(lái)看下網(wǎng)絡(luò)數(shù)據(jù)包接收的過(guò)程中都有哪些性能開銷：

應(yīng)用程序通過(guò)系統(tǒng)調(diào)用從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)的開銷以及系統(tǒng)調(diào)用返回時(shí)從內(nèi)核態(tài)轉(zhuǎn)為用戶態(tài)的開銷。
網(wǎng)絡(luò)數(shù)據(jù)從內(nèi)核空間通過(guò)CPU拷貝到用戶空間的開銷。
內(nèi)核線程ksoftirqd響應(yīng)軟中斷的開銷。
CPU響應(yīng)硬中斷的開銷。
DMA拷貝網(wǎng)絡(luò)數(shù)據(jù)包到內(nèi)存中的開銷。

網(wǎng)絡(luò)包發(fā)送流程

當(dāng)我們?cè)趹?yīng)用程序中調(diào)用send系統(tǒng)調(diào)用發(fā)送數(shù)據(jù)時(shí)，由于是系統(tǒng)調(diào)用所以線程會(huì)發(fā)生一次用戶態(tài)到內(nèi)核態(tài)的轉(zhuǎn)換，在內(nèi)核中首先根據(jù)fd將真正的Socket找出，這個(gè)Socket對(duì)象中記錄著各種協(xié)議棧的函數(shù)地址，然后構(gòu)造struct msghdr對(duì)象，將用戶需要發(fā)送的數(shù)據(jù)全部封裝在這個(gè)struct msghdr結(jié)構(gòu)體中。
調(diào)用內(nèi)核協(xié)議棧函數(shù)inet_sendmsg，發(fā)送流程進(jìn)入內(nèi)核協(xié)議棧處理。在進(jìn)入到內(nèi)核協(xié)議棧之后，內(nèi)核會(huì)找到Socket上的具體協(xié)議的發(fā)送函數(shù)。

比如：我們使用的是TCP協(xié)議，對(duì)應(yīng)的TCP協(xié)議發(fā)送函數(shù)是tcp_sendmsg，如果是UDP協(xié)議的話，對(duì)應(yīng)的發(fā)送函數(shù)為udp_sendmsg。

在TCP協(xié)議的發(fā)送函數(shù)tcp_sendmsg中，創(chuàng)建內(nèi)核數(shù)據(jù)結(jié)構(gòu)sk_buffer,將struct msghdr結(jié)構(gòu)體中的發(fā)送數(shù)據(jù)拷貝到sk_buffer中。調(diào)用tcp_write_queue_tail函數(shù)獲取Socket發(fā)送隊(duì)列中的隊(duì)尾元素，將新創(chuàng)建的sk_buffer添加到Socket發(fā)送隊(duì)列的尾部。

Socket的發(fā)送隊(duì)列是由sk_buffer組成的一個(gè)雙向鏈表。

發(fā)送流程走到這里，用戶要發(fā)送的數(shù)據(jù)總算是從用戶空間拷貝到了內(nèi)核中，這時(shí)雖然發(fā)送數(shù)據(jù)已經(jīng)拷貝到了內(nèi)核Socket中的發(fā)送隊(duì)列中，但并不代表內(nèi)核會(huì)開始發(fā)送，因?yàn)門CP協(xié)議的流量控制和擁塞控制，用戶要發(fā)送的數(shù)據(jù)包并不一定會(huì)立馬被發(fā)送出去，需要符合TCP協(xié)議的發(fā)送條件。如果沒(méi)有達(dá)到發(fā)送條件，那么本次send系統(tǒng)調(diào)用就會(huì)直接返回。

如果符合發(fā)送條件，則開始調(diào)用tcp_write_xmit內(nèi)核函數(shù)。在這個(gè)函數(shù)中，會(huì)循環(huán)獲取Socket發(fā)送隊(duì)列中待發(fā)送的sk_buffer，然后進(jìn)行擁塞控制以及滑動(dòng)窗口的管理。
將從Socket發(fā)送隊(duì)列中獲取到的sk_buffer重新拷貝一份，設(shè)置sk_buffer副本中的TCP HEADER。

sk_buffer 內(nèi)部其實(shí)包含了網(wǎng)絡(luò)協(xié)議中所有的 header。在設(shè)置 TCP HEADER的時(shí)候，只是把指針指向 sk_buffer的合適位置。后面再設(shè)置 IP HEADER的時(shí)候，在把指針移動(dòng)一下就行，避免頻繁的內(nèi)存申請(qǐng)和拷貝，效率很高。

為什么不直接使用Socket發(fā)送隊(duì)列中的sk_buffer而是需要拷貝一份呢?因?yàn)門CP協(xié)議是支持丟包重傳的，在沒(méi)有收到對(duì)端的ACK之前，這個(gè)sk_buffer是不能刪除的。內(nèi)核每次調(diào)用網(wǎng)卡發(fā)送數(shù)據(jù)的時(shí)候，實(shí)際上傳遞的是sk_buffer的拷貝副本，當(dāng)網(wǎng)卡把數(shù)據(jù)發(fā)送出去后，sk_buffer拷貝副本會(huì)被釋放。當(dāng)收到對(duì)端的ACK之后，Socket發(fā)送隊(duì)列中的sk_buffer才會(huì)被真正刪除。

當(dāng)設(shè)置完TCP頭后，內(nèi)核協(xié)議棧傳輸層的事情就做完了，下面通過(guò)調(diào)用ip_queue_xmit內(nèi)核函數(shù)，正式來(lái)到內(nèi)核協(xié)議棧網(wǎng)絡(luò)層的處理。

通過(guò)route命令可以查看本機(jī)路由配置。

如果你使用 iptables配置了一些規(guī)則，那么這里將檢測(cè)是否命中規(guī)則。如果你設(shè)置了非常復(fù)雜的 netfilter 規(guī)則，在這個(gè)函數(shù)里將會(huì)導(dǎo)致你的線程 CPU 開銷會(huì)極大增加。

將sk_buffer中的指針移動(dòng)到IP頭位置上，設(shè)置IP頭。
執(zhí)行netfilters過(guò)濾。過(guò)濾通過(guò)之后，如果數(shù)據(jù)大于 MTU的話，則執(zhí)行分片。
檢查Socket中是否有緩存路由表，如果沒(méi)有的話，則查找路由項(xiàng)，并緩存到Socket中。接著在把路由表設(shè)置到sk_buffer中。

內(nèi)核協(xié)議棧網(wǎng)絡(luò)層的事情處理完后，現(xiàn)在發(fā)送流程進(jìn)入了到了鄰居子系統(tǒng)，鄰居子系統(tǒng)位于內(nèi)核協(xié)議棧中的網(wǎng)絡(luò)層和網(wǎng)絡(luò)接口層之間，用于發(fā)送ARP請(qǐng)求獲取MAC地址，然后將sk_buffer中的指針移動(dòng)到MAC頭位置，填充MAC頭。

經(jīng)過(guò)鄰居子系統(tǒng)的處理，現(xiàn)在sk_buffer中已經(jīng)封裝了一個(gè)完整的數(shù)據(jù)幀，隨后內(nèi)核將sk_buffer交給網(wǎng)絡(luò)設(shè)備子系統(tǒng)進(jìn)行處理。網(wǎng)絡(luò)設(shè)備子系統(tǒng)主要做以下幾項(xiàng)事情：

選擇發(fā)送隊(duì)列(RingBuffer)。因?yàn)榫W(wǎng)卡擁有多個(gè)發(fā)送隊(duì)列，所以在發(fā)送前需要選擇一個(gè)發(fā)送隊(duì)列。
將sk_buffer添加到發(fā)送隊(duì)列中。
循環(huán)從發(fā)送隊(duì)列(RingBuffer)中取出sk_buffer，調(diào)用內(nèi)核函數(shù)sch_direct_xmit發(fā)送數(shù)據(jù)，其中會(huì)調(diào)用網(wǎng)卡驅(qū)動(dòng)程序來(lái)發(fā)送數(shù)據(jù)。

以上過(guò)程全部是用戶線程的內(nèi)核態(tài)在執(zhí)行，占用的CPU時(shí)間是系統(tǒng)態(tài)時(shí)間(sy)，當(dāng)分配給用戶線程的CPU quota用完的時(shí)候，會(huì)觸發(fā)NET_TX_SOFTIRQ類型的軟中斷，內(nèi)核線程ksoftirqd會(huì)響應(yīng)這個(gè)軟中斷，并執(zhí)行NET_TX_SOFTIRQ類型的軟中斷注冊(cè)的回調(diào)函數(shù)net_tx_action，在回調(diào)函數(shù)中會(huì)執(zhí)行到驅(qū)動(dòng)程序函數(shù) dev_hard_start_xmit來(lái)發(fā)送數(shù)據(jù)。

注意：當(dāng)觸發(fā)NET_TX_SOFTIRQ軟中斷來(lái)發(fā)送數(shù)據(jù)時(shí)，后邊消耗的 CPU 就都顯示在 si這里了，不會(huì)消耗用戶進(jìn)程的系統(tǒng)態(tài)時(shí)間(sy)了。

從這里可以看到網(wǎng)絡(luò)包的發(fā)送過(guò)程和接受過(guò)程是不同的，在介紹網(wǎng)絡(luò)包的接受過(guò)程時(shí)，我們提到是通過(guò)觸發(fā)NET_RX_SOFTIRQ類型的軟中斷在內(nèi)核線程ksoftirqd中執(zhí)行內(nèi)核網(wǎng)絡(luò)協(xié)議棧接受數(shù)據(jù)。而在網(wǎng)絡(luò)數(shù)據(jù)包的發(fā)送過(guò)程中是用戶線程的內(nèi)核態(tài)在執(zhí)行內(nèi)核網(wǎng)絡(luò)協(xié)議棧，只有當(dāng)線程的CPU quota用盡時(shí)，才觸發(fā)NET_TX_SOFTIRQ軟中斷來(lái)發(fā)送數(shù)據(jù)。

在整個(gè)網(wǎng)絡(luò)包的發(fā)送和接受過(guò)程中，NET_TX_SOFTIRQ類型的軟中斷只會(huì)在發(fā)送網(wǎng)絡(luò)包時(shí)并且當(dāng)用戶線程的CPU quota用盡時(shí)，才會(huì)觸發(fā)。剩下的接受過(guò)程中觸發(fā)的軟中斷類型以及發(fā)送完數(shù)據(jù)觸發(fā)的軟中斷類型均為NET_RX_SOFTIRQ。所以這就是你在服務(wù)器上查看 /proc/softirqs，一般 NET_RX都要比 NET_TX大很多的的原因。

現(xiàn)在發(fā)送流程終于到了網(wǎng)卡真實(shí)發(fā)送數(shù)據(jù)的階段，前邊我們講到無(wú)論是用戶線程的內(nèi)核態(tài)還是觸發(fā)NET_TX_SOFTIRQ類型的軟中斷在發(fā)送數(shù)據(jù)的時(shí)候最終會(huì)調(diào)用到網(wǎng)卡的驅(qū)動(dòng)程序函數(shù)dev_hard_start_xmit來(lái)發(fā)送數(shù)據(jù)。在網(wǎng)卡驅(qū)動(dòng)程序函數(shù)dev_hard_start_xmit中會(huì)將sk_buffer映射到網(wǎng)卡可訪問(wèn)的內(nèi)存 DMA 區(qū)域，最終網(wǎng)卡驅(qū)動(dòng)程序通過(guò)DMA的方式將數(shù)據(jù)幀通過(guò)物理網(wǎng)卡發(fā)送出去。
當(dāng)數(shù)據(jù)發(fā)送完畢后，還有最后一項(xiàng)重要的工作，就是清理工作。數(shù)據(jù)發(fā)送完畢后，網(wǎng)卡設(shè)備會(huì)向CPU發(fā)送一個(gè)硬中斷，CPU調(diào)用網(wǎng)卡驅(qū)動(dòng)程序注冊(cè)的硬中斷響應(yīng)程序，在硬中斷響應(yīng)中觸發(fā)NET_RX_SOFTIRQ類型的軟中斷，在軟中斷的回調(diào)函數(shù)igb_poll中清理釋放 sk_buffer，清理網(wǎng)卡發(fā)送隊(duì)列(RingBuffer)，解除 DMA 映射。

無(wú)論硬中斷是因?yàn)橛袛?shù)據(jù)要接收，還是說(shuō)發(fā)送完成通知，從硬中斷觸發(fā)的軟中斷都是 NET_RX_SOFTIRQ。

這里釋放清理的只是sk_buffer的副本，真正的sk_buffer現(xiàn)在還是存放在Socket的發(fā)送隊(duì)列中。前面在傳輸層處理的時(shí)候我們提到過(guò)，因?yàn)閭鬏攲有枰ＷC可靠性，所以 sk_buffer其實(shí)還沒(méi)有刪除。它得等收到對(duì)方的 ACK 之后才會(huì)真正刪除。

性能開銷

前邊我們提到了在網(wǎng)絡(luò)包接收過(guò)程中涉及到的性能開銷，現(xiàn)在介紹完了網(wǎng)絡(luò)包的發(fā)送過(guò)程，我們來(lái)看下在數(shù)據(jù)包發(fā)送過(guò)程中的性能開銷：

和接收數(shù)據(jù)一樣，應(yīng)用程序在調(diào)用系統(tǒng)調(diào)用send的時(shí)候會(huì)從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)以及發(fā)送完數(shù)據(jù)后，系統(tǒng)調(diào)用返回時(shí)從內(nèi)核態(tài)轉(zhuǎn)為用戶態(tài)的開銷。

用戶線程內(nèi)核態(tài)CPU quota用盡時(shí)觸發(fā)NET_TX_SOFTIRQ類型軟中斷，內(nèi)核響應(yīng)軟中斷的開銷。

網(wǎng)卡發(fā)送完數(shù)據(jù)，向CPU發(fā)送硬中斷，CPU響應(yīng)硬中斷的開銷。以及在硬中斷中發(fā)送NET_RX_SOFTIRQ軟中斷執(zhí)行具體的內(nèi)存清理動(dòng)作。內(nèi)核響應(yīng)軟中斷的開銷。

內(nèi)存拷貝的開銷。我們來(lái)回顧下在數(shù)據(jù)包發(fā)送的過(guò)程中都發(fā)生了哪些內(nèi)存拷貝：

在內(nèi)核協(xié)議棧的傳輸層中，TCP協(xié)議對(duì)應(yīng)的發(fā)送函數(shù)tcp_sendmsg會(huì)申請(qǐng)sk_buffer，將用戶要發(fā)送的數(shù)據(jù)拷貝到sk_buffer中。
在發(fā)送流程從傳輸層到網(wǎng)絡(luò)層的時(shí)候，會(huì)拷貝一個(gè)sk_buffer副本出來(lái)，將這個(gè)sk_buffer副本向下傳遞。原始sk_buffer保留在Socket發(fā)送隊(duì)列中，等待網(wǎng)絡(luò)對(duì)端ACK，對(duì)端ACK后刪除Socket發(fā)送隊(duì)列中的sk_buffer。對(duì)端沒(méi)有發(fā)送ACK，則重新從Socket發(fā)送隊(duì)列中發(fā)送，實(shí)現(xiàn)TCP協(xié)議的可靠傳輸。
在網(wǎng)絡(luò)層，如果發(fā)現(xiàn)要發(fā)送的數(shù)據(jù)大于MTU，則會(huì)進(jìn)行分片操作，申請(qǐng)額外的sk_buffer，并將原來(lái)的sk_buffer拷貝到多個(gè)小的sk_buffer中。

再談(阻塞，非阻塞)與(同步，異步)

在我們聊完網(wǎng)絡(luò)數(shù)據(jù)的接收和發(fā)送過(guò)程后，我們來(lái)談下IO中特別容易混淆的概念：阻塞與同步，非阻塞與異步。

網(wǎng)上各種博文還有各種書籍中有大量的關(guān)于這兩個(gè)概念的解釋，但是筆者覺(jué)得還是不夠形象化，只是對(duì)概念的生硬解釋，如果硬套概念的話，其實(shí)感覺(jué)阻塞與同步，非阻塞與異步還是沒(méi)啥區(qū)別，時(shí)間長(zhǎng)了，還是比較模糊容易混淆。

所以筆者在這里嘗試換一種更加形象化，更加容易理解記憶的方式來(lái)清晰地解釋下什么是阻塞與非阻塞，什么是同步與異步。

經(jīng)過(guò)前邊對(duì)網(wǎng)絡(luò)數(shù)據(jù)包接收流程的介紹，在這里我們可以將整個(gè)流程總結(jié)為兩個(gè)階段：

數(shù)據(jù)準(zhǔn)備階段： 在這個(gè)階段，網(wǎng)絡(luò)數(shù)據(jù)包到達(dá)網(wǎng)卡，通過(guò)DMA的方式將數(shù)據(jù)包拷貝到內(nèi)存中，然后經(jīng)過(guò)硬中斷，軟中斷，接著通過(guò)內(nèi)核線程ksoftirqd經(jīng)過(guò)內(nèi)核協(xié)議棧的處理，最終將數(shù)據(jù)發(fā)送到內(nèi)核Socket的接收緩沖區(qū)中。
數(shù)據(jù)拷貝階段： 當(dāng)數(shù)據(jù)到達(dá)內(nèi)核Socket的接收緩沖區(qū)中時(shí)，此時(shí)數(shù)據(jù)存在于內(nèi)核空間中，需要將數(shù)據(jù)拷貝到用戶空間中，才能夠被應(yīng)用程序讀取。

阻塞與非阻塞

阻塞與非阻塞的區(qū)別主要發(fā)生在第一階段：數(shù)據(jù)準(zhǔn)備階段。

當(dāng)應(yīng)用程序發(fā)起系統(tǒng)調(diào)用read時(shí)，線程從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)，讀取內(nèi)核Socket的接收緩沖區(qū)中的網(wǎng)絡(luò)數(shù)據(jù)。

阻塞

如果這時(shí)內(nèi)核Socket的接收緩沖區(qū)沒(méi)有數(shù)據(jù)，那么線程就會(huì)一直等待，直到Socket接收緩沖區(qū)有數(shù)據(jù)為止。隨后將數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間，系統(tǒng)調(diào)用read返回。

從圖中我們可以看出：阻塞的特點(diǎn)是在第一階段和第二階段都會(huì)等待。

非阻塞

阻塞和非阻塞主要的區(qū)分是在第一階段：數(shù)據(jù)準(zhǔn)備階段。

在第一階段，當(dāng)Socket的接收緩沖區(qū)中沒(méi)有數(shù)據(jù)的時(shí)候，阻塞模式下應(yīng)用線程會(huì)一直等待。非阻塞模式下應(yīng)用線程不會(huì)等待，系統(tǒng)調(diào)用直接返回錯(cuò)誤標(biāo)志EWOULDBLOCK。
當(dāng)Socket的接收緩沖區(qū)中有數(shù)據(jù)的時(shí)候，阻塞和非阻塞的表現(xiàn)是一樣的，都會(huì)進(jìn)入第二階段等待數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間，然后系統(tǒng)調(diào)用返回。

從上圖中，我們可以看出：非阻塞的特點(diǎn)是第一階段不會(huì)等待，但是在第二階段還是會(huì)等待。

同步與異步

同步與異步主要的區(qū)別發(fā)生在第二階段：數(shù)據(jù)拷貝階段。

前邊我們提到在數(shù)據(jù)拷貝階段主要是將數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間。然后應(yīng)用程序才可以讀取數(shù)據(jù)。

當(dāng)內(nèi)核Socket的接收緩沖區(qū)有數(shù)據(jù)到達(dá)時(shí)，進(jìn)入第二階段。

同步

同步模式在數(shù)據(jù)準(zhǔn)備好后，是由用戶線程的內(nèi)核態(tài)來(lái)執(zhí)行第二階段。所以應(yīng)用程序會(huì)在第二階段發(fā)生阻塞，直到數(shù)據(jù)從內(nèi)核空間拷貝到用戶空間，系統(tǒng)調(diào)用才會(huì)返回。

Linux下的 epoll和Mac 下的 kqueue都屬于同步 IO。

異步

異步模式下是由內(nèi)核來(lái)執(zhí)行第二階段的數(shù)據(jù)拷貝操作，當(dāng)內(nèi)核執(zhí)行完第二階段，會(huì)通知用戶線程IO操作已經(jīng)完成，并將數(shù)據(jù)回調(diào)給用戶線程。所以在異步模式下數(shù)據(jù)準(zhǔn)備階段和數(shù)據(jù)拷貝階段均是由內(nèi)核來(lái)完成，不會(huì)對(duì)應(yīng)用程序造成任何阻塞。

基于以上特征，我們可以看到異步模式需要內(nèi)核的支持，比較依賴操作系統(tǒng)底層的支持。

在目前流行的操作系統(tǒng)中，只有Windows 中的 IOCP才真正屬于異步 IO，實(shí)現(xiàn)的也非常成熟。但Windows很少用來(lái)作為服務(wù)器使用。

而常用來(lái)作為服務(wù)器使用的Linux，異步IO機(jī)制實(shí)現(xiàn)的不夠成熟，與NIO相比性能提升的也不夠明顯。

但Linux kernel 在5.1版本由Facebook的大神Jens Axboe引入了新的異步IO庫(kù)io_uring 改善了原來(lái)Linux native AIO的一些性能問(wèn)題。性能相比Epoll以及之前原生的AIO提高了不少，值得關(guān)注。

IO模型

在進(jìn)行網(wǎng)絡(luò)IO操作時(shí)，用什么樣的IO模型來(lái)讀寫數(shù)據(jù)將在很大程度上決定了網(wǎng)絡(luò)框架的IO性能。所以IO模型的選擇是構(gòu)建一個(gè)高性能網(wǎng)絡(luò)框架的基礎(chǔ)。

在《UNIX 網(wǎng)絡(luò)編程》一書中介紹了五種IO模型：阻塞IO,非阻塞IO,IO多路復(fù)用,信號(hào)驅(qū)動(dòng)IO,異步IO，每一種IO模型的出現(xiàn)都是對(duì)前一種的升級(jí)優(yōu)化。

下面我們就來(lái)分別介紹下這五種IO模型各自都解決了什么問(wèn)題，適用于哪些場(chǎng)景，各自的優(yōu)缺點(diǎn)是什么?

阻塞IO(BIO)

經(jīng)過(guò)前一小節(jié)對(duì)阻塞這個(gè)概念的介紹，相信大家可以很容易理解阻塞IO的概念和過(guò)程。

既然這小節(jié)我們談的是IO，那么下邊我們來(lái)看下在阻塞IO模型下，網(wǎng)絡(luò)數(shù)據(jù)的讀寫過(guò)程。

阻塞讀

當(dāng)用戶線程發(fā)起read系統(tǒng)調(diào)用，用戶線程從用戶態(tài)切換到內(nèi)核態(tài)，在內(nèi)核中去查看Socket接收緩沖區(qū)是否有數(shù)據(jù)到來(lái)。

Socket接收緩沖區(qū)中有數(shù)據(jù)，則用戶線程在內(nèi)核態(tài)將內(nèi)核空間中的數(shù)據(jù)拷貝到用戶空間，系統(tǒng)IO調(diào)用返回。
Socket接收緩沖區(qū)中無(wú)數(shù)據(jù)，則用戶線程讓出CPU，進(jìn)入阻塞狀態(tài)。當(dāng)數(shù)據(jù)到達(dá)Socket接收緩沖區(qū)后，內(nèi)核喚醒阻塞狀態(tài)中的用戶線程進(jìn)入就緒狀態(tài)，隨后經(jīng)過(guò)CPU的調(diào)度獲取到CPU quota進(jìn)入運(yùn)行狀態(tài)，將內(nèi)核空間的數(shù)據(jù)拷貝到用戶空間，隨后系統(tǒng)調(diào)用返回。

阻塞寫

當(dāng)用戶線程發(fā)起send系統(tǒng)調(diào)用時(shí)，用戶線程從用戶態(tài)切換到內(nèi)核態(tài)，將發(fā)送數(shù)據(jù)從用戶空間拷貝到內(nèi)核空間中的Socket發(fā)送緩沖區(qū)中。

當(dāng)Socket發(fā)送緩沖區(qū)能夠容納下發(fā)送數(shù)據(jù)時(shí)，用戶線程會(huì)將全部的發(fā)送數(shù)據(jù)寫入Socket緩沖區(qū)，然后執(zhí)行在《網(wǎng)絡(luò)包發(fā)送流程》這小節(jié)介紹的后續(xù)流程，然后返回。
當(dāng)Socket發(fā)送緩沖區(qū)空間不夠，無(wú)法容納下全部發(fā)送數(shù)據(jù)時(shí)，用戶線程讓出CPU,進(jìn)入阻塞狀態(tài)，直到Socket發(fā)送緩沖區(qū)能夠容納下全部發(fā)送數(shù)據(jù)時(shí)，內(nèi)核喚醒用戶線程，執(zhí)行后續(xù)發(fā)送流程。

阻塞IO模型下的寫操作做事風(fēng)格比較硬剛，非得要把全部的發(fā)送數(shù)據(jù)寫入發(fā)送緩沖區(qū)才肯善罷甘休。

阻塞IO模型

由于阻塞IO的讀寫特點(diǎn)，所以導(dǎo)致在阻塞IO模型下，每個(gè)請(qǐng)求都需要被一個(gè)獨(dú)立的線程處理。一個(gè)線程在同一時(shí)刻只能與一個(gè)連接綁定。來(lái)一個(gè)請(qǐng)求，服務(wù)端就需要?jiǎng)?chuàng)建一個(gè)線程用來(lái)處理請(qǐng)求。

當(dāng)客戶端請(qǐng)求的并發(fā)量突然增大時(shí)，服務(wù)端在一瞬間就會(huì)創(chuàng)建出大量的線程，而創(chuàng)建線程是需要系統(tǒng)資源開銷的，這樣一來(lái)就會(huì)一瞬間占用大量的系統(tǒng)資源。

如果客戶端創(chuàng)建好連接后，但是一直不發(fā)數(shù)據(jù)，通常大部分情況下，網(wǎng)絡(luò)連接也并不總是有數(shù)據(jù)可讀，那么在空閑的這段時(shí)間內(nèi)，服務(wù)端線程就會(huì)一直處于阻塞狀態(tài)，無(wú)法干其他的事情。CPU也無(wú)法得到充分的發(fā)揮，同時(shí)還會(huì)導(dǎo)致大量線程切換的開銷。

適用場(chǎng)景

基于以上阻塞IO模型的特點(diǎn)，該模型只適用于連接數(shù)少，并發(fā)度低的業(yè)務(wù)場(chǎng)景。

比如公司內(nèi)部的一些管理系統(tǒng)，通常請(qǐng)求數(shù)在100個(gè)左右，使用阻塞IO模型還是非常適合的。而且性能還不輸NIO。

該模型在C10K之前，是普遍被采用的一種IO模型。

非阻塞IO(NIO)

阻塞IO模型最大的問(wèn)題就是一個(gè)線程只能處理一個(gè)連接，如果這個(gè)連接上沒(méi)有數(shù)據(jù)的話，那么這個(gè)線程就只能阻塞在系統(tǒng)IO調(diào)用上，不能干其他的事情。這對(duì)系統(tǒng)資源來(lái)說(shuō)，是一種極大的浪費(fèi)。同時(shí)大量的線程上下文切換，也是一個(gè)巨大的系統(tǒng)開銷。

所以為了解決這個(gè)問(wèn)題，我們就需要用盡可能少的線程去處理更多的連接。，網(wǎng)絡(luò)IO模型的演變也是根據(jù)這個(gè)需求來(lái)一步一步演進(jìn)的。

基于這個(gè)需求，第一種解決方案非阻塞IO就出現(xiàn)了。我們?cè)谏弦恍」?jié)中介紹了非阻塞的概念，現(xiàn)在我們來(lái)看下網(wǎng)絡(luò)讀寫操作在非阻塞IO下的特點(diǎn)：

非阻塞讀

當(dāng)用戶線程發(fā)起非阻塞read系統(tǒng)調(diào)用時(shí)，用戶線程從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)，在內(nèi)核中去查看Socket接收緩沖區(qū)是否有數(shù)據(jù)到來(lái)。

Socket接收緩沖區(qū)中無(wú)數(shù)據(jù)，系統(tǒng)調(diào)用立馬返回，并帶有一個(gè) EWOULDBLOCK 或 EAGAIN錯(cuò)誤，這個(gè)階段用戶線程不會(huì)阻塞，也不會(huì)讓出CPU，而是會(huì)繼續(xù)輪訓(xùn)直到Socket接收緩沖區(qū)中有數(shù)據(jù)為止。
Socket接收緩沖區(qū)中有數(shù)據(jù)，用戶線程在內(nèi)核態(tài)會(huì)將內(nèi)核空間中的數(shù)據(jù)拷貝到用戶空間，注意這個(gè)數(shù)據(jù)拷貝階段，應(yīng)用程序是阻塞的，當(dāng)數(shù)據(jù)拷貝完成，系統(tǒng)調(diào)用返回。

非阻塞寫

前邊我們?cè)诮榻B阻塞寫的時(shí)候提到阻塞寫的風(fēng)格特別的硬朗，頭比較鐵非要把全部發(fā)送數(shù)據(jù)一次性都寫到Socket的發(fā)送緩沖區(qū)中才返回，如果發(fā)送緩沖區(qū)中沒(méi)有足夠的空間容納，那么就一直阻塞死等，特別的剛。

相比較而言非阻塞寫的特點(diǎn)就比較佛系，當(dāng)發(fā)送緩沖區(qū)中沒(méi)有足夠的空間容納全部發(fā)送數(shù)據(jù)時(shí)，非阻塞寫的特點(diǎn)是能寫多少寫多少，寫不下了，就立即返回。并將寫入到發(fā)送緩沖區(qū)的字節(jié)數(shù)返回給應(yīng)用程序，方便用戶線程不斷的輪訓(xùn)嘗試將剩下的數(shù)據(jù)寫入發(fā)送緩沖區(qū)中。

非阻塞IO模型

基于以上非阻塞IO的特點(diǎn)，我們就不必像阻塞IO那樣為每個(gè)請(qǐng)求分配一個(gè)線程去處理連接上的讀寫了。

我們可以利用一個(gè)線程或者很少的線程，去不斷地輪詢每個(gè)Socket的接收緩沖區(qū)是否有數(shù)據(jù)到達(dá)，如果沒(méi)有數(shù)據(jù)，不必阻塞線程，而是接著去輪詢下一個(gè)Socket接收緩沖區(qū)，直到輪詢到數(shù)據(jù)后，處理連接上的讀寫，或者交給業(yè)務(wù)線程池去處理，輪詢線程則繼續(xù)輪詢其他的Socket接收緩沖區(qū)。

這樣一個(gè)非阻塞IO模型就實(shí)現(xiàn)了我們?cè)诒拘」?jié)開始提出的需求：我們需要用盡可能少的線程去處理更多的連接。

適用場(chǎng)景

雖然非阻塞IO模型與阻塞IO模型相比，減少了很大一部分的資源消耗和系統(tǒng)開銷。

但是它仍然有很大的性能問(wèn)題，因?yàn)樵诜亲枞鸌O模型下，需要用戶線程去不斷地發(fā)起系統(tǒng)調(diào)用去輪訓(xùn)Socket接收緩沖區(qū)，這就需要用戶線程不斷地從用戶態(tài)切換到內(nèi)核態(tài)，內(nèi)核態(tài)切換到用戶態(tài)。隨著并發(fā)量的增大，這個(gè)上下文切換的開銷也是巨大的。

所以單純的非阻塞IO模型還是無(wú)法適用于高并發(fā)的場(chǎng)景。只能適用于C10K以下的場(chǎng)景。

IO多路復(fù)用

在非阻塞IO這一小節(jié)的開頭，我們提到網(wǎng)絡(luò)IO模型的演變都是圍繞著---如何用盡可能少的線程去處理更多的連接這個(gè)核心需求開始展開的。

本小節(jié)我們來(lái)談?wù)処O多路復(fù)用模型，那么什么是多路?，什么又是復(fù)用呢?

我們還是以這個(gè)核心需求來(lái)對(duì)這兩個(gè)概念展開闡述：

多路：我們的核心需求是要用盡可能少的線程來(lái)處理盡可能多的連接，這里的多路指的就是我們需要處理的眾多連接。
復(fù)用：核心需求要求我們使用盡可能少的線程，盡可能少的系統(tǒng)開銷去處理盡可能多的連接(多路)，那么這里的復(fù)用指的就是用有限的資源，比如用一個(gè)線程或者固定數(shù)量的線程去處理眾多連接上的讀寫事件。換句話說(shuō)，在阻塞IO模型中一個(gè)連接就需要分配一個(gè)獨(dú)立的線程去專門處理這個(gè)連接上的讀寫，到了IO多路復(fù)用模型中，多個(gè)連接可以復(fù)用這一個(gè)獨(dú)立的線程去處理這多個(gè)連接上的讀寫。

好了，IO多路復(fù)用模型的概念解釋清楚了，那么問(wèn)題的關(guān)鍵是我們?nèi)绾稳?shí)現(xiàn)這個(gè)復(fù)用，也就是如何讓一個(gè)獨(dú)立的線程去處理眾多連接上的讀寫事件呢?

這個(gè)問(wèn)題其實(shí)在非阻塞IO模型中已經(jīng)給出了它的答案，在非阻塞IO模型中，利用非阻塞的系統(tǒng)IO調(diào)用去不斷的輪詢眾多連接的Socket接收緩沖區(qū)看是否有數(shù)據(jù)到來(lái)，如果有則處理，如果沒(méi)有則繼續(xù)輪詢下一個(gè)Socket。這樣就達(dá)到了用一個(gè)線程去處理眾多連接上的讀寫事件了。

但是非阻塞IO模型最大的問(wèn)題就是需要不斷的發(fā)起系統(tǒng)調(diào)用去輪詢各個(gè)Socket中的接收緩沖區(qū)是否有數(shù)據(jù)到來(lái)，頻繁的系統(tǒng)調(diào)用隨之帶來(lái)了大量的上下文切換開銷。隨著并發(fā)量的提升，這樣也會(huì)導(dǎo)致非常嚴(yán)重的性能問(wèn)題。

那么如何避免頻繁的系統(tǒng)調(diào)用同時(shí)又可以實(shí)現(xiàn)我們的核心需求呢?

這就需要操作系統(tǒng)的內(nèi)核來(lái)支持這樣的操作，我們可以把頻繁的輪詢操作交給操作系統(tǒng)內(nèi)核來(lái)替我們完成，這樣就避免了在用戶空間頻繁的去使用系統(tǒng)調(diào)用來(lái)輪詢所帶來(lái)的性能開銷。

正如我們所想，操作系統(tǒng)內(nèi)核也確實(shí)為我們提供了這樣的功能實(shí)現(xiàn)，下面我們來(lái)一起看下操作系統(tǒng)對(duì)IO多路復(fù)用模型的實(shí)現(xiàn)。

select

select是操作系統(tǒng)內(nèi)核提供給我們使用的一個(gè)系統(tǒng)調(diào)用，它解決了在非阻塞IO模型中需要不斷的發(fā)起系統(tǒng)IO調(diào)用去輪詢各個(gè)連接上的Socket接收緩沖區(qū)所帶來(lái)的用戶空間與內(nèi)核空間不斷切換的系統(tǒng)開銷。

select系統(tǒng)調(diào)用將輪詢的操作交給了內(nèi)核來(lái)幫助我們完成，從而避免了在用戶空間不斷的發(fā)起輪詢所帶來(lái)的的系統(tǒng)性能開銷。

首先用戶線程在發(fā)起select系統(tǒng)調(diào)用的時(shí)候會(huì)阻塞在select系統(tǒng)調(diào)用上。此時(shí)，用戶線程從用戶態(tài)切換到了內(nèi)核態(tài)完成了一次上下文切換。
用戶線程將需要監(jiān)聽的Socket對(duì)應(yīng)的文件描述符fd數(shù)組通過(guò)select系統(tǒng)調(diào)用傳遞給內(nèi)核。此時(shí)，用戶線程將用戶空間中的文件描述符fd數(shù)組拷貝到內(nèi)核空間。

這里的文件描述符數(shù)組其實(shí)是一個(gè)BitMap，BitMap下標(biāo)為文件描述符fd，下標(biāo)對(duì)應(yīng)的值為：1表示該fd上有讀寫事件，0表示該fd上沒(méi)有讀寫事件。

文件描述符fd其實(shí)就是一個(gè)整數(shù)值，在Linux中一切皆文件，Socket也是一個(gè)文件。描述進(jìn)程所有信息的數(shù)據(jù)結(jié)構(gòu)task_struct中有一個(gè)屬性struct files_struct *files，它最終指向了一個(gè)數(shù)組，數(shù)組里存放了進(jìn)程打開的所有文件列表，文件信息封裝在struct file結(jié)構(gòu)體中，這個(gè)數(shù)組存放的類型就是struct file結(jié)構(gòu)體，數(shù)組的下標(biāo)則是我們常說(shuō)的文件描述符fd。

當(dāng)用戶線程調(diào)用完select后開始進(jìn)入阻塞狀態(tài)，內(nèi)核開始輪詢遍歷fd數(shù)組，查看fd對(duì)應(yīng)的Socket接收緩沖區(qū)中是否有數(shù)據(jù)到來(lái)。如果有數(shù)據(jù)到來(lái)，則將fd對(duì)應(yīng)BitMap的值設(shè)置為1。如果沒(méi)有數(shù)據(jù)到來(lái)，則保持值為0。

注意：這里內(nèi)核會(huì)修改原始的fd數(shù)組!!

內(nèi)核遍歷一遍fd數(shù)組后，如果發(fā)現(xiàn)有些fd上有IO數(shù)據(jù)到來(lái)，則將修改后的fd數(shù)組返回給用戶線程。此時(shí)，會(huì)將fd數(shù)組從內(nèi)核空間拷貝到用戶空間。
當(dāng)內(nèi)核將修改后的fd數(shù)組返回給用戶線程后，用戶線程解除阻塞，由用戶線程開始遍歷fd數(shù)組然后找出fd數(shù)組中值為1的Socket文件描述符。最后對(duì)這些Socket發(fā)起系統(tǒng)調(diào)用讀取數(shù)據(jù)。

select不會(huì)告訴用戶線程具體哪些fd上有IO數(shù)據(jù)到來(lái)，只是在IO活躍的fd上打上標(biāo)記，將打好標(biāo)記的完整fd數(shù)組返回給用戶線程，所以用戶線程還需要遍歷fd數(shù)組找出具體哪些fd上有IO數(shù)據(jù)到來(lái)。

由于內(nèi)核在遍歷的過(guò)程中已經(jīng)修改了fd數(shù)組，所以在用戶線程遍歷完fd數(shù)組后獲取到IO就緒的Socket后，就需要重置fd數(shù)組，并重新調(diào)用select傳入重置后的fd數(shù)組，讓內(nèi)核發(fā)起新的一輪遍歷輪詢。

API介紹

當(dāng)我們熟悉了select的原理后，就很容易理解內(nèi)核給我們提供的select API了。

 int select(int maxfdp1,fd_set *readset,fd_set *writeset,fd_set *exceptset,const struct timeval *timeout)

從select API中我們可以看到，select系統(tǒng)調(diào)用是在規(guī)定的超時(shí)時(shí)間內(nèi)，監(jiān)聽(輪詢)用戶感興趣的文件描述符集合上的可讀,可寫,異常三類事件。

maxfdp1 ： select傳遞給內(nèi)核監(jiān)聽的文件描述符集合中數(shù)值最大的文件描述符+1，目的是用于限定內(nèi)核遍歷范圍。比如：select監(jiān)聽的文件描述符集合為{0,1,2,3,4}，那么maxfdp1的值為5。
fd_set *readset： 對(duì)可讀事件感興趣的文件描述符集合。
fd_set *writeset： 對(duì)可寫事件感興趣的文件描述符集合。
fd_set *exceptset：對(duì)可寫事件感興趣的文件描述符集合。

這里的fd_set就是我們前邊提到的文件描述符數(shù)組，是一個(gè)BitMap結(jié)構(gòu)。

const struct timeval *timeout：select系統(tǒng)調(diào)用超時(shí)時(shí)間，在這段時(shí)間內(nèi)，內(nèi)核如果沒(méi)有發(fā)現(xiàn)有IO就緒的文件描述符，就直接返回。

上小節(jié)提到，在內(nèi)核遍歷完fd數(shù)組后，發(fā)現(xiàn)有IO就緒的fd，則會(huì)將該fd對(duì)應(yīng)的BitMap中的值設(shè)置為1，并將修改后的fd數(shù)組，返回給用戶線程。

在用戶線程中需要重新遍歷fd數(shù)組，找出IO就緒的fd出來(lái)，然后發(fā)起真正的讀寫調(diào)用。

下面介紹下在用戶線程中重新遍歷fd數(shù)組的過(guò)程中，我們需要用到的API：

void FD_ZERO(fd_set *fdset)：清空指定的文件描述符集合，即讓fd_set中不在包含任何文件描述符。
void FD_SET(int fd, fd_set *fdset)：將一個(gè)給定的文件描述符加入集合之中。

每次調(diào)用select之前都要通過(guò)FD_ZERO和FD_SET重新設(shè)置文件描述符，因?yàn)槲募枋龇蠒?huì)在內(nèi)核中被修改。

int FD_ISSET(int fd, fd_set *fdset)：檢查集合中指定的文件描述符是否可以讀寫。用戶線程遍歷文件描述符集合,調(diào)用該方法檢查相應(yīng)的文件描述符是否IO就緒。
void FD_CLR(int fd, fd_set *fdset)：將一個(gè)給定的文件描述符從集合中刪除

性能開銷

雖然select解決了非阻塞IO模型中頻繁發(fā)起系統(tǒng)調(diào)用的問(wèn)題，但是在整個(gè)select工作過(guò)程中，我們還是看出了select有些不足的地方。

在發(fā)起select系統(tǒng)調(diào)用以及返回時(shí)，用戶線程各發(fā)生了一次用戶態(tài)到內(nèi)核態(tài)以及內(nèi)核態(tài)到用戶態(tài)的上下文切換開銷。發(fā)生2次上下文切換
在發(fā)起select系統(tǒng)調(diào)用以及返回時(shí)，用戶線程在內(nèi)核態(tài)需要將文件描述符集合從用戶空間拷貝到內(nèi)核空間。以及在內(nèi)核修改完文件描述符集合后，又要將它從內(nèi)核空間拷貝到用戶空間。發(fā)生2次文件描述符集合的拷貝
雖然由原來(lái)在用戶空間發(fā)起輪詢優(yōu)化成了在內(nèi)核空間發(fā)起輪詢但select不會(huì)告訴用戶線程到底是哪些Socket上發(fā)生了IO就緒事件，只是對(duì)IO就緒的Socket作了標(biāo)記，用戶線程依然要遍歷文件描述符集合去查找具體IO就緒的Socket。時(shí)間復(fù)雜度依然為O(n)。

大部分情況下，網(wǎng)絡(luò)連接并不總是活躍的，如果select監(jiān)聽了大量的客戶端連接，只有少數(shù)的連接活躍，然而使用輪詢的這種方式會(huì)隨著連接數(shù)的增大，效率會(huì)越來(lái)越低。

內(nèi)核會(huì)對(duì)原始的文件描述符集合進(jìn)行修改。導(dǎo)致每次在用戶空間重新發(fā)起select調(diào)用時(shí)，都需要對(duì)文件描述符集合進(jìn)行重置。
BitMap結(jié)構(gòu)的文件描述符集合，長(zhǎng)度為固定的1024,所以只能監(jiān)聽0~1023的文件描述符。
select系統(tǒng)調(diào)用不是線程安全的。

以上select的不足所產(chǎn)生的性能開銷都會(huì)隨著并發(fā)量的增大而線性增長(zhǎng)。

很明顯select也不能解決C10K問(wèn)題，只適用于1000個(gè)左右的并發(fā)連接場(chǎng)景。

poll

poll相當(dāng)于是改進(jìn)版的select，但是工作原理基本和select沒(méi)有本質(zhì)的區(qū)別。

int poll(struct pollfd *fds, unsigned int nfds, int timeout)

struct pollfd {
    int   fd;         /* 文件描述符 */
    short events;     /* 需要監(jiān)聽的事件 */
    short revents;    /* 實(shí)際發(fā)生的事件 由內(nèi)核修改設(shè)置 */
};

select中使用的文件描述符集合是采用的固定長(zhǎng)度為1024的BitMap結(jié)構(gòu)的fd_set，而poll換成了一個(gè)pollfd結(jié)構(gòu)沒(méi)有固定長(zhǎng)度的數(shù)組，這樣就沒(méi)有了最大描述符數(shù)量的限制(當(dāng)然還會(huì)受到系統(tǒng)文件描述符限制)。

poll只是改進(jìn)了select只能監(jiān)聽1024個(gè)文件描述符的數(shù)量限制，但是并沒(méi)有在性能方面做出改進(jìn)。和select上本質(zhì)并沒(méi)有多大差別。

同樣需要在內(nèi)核空間和用戶空間中對(duì)文件描述符集合進(jìn)行輪詢，查找出IO就緒的Socket的時(shí)間復(fù)雜度依然為O(n)。
同樣需要將包含大量文件描述符的集合整體在用戶空間和內(nèi)核空間之間來(lái)回復(fù)制，無(wú)論這些文件描述符是否就緒。他們的開銷都會(huì)隨著文件描述符數(shù)量的增加而線性增大。
select，poll在每次新增，刪除需要監(jiān)聽的socket時(shí)，都需要將整個(gè)新的socket集合全量傳至內(nèi)核。

poll同樣不適用高并發(fā)的場(chǎng)景。依然無(wú)法解決C10K問(wèn)題。

epoll

通過(guò)上邊對(duì)select,poll核心原理的介紹，我們看到select,poll的性能瓶頸主要體現(xiàn)在下面三個(gè)地方：

因?yàn)閮?nèi)核不會(huì)保存我們要監(jiān)聽的socket集合，所以在每次調(diào)用select,poll的時(shí)候都需要傳入，傳出全量的socket文件描述符集合。這導(dǎo)致了大量的文件描述符在用戶空間和內(nèi)核空間頻繁的來(lái)回復(fù)制。
由于內(nèi)核不會(huì)通知具體IO就緒的socket，只是在這些IO就緒的socket上打好標(biāo)記，所以當(dāng)select系統(tǒng)調(diào)用返回時(shí)，在用戶空間還是需要完整遍歷一遍socket文件描述符集合來(lái)獲取具體IO就緒的socket。
在內(nèi)核空間中也是通過(guò)遍歷的方式來(lái)得到IO就緒的socket。

下面我們來(lái)看下epoll是如何解決這些問(wèn)題的。在介紹epoll的核心原理之前，我們需要介紹下理解epoll工作過(guò)程所需要的一些核心基礎(chǔ)知識(shí)。

Socket的創(chuàng)建

服務(wù)端線程調(diào)用accept系統(tǒng)調(diào)用后開始阻塞，當(dāng)有客戶端連接上來(lái)并完成TCP三次握手后，內(nèi)核會(huì)創(chuàng)建一個(gè)對(duì)應(yīng)的Socket作為服務(wù)端與客戶端通信的內(nèi)核接口。

在Linux內(nèi)核的角度看來(lái)，一切皆是文件，Socket也不例外，當(dāng)內(nèi)核創(chuàng)建出Socket之后，會(huì)將這個(gè)Socket放到當(dāng)前進(jìn)程所打開的文件列表中管理起來(lái)。

下面我們來(lái)看下進(jìn)程管理這些打開的文件列表相關(guān)的內(nèi)核數(shù)據(jù)結(jié)構(gòu)是什么樣的?在了解完這些數(shù)據(jù)結(jié)構(gòu)后，我們會(huì)更加清晰的理解Socket在內(nèi)核中所發(fā)揮的作用。并且對(duì)后面我們理解epoll的創(chuàng)建過(guò)程有很大的幫助。

進(jìn)程中管理文件列表結(jié)構(gòu)

struct tast_struct是內(nèi)核中用來(lái)表示進(jìn)程的一個(gè)數(shù)據(jù)結(jié)構(gòu)，它包含了進(jìn)程的所有信息。本小節(jié)我們只列出和文件管理相關(guān)的屬性。

其中進(jìn)程內(nèi)打開的所有文件是通過(guò)一個(gè)數(shù)組fd_array來(lái)進(jìn)行組織管理，數(shù)組的下標(biāo)即為我們常提到的文件描述符，數(shù)組中存放的是對(duì)應(yīng)的文件數(shù)據(jù)結(jié)構(gòu)struct file。每打開一個(gè)文件，內(nèi)核都會(huì)創(chuàng)建一個(gè)struct file與之對(duì)應(yīng)，并在fd_array中找到一個(gè)空閑位置分配給它，數(shù)組中對(duì)應(yīng)的下標(biāo)，就是我們?cè)谟脩艨臻g用到的文件描述符。

對(duì)于任何一個(gè)進(jìn)程，默認(rèn)情況下，文件描述符 0表示 stdin 標(biāo)準(zhǔn)輸入，文件描述符 1表示stdout 標(biāo)準(zhǔn)輸出，文件描述符2表示stderr 標(biāo)準(zhǔn)錯(cuò)誤輸出。

進(jìn)程中打開的文件列表fd_array定義在內(nèi)核數(shù)據(jù)結(jié)構(gòu)struct files_struct中，在struct fdtable結(jié)構(gòu)中有一個(gè)指針struct fd **fd指向fd_array。

由于本小節(jié)討論的是內(nèi)核網(wǎng)絡(luò)系統(tǒng)部分的數(shù)據(jù)結(jié)構(gòu)，所以這里拿Socket文件類型來(lái)舉例說(shuō)明：

用于封裝文件元信息的內(nèi)核數(shù)據(jù)結(jié)構(gòu)struct file中的private_data指針指向具體的Socket結(jié)構(gòu)。

struct file中的file_operations屬性定義了文件的操作函數(shù)，不同的文件類型，對(duì)應(yīng)的file_operations是不同的，針對(duì)Socket文件類型，這里的file_operations指向socket_file_ops。

我們?cè)谟脩艨臻g對(duì)Socket發(fā)起的讀寫等系統(tǒng)調(diào)用，進(jìn)入內(nèi)核首先會(huì)調(diào)用的是Socket對(duì)應(yīng)的struct file中指向的socket_file_ops。比如：對(duì)Socket發(fā)起write寫操作，在內(nèi)核中首先被調(diào)用的就是socket_file_ops中定義的sock_write_iter。Socket發(fā)起read讀操作內(nèi)核中對(duì)應(yīng)的則是sock_read_iter。

static const struct file_operations socket_file_ops = {
  .owner =  THIS_MODULE,
  .llseek =  no_llseek,
  .read_iter =  sock_read_iter,
  .write_iter =  sock_write_iter,
  .poll =    sock_poll,
  .unlocked_ioctl = sock_ioctl,
  .mmap =    sock_mmap,
  .release =  sock_close,
  .fasync =  sock_fasync,
  .sendpage =  sock_sendpage,
  .splice_write = generic_splice_sendpage,
  .splice_read =  sock_splice_read,
};

Socket內(nèi)核結(jié)構(gòu)

在我們進(jìn)行網(wǎng)絡(luò)程序的編寫時(shí)會(huì)首先創(chuàng)建一個(gè)Socket，然后基于這個(gè)Socket進(jìn)行bind，listen，我們先將這個(gè)Socket稱作為監(jiān)聽Socket。

當(dāng)我們調(diào)用accept后，內(nèi)核會(huì)基于監(jiān)聽Socket創(chuàng)建出來(lái)一個(gè)新的Socket專門用于與客戶端之間的網(wǎng)絡(luò)通信。并將監(jiān)聽Socket中的Socket操作函數(shù)集合(inet_stream_ops)ops賦值到新的Socket的ops屬性中。

const struct proto_ops inet_stream_ops = {
  .bind = inet_bind,
  .connect = inet_stream_connect,
  .accept = inet_accept,
  .poll = tcp_poll,
  .listen = inet_listen,
  .sendmsg = inet_sendmsg,
  .recvmsg = inet_recvmsg,
  ......
}

這里需要注意的是，監(jiān)聽的 socket和真正用來(lái)網(wǎng)絡(luò)通信的 Socket，是兩個(gè) Socket，一個(gè)叫作監(jiān)聽 Socket，一個(gè)叫作已連接的Socket。

接著內(nèi)核會(huì)為已連接的Socket創(chuàng)建struct file并初始化，并把Socket文件操作函數(shù)集合(socket_file_ops)賦值給struct file中的f_ops指針。然后將struct socket中的file指針指向這個(gè)新分配申請(qǐng)的struct file結(jié)構(gòu)體。

內(nèi)核會(huì)維護(hù)兩個(gè)隊(duì)列：

一個(gè)是已經(jīng)完成TCP三次握手，連接狀態(tài)處于established的連接隊(duì)列。內(nèi)核中為icsk_accept_queue。
一個(gè)是還沒(méi)有完成TCP三次握手，連接狀態(tài)處于syn_rcvd的半連接隊(duì)列。

然后調(diào)用socket->ops->accept，從Socket內(nèi)核結(jié)構(gòu)圖中我們可以看到其實(shí)調(diào)用的是inet_accept，該函數(shù)會(huì)在icsk_accept_queue中查找是否有已經(jīng)建立好的連接，如果有的話，直接從icsk_accept_queue中獲取已經(jīng)創(chuàng)建好的struct sock。并將這個(gè)struct sock對(duì)象賦值給struct socket中的sock指針。

struct sock在struct socket中是一個(gè)非常核心的內(nèi)核對(duì)象，正是在這里定義了我們?cè)诮榻B網(wǎng)絡(luò)包的接收發(fā)送流程中提到的接收隊(duì)列，發(fā)送隊(duì)列，等待隊(duì)列，數(shù)據(jù)就緒回調(diào)函數(shù)指針，內(nèi)核協(xié)議棧操作函數(shù)集合

根據(jù)創(chuàng)建Socket時(shí)發(fā)起的系統(tǒng)調(diào)用sock_create中的protocol參數(shù)(對(duì)于TCP協(xié)議這里的參數(shù)值為SOCK_STREAM)查找到對(duì)于 tcp 定義的操作方法實(shí)現(xiàn)集合inet_stream_ops 和tcp_prot。并把它們分別設(shè)置到socket->ops和sock->sk_prot上。

這里可以回看下本小節(jié)開頭的《Socket內(nèi)核結(jié)構(gòu)圖》捋一下他們之間的關(guān)系。

socket相關(guān)的操作接口定義在inet_stream_ops函數(shù)集合中，負(fù)責(zé)對(duì)上給用戶提供接口。而socket與內(nèi)核協(xié)議棧之間的操作接口定義在struct sock中的sk_prot指針上，這里指向tcp_prot協(xié)議操作函數(shù)集合。

struct proto tcp_prot = {
  .name      = "TCP",
  .owner      = THIS_MODULE,
  .close      = tcp_close,
  .connect    = tcp_v4_connect,
  .disconnect    = tcp_disconnect,
  .accept      = inet_csk_accept,
  .keepalive    = tcp_set_keepalive,
  .recvmsg    = tcp_recvmsg,
  .sendmsg    = tcp_sendmsg,
  .backlog_rcv    = tcp_v4_do_rcv,
   ......
}

之前提到的對(duì)Socket發(fā)起的系統(tǒng)IO調(diào)用，在內(nèi)核中首先會(huì)調(diào)用Socket的文件結(jié)構(gòu)struct file中的file_operations文件操作集合，然后調(diào)用struct socket中的ops指向的inet_stream_opssocket操作函數(shù)，最終調(diào)用到struct sock中sk_prot指針指向的tcp_prot內(nèi)核協(xié)議棧操作函數(shù)接口集合。

將struct sock 對(duì)象中的sk_data_ready 函數(shù)指針設(shè)置為 sock_def_readable，在Socket數(shù)據(jù)就緒的時(shí)候內(nèi)核會(huì)回調(diào)該函數(shù)。
struct sock中的等待隊(duì)列中存放的是系統(tǒng)IO調(diào)用發(fā)生阻塞的進(jìn)程fd，以及相應(yīng)的回調(diào)函數(shù)。記住這個(gè)地方，后邊介紹epoll的時(shí)候我們還會(huì)提到!

當(dāng)struct file，struct socket，struct sock這些核心的內(nèi)核對(duì)象創(chuàng)建好之后，最后就是把socket對(duì)象對(duì)應(yīng)的struct file放到進(jìn)程打開的文件列表fd_array中。隨后系統(tǒng)調(diào)用accept返回socket的文件描述符fd給用戶程序。

阻塞IO中用戶進(jìn)程阻塞以及喚醒原理

在前邊小節(jié)我們介紹阻塞IO的時(shí)候提到，當(dāng)用戶進(jìn)程發(fā)起系統(tǒng)IO調(diào)用時(shí)，這里我們拿read舉例，用戶進(jìn)程會(huì)在內(nèi)核態(tài)查看對(duì)應(yīng)Socket接收緩沖區(qū)是否有數(shù)據(jù)到來(lái)。

Socket接收緩沖區(qū)有數(shù)據(jù)，則拷貝數(shù)據(jù)到用戶空間，系統(tǒng)調(diào)用返回。
Socket接收緩沖區(qū)沒(méi)有數(shù)據(jù)，則用戶進(jìn)程讓出CPU進(jìn)入阻塞狀態(tài)，當(dāng)數(shù)據(jù)到達(dá)接收緩沖區(qū)時(shí)，用戶進(jìn)程會(huì)被喚醒，從阻塞狀態(tài)進(jìn)入就緒狀態(tài)，等待CPU調(diào)度。

本小節(jié)我們就來(lái)看下用戶進(jìn)程是如何阻塞在Socket上，又是如何在Socket上被喚醒的。理解這個(gè)過(guò)程很重要，對(duì)我們理解epoll的事件通知過(guò)程很有幫助

首先我們?cè)谟脩暨M(jìn)程中對(duì)Socket進(jìn)行read系統(tǒng)調(diào)用時(shí)，用戶進(jìn)程會(huì)從用戶態(tài)轉(zhuǎn)為內(nèi)核態(tài)。
在進(jìn)程的struct task_struct結(jié)構(gòu)找到fd_array，并根據(jù)Socket的文件描述符fd找到對(duì)應(yīng)的struct file，調(diào)用struct file中的文件操作函數(shù)結(jié)合file_operations，read系統(tǒng)調(diào)用對(duì)應(yīng)的是sock_read_iter。
在sock_read_iter函數(shù)中找到struct file指向的struct socket，并調(diào)用socket->ops->recvmsg，這里我們知道調(diào)用的是inet_stream_ops集合中定義的inet_recvmsg。
在inet_recvmsg中會(huì)找到struct sock，并調(diào)用sock->skprot->recvmsg,這里調(diào)用的是tcp_prot集合中定義的tcp_recvmsg函數(shù)。

整個(gè)調(diào)用過(guò)程可以參考上邊的《系統(tǒng)IO調(diào)用結(jié)構(gòu)圖》。

熟悉了內(nèi)核函數(shù)調(diào)用棧后，我們來(lái)看下系統(tǒng)IO調(diào)用在tcp_recvmsg內(nèi)核函數(shù)中是如何將用戶進(jìn)程給阻塞掉的。

int tcp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,
  size_t len, int nonblock, int flags, int *addr_len)
{
    .................省略非核心代碼...............
   //訪問(wèn)sock對(duì)象中定義的接收隊(duì)列
  skb_queue_walk(&sk->sk_receive_queue, skb) {

    .................省略非核心代碼...............

  //沒(méi)有收到足夠數(shù)據(jù)，調(diào)用sk_wait_data 阻塞當(dāng)前進(jìn)程
  sk_wait_data(sk, &timeo);
}

int sk_wait_data(struct sock *sk, long *timeo)
{
 //創(chuàng)建struct sock中等待隊(duì)列上的元素wait_queue_t
 //將進(jìn)程描述符和回調(diào)函數(shù)autoremove_wake_function關(guān)聯(lián)到wait_queue_t中
 DEFINE_WAIT(wait);

 // 調(diào)用 sk_sleep 獲取 sock 對(duì)象下的等待隊(duì)列的頭指針wait_queue_head_t
 // 調(diào)用prepare_to_wait將新創(chuàng)建的等待項(xiàng)wait_queue_t插入到等待隊(duì)列中，并將進(jìn)程狀態(tài)設(shè)置為可打斷 INTERRUPTIBLE
 prepare_to_wait(sk_sleep(sk), &wait, TASK_INTERRUPTIBLE);
 set_bit(SOCK_ASYNC_WAITDATA, &sk->sk_socket->flags);

 // 通過(guò)調(diào)用schedule_timeout讓出CPU，然后進(jìn)行睡眠，導(dǎo)致一次上下文切換
 rc = sk_wait_event(sk, timeo, !skb_queue_empty(&sk->sk_receive_queue));
 ...

首先會(huì)在DEFINE_WAIT中創(chuàng)建struct sock中等待隊(duì)列上的等待類型wait_queue_t。

#define DEFINE_WAIT(name) DEFINE_WAIT_FUNC(name, autoremove_wake_function)

#define DEFINE_WAIT_FUNC(name, function)    \
 wait_queue_t name = {      \
  .private = current,    \
  .func  = function,    \
  .task_list = LIST_HEAD_INIT(                                                

                                                本文標(biāo)題：聊聊Netty那些事兒之從內(nèi)核角度看IO模型                                                

                                                文章URL：http://www.5511xx.com/article/dphpejj.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

網(wǎng)絡(luò)包接收流程

性能開銷

網(wǎng)絡(luò)包發(fā)送流程

性能開銷

再談(阻塞，非阻塞)與(同步，異步)

阻塞與非阻塞

阻塞

非阻塞

同步與異步

同步

異步

IO模型

阻塞IO(BIO)

阻塞讀

阻塞寫

阻塞IO模型

適用場(chǎng)景

非阻塞IO(NIO)

非阻塞讀

非阻塞寫

非阻塞IO模型

適用場(chǎng)景

IO多路復(fù)用

select

API介紹

性能開銷

poll

epoll

Socket的創(chuàng)建

進(jìn)程中管理文件列表結(jié)構(gòu)

Socket內(nèi)核結(jié)構(gòu)

阻塞IO中用戶進(jìn)程阻塞以及喚醒原理

其他資訊

新聞中心

網(wǎng)絡(luò)包接收流程

性能開銷

網(wǎng)絡(luò)包發(fā)送流程

性能開銷

再談(阻塞，非阻塞)與(同步，異步)

阻塞與非阻塞

阻塞

非阻塞

同步與異步

同步

異步

IO模型

阻塞IO(BIO)

阻塞讀

阻塞寫

阻塞IO模型

適用場(chǎng)景

非阻塞IO(NIO)

非阻塞讀

非阻塞寫

非阻塞IO模型

適用場(chǎng)景

IO多路復(fù)用

select

API介紹

性能開銷

poll

epoll

Socket的創(chuàng)建

進(jìn)程中管理文件列表結(jié)構(gòu)

Socket內(nèi)核結(jié)構(gòu)

阻塞IO中用戶進(jìn)程阻塞以及喚醒原理

其他資訊

再談(阻塞，非阻塞)與(同步，異步)