日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網營銷解決方案
Docker網絡基礎|虛擬網絡設備對(Veth)原理

docker 網絡基礎 | 虛擬網絡設備對(Veth)原理

作者: songsong001 2021-05-30 07:55:26
云計算
虛擬化 在容器化大行其道的今天,Docker 可謂是容器界的寵兒。比起笨重的虛擬機,Docker 可謂是身輕如燕。

本文轉載自微信公眾號「Linux內核那些事」,作者songsong001。轉載本文請聯(lián)系Linux內核那些事公眾號。

在容器化大行其道的今天,Docker 可謂是容器界的寵兒。比起笨重的虛擬機,Docker 可謂是身輕如燕。當然,本文不是介紹虛擬機與 Docker 之間的優(yōu)缺點,而是介紹 Docker 網絡中重要的組成部分之一:

虛擬網絡設備對:veth

在介紹 veth 前,我們先來介紹一下 網絡命名空間(network namespace)。

網絡命名空間

網絡命名空間 是 Linux 內核用來隔離不同容器間的網絡資源(每個 Docker 容器都擁有一個獨立的網絡命名空間),網絡命名空間主要隔離的資源包括:

  • iptables規(guī)則表
  • 路由規(guī)則表
  • 網絡設備列表

如下圖所示,當系統(tǒng)中擁有 3 個網絡命名空間:

由于不同的網絡命名空間之間是相互隔離的,所以不同的網絡命名空間之間并不能直接通信。比如在 網絡命名空間A 配置了一個 IP 地址為 172.17.42.1 的設備,但在 網絡命名空間B 里卻不能訪問,如下圖所示:

就好比兩臺電腦,如果沒有任何網線連接,它們之間是不能通信的。所以,Linux 內核提供了 虛擬網絡設備對(veth) 這個功能,用于解決不同網絡命名空間之間的通信。

虛擬網絡設備對(veth)

虛擬網絡設備對 用于解決不同網絡命名空間之間的通信,可以將其看成是兩塊有網線連接的網卡。只要將其中一塊網卡放置到網絡命名空間A,另外一塊網卡放置到網絡命名空間B,那么兩個不同的網絡命名空間就能夠通信,如下圖所示:

如上圖所示,veth0 與 veth1 組成一個虛擬網絡設備對。虛擬網絡設備對 就像管道一樣,只要向其中一端發(fā)送數(shù)據,就可以從另外一端接收到數(shù)據。

Docker 就是使用 虛擬網絡設備對 來實現(xiàn)不同容器之間的通信,其原理如下圖:

從上圖可以看出,每個容器之間并不是直接通過 虛擬網絡設備對 來進行連接的,而是在主機上創(chuàng)建一個名為 docker0 的 網橋,然后通過 虛擬網絡設備對 來將各個容器連接到 網橋 上。網橋 有將多個 網絡設備 連接起來的能力,就如現(xiàn)實中的 交換機 一樣。

當然,本文的主題是 veth 的實現(xiàn),而不是 網橋 的現(xiàn)實,所以對 網橋 的介紹就此結束,有興趣可以參考《Linux網橋工作原理與實現(xiàn)》一文。

虛擬網絡設備對實現(xiàn)

在 Linux 內核中,使用 net_device 對象來表示一個網絡設備。由于 veth 提供雙向通信的功能,所以需要使用兩個 net_device 對象來實現(xiàn)。由于 net_device 對象比較龐大,所以這里只列出本文相關的字段:

  
 
 
 
  1. struct net_device 
  2.     char name[IFNAMSIZ]; 
  3.     ... 
  4.     const struct net_device_ops *netdev_ops; 
  5.     ... 

下面介紹一下這兩個字段的作用:

  • name:用來存儲設備的名稱,如 eth0。
  • netdev_ops:設備相關的操作接口列表,如初始化設備的接口、關閉設備的接口和發(fā)送數(shù)據的接口等。

由于 veth 由兩個 net_device 對象組成的,所以這兩個 net_device 對象應該有指向對方的指針。但通過查閱代碼,并沒發(fā)現(xiàn)有指向對方的指針,那么內核是怎么實現(xiàn) veth 的呢?

雖然 Linux 內核使用 net_device 對象來表示一個網絡設備,但由于不同廠商的網絡設備可能存在各種差異,所以為了讓 Linux 內核能夠適應各種網絡設備,故為不同的網絡設備提供私有數(shù)據的存儲空間。

也就是說,一個網絡設備除了擁有 net_device 部分外,還有其私有數(shù)據部分。不同的網絡設備其私有數(shù)據部分不同,而網絡設備的私有數(shù)據部分存一般放在 net_device 對象的結束位置,如下圖所示:

上圖展示了 PCMCIA網卡 和 RTL-8139網卡 對應的私有數(shù)據部分存儲的位置,PCMCIA網卡 的私有數(shù)據部分對應的是 pcnet_dev_t 結構,而 RTL-8139網卡 的私有數(shù)據部分對應的是 rtl8139_private 結構。

回到我們的主題,虛擬網絡設備對 的私有數(shù)據部分由 veth_priv 結構表示,其定義如下:

  
 
 
 
  1. struct veth_priv { 
  2.     struct net_device *peer; 
  3.     struct veth_net_stats *stats; 
  4.     ... 
  5. }; 

下面介紹一下 veth_priv 結構各個字段的作用:

  • peer:由于 虛擬網絡設備對 是由一對網絡設備組成,所以此字段用于指向設備對的另外一個設備。
  • stats:用于保存統(tǒng)計信息。

從 veth_priv 結構可以看出,虛擬網絡設備對 所屬的兩個設備對象是由 peer 字段來關聯(lián)起來的,如下圖所示:

1. 創(chuàng)建虛擬網絡設備對

當使用 ip 命令創(chuàng)建一對 虛擬網絡設備對 時,會觸發(fā)調用 veth_newlink 函數(shù)來完成創(chuàng)建工作,其實現(xiàn)如下:

  
 
 
 
  1. static int 
  2. veth_newlink(struct net_device *dev, struct nlattr *tb[], struct nlattr *data[]) 
  3.     int err; 
  4.     struct net_device *peer; 
  5.     struct veth_priv *priv; 
  6.     char ifname[IFNAMSIZ]; 
  7.     ... 
  8.  
  9.     // 由于虛擬網絡設備對是由兩個網絡設備組成, 
  10.     // dev 是虛擬網絡設備對的其中一個網絡設備, 
  11.     // 所以需要調用 rtnl_create_link() 函數(shù)創(chuàng)建的另外一個網絡設備并保存到 peer 變量中. 
  12.     peer = rtnl_create_link(dev_net(dev), ifname, &veth_link_ops, tbp); 
  13.     ... 
  14.  
  15.     priv = netdev_priv(dev);  // 獲取 dev 的私有數(shù)據部分 
  16.     priv->peer = peer;        // 將其 peer 字段指向 peer 
  17.  
  18.     priv = netdev_priv(peer); // 獲取 peer 的私有數(shù)據部分 
  19.     priv->peer = dev;         // 將其 peer 字段指向 dev 
  20.  
  21.     return 0; 

上面代碼經過精簡后,保留了主要邏輯,所以 veth_newlink 主要完成以下工作:

  • 由于虛擬網絡設備對是由兩個網絡設備組成,而 dev 是虛擬網絡設備對的其中一個網絡設備,所以需要調用 rtnl_create_link 函數(shù)創(chuàng)建的另外一個網絡設備,并保存到 peer 變量中。
  • 將其 dev 設備對象的 peer 字段指向 peer 設備對象。
  • 將其 peer 設備對象的 peer 字段指向 dev 設備對象。

就這樣,一對 虛擬網絡設備對 的創(chuàng)建就完成了。

2. 初始化虛擬網絡設備對

當然,在創(chuàng)建 虛擬網絡設備對 時還需要對其進行初始化,初始化過程由 veth_setup 函數(shù)完成,其實現(xiàn)如下:

  
 
 
 
  1. static const struct net_device_ops veth_netdev_ops = { 
  2.     ... 
  3.     .ndo_start_xmit = veth_xmit, 
  4.     ... 
  5. }; 
  6.  
  7. static void veth_setup(struct net_device *dev) 
  8.     ... 
  9.     dev->netdev_ops = &veth_netdev_ops; 
  10.     ... 

在初始化 虛擬網絡設備對 時,最重要的是設置其操作函數(shù)集。而 net_device_ops 結構是網絡設備的操作函數(shù)集結構,當向設備發(fā)送數(shù)據時,將會觸發(fā)調用設備操作函數(shù)集的 ndo_start_xmit 方法。

而 veth_setup 函數(shù)將此方法設置為 veth_xmit,也就是說,當向 虛擬網絡設備對 的其中一端發(fā)送數(shù)據時,將會調用 veth_xmit 函數(shù)來發(fā)送數(shù)據。

3. 向虛擬網絡設備對發(fā)送數(shù)據

當向 虛擬網絡設備對 的其中一端發(fā)送數(shù)據時,將會調用 veth_xmit 函數(shù)來完成發(fā)送過程,其實現(xiàn)如下:

  
 
 
 
  1. static netdev_tx_t veth_xmit(struct sk_buff *skb, struct net_device *dev) 
  2.     struct net_device *rcv = NULL; 
  3.     struct veth_priv *priv, *rcv_priv; 
  4.     ... 
  5.  
  6.     // 獲取發(fā)送數(shù)據設備的對端設備 
  7.     priv = netdev_priv(dev);  
  8.     rcv = priv->peer; 
  9.     ... 
  10.  
  11.     skb->tstamp.tv64 = 0; 
  12.     skb->pkt_type = PACKET_HOST; 
  13.     // 將數(shù)據包的接收設備設置為對端設備 
  14.     skb->protocol = eth_type_trans(skb, rcv); 
  15.     ... 
  16.  
  17.     // 將數(shù)據包上送給內核協(xié)議棧 
  18.     netif_rx(skb); 
  19.  
  20.     return NETDEV_TX_OK; 

我們先來介紹一下 veth_xmit 函數(shù)各個參數(shù)的意義:

  • skb:要發(fā)送的數(shù)據包對象。
  • dev:發(fā)送數(shù)據的設備。

veth_xmit 函數(shù)的實現(xiàn)比較簡單,主要完成以下工作:

  • 獲取發(fā)送數(shù)據設備的對端設備。
  • 將數(shù)據包的接收設備設置為對端設備。
  • 將數(shù)據包上送給內核協(xié)議棧。

我們通過下圖來展示發(fā)送數(shù)據的過程:

如上圖所示,當一個數(shù)據包從 虛擬網絡設備對 的一端發(fā)送出去,會從其另外一端被接收,并上送到內核協(xié)議棧處理。

總結

由于 虛擬網絡設備對 的出現(xiàn),解決了容器間的通信問題。而本文主要分析了 虛擬網絡設備對 的實現(xiàn)原理,但是有些細節(jié)并沒有詳細分析,如果有不懂的地方可以加我微信一起探討。


網站標題:Docker網絡基礎|虛擬網絡設備對(Veth)原理
URL網址:http://www.5511xx.com/article/cdcsehi.html