解析Linux高性能網(wǎng)絡(luò )IO和Reactor模型
發(fā)布時(shí)間:2021-08-15 18:37
來(lái)源:
閱讀:0
作者:潛行前行
欄目: 服務(wù)器
歡迎投稿:712375056
目錄
一、基本概念介紹
- 進(jìn)程(線(xiàn)程)切換:所有系統都有調度進(jìn)程的能力,它可以?huà)炱鹨粋€(gè)當前正在運行的進(jìn)程,并恢復之前掛起的進(jìn)程
- 進(jìn)程(線(xiàn)程)的阻塞:運行中的進(jìn)程,有時(shí)會(huì )等待其他事件的執行完成,比如等待鎖,請求I/O的讀寫(xiě);進(jìn)程在等待過(guò)程會(huì )被系統自動(dòng)執行阻塞,此時(shí)進(jìn)程不占用CPU
- 文件描述符:在Linux,文件描述符是一個(gè)用于表述指向文件引用的抽象化概念,它是一個(gè)非負整數。當程序打開(kāi)一個(gè)現有文件或者創(chuàng )建一個(gè)新文件時(shí),內核向進(jìn)程返回一個(gè)文件描述符
- linux信號處理:Linux進(jìn)程運行中可以接受來(lái)自系統或者進(jìn)程的信號值,然后根據信號值去運行相應捕捉函數;信號相當于是硬件中斷的軟件模擬
在零拷貝機制篇章已介紹過(guò) 用戶(hù)空間和內核空間和緩沖區,這里就省略了
二、網(wǎng)絡(luò )IO的讀寫(xiě)過(guò)程
- 當在用戶(hù)空間發(fā)起對socket套接字的讀操作時(shí),會(huì )導致上下文切換,用戶(hù)進(jìn)程阻塞(R1)等待網(wǎng)絡(luò )數據流到來(lái),從網(wǎng)卡復制到內核;(R2)然后從內核緩沖區向用戶(hù)進(jìn)程緩沖區復制。此時(shí)進(jìn)程切換恢復,處理拿到的數據
- 這里我們給socket讀操作的第一階段起個(gè)別名R1,第二階段稱(chēng)為R2
- 當在用戶(hù)空間發(fā)起對socket的send操作時(shí),導致上下文切換,用戶(hù)進(jìn)程阻塞等待(1)數據從用戶(hù)進(jìn)程緩沖區復制到內核緩沖區。數據copy完成,此時(shí)進(jìn)程切換恢復
三、Linux五種網(wǎng)絡(luò )IO模型
3.1、阻塞式I/O (blocking IO)
ssize_t recvfrom(int sockfd,void *buf,size_t len,unsigned int flags, struct sockaddr *from,socket_t *fromlen);
- 最基礎的I/O模型就是阻塞I/O模型,也是最簡(jiǎn)單的模型。所有的操作都是順序執行的
- 阻塞IO模型中,用戶(hù)空間的應用程序執行一個(gè)系統調用(recvform),會(huì )導致應用程序被阻塞,直到內核緩沖區的數據準備好,并且將數據從內核復制到用戶(hù)進(jìn)程。最后進(jìn)程才被系統喚醒處理數據
- 在R1、R2連續兩個(gè)階段,整個(gè)進(jìn)程都被阻塞
3.2、非阻塞式I/O (nonblocking IO)
- 非阻塞IO也是一種同步IO。它是基于輪詢(xún)(polling)機制實(shí)現,在這種模型中,套接字是以非阻塞的形式打開(kāi)的。就是說(shuō)I/O操作不會(huì )立即完成,但是I/O操作會(huì )返回一個(gè)錯誤代碼(EWOULDBLOCK),提示操作未完成
- 輪詢(xún)檢查內核數據,如果數據未準備好,則返回EWOULDBLOCK。進(jìn)程再繼續發(fā)起recvfrom調用,當然你可以暫停去做其他事
- 直到內核數據準備好,再拷貝數據到用戶(hù)空間,然后進(jìn)程拿到非錯誤碼數據,接著(zhù)進(jìn)行數據處理。需要注意,拷貝數據整個(gè)過(guò)程,進(jìn)程仍然是屬于阻塞的狀態(tài)
- 進(jìn)程在R2階段阻塞,雖然在R1階段沒(méi)有被阻塞,但是需要不斷輪詢(xún)
3.3、多路復用I/O (IO multiplexing)
- 一般后端服務(wù)都會(huì )存在大量的socket連接,如果一次能查詢(xún)多個(gè)套接字的讀寫(xiě)狀態(tài),若有任意一個(gè)準備好,那就去處理它,效率會(huì )高很多。這就是“I/O多路復用”,多路是指多個(gè)socket套接字,復用是指復用同一個(gè)進(jìn)程
- linux提供了select、poll、epoll等多路復用I/O的實(shí)現方式
- select或poll、epoll是阻塞調用
- 與阻塞IO不同,select不會(huì )等到socket數據全部到達再處理,而是有了一部分socket數據準備好就會(huì )恢復用戶(hù)進(jìn)程來(lái)處理。怎么知道有一部分數據在內核準備好了呢?答案:交給了系統系統處理吧
- 進(jìn)程在R1、R2階段也是阻塞;不過(guò)在R1階段有個(gè)技巧,在多進(jìn)程、多線(xiàn)程編程的環(huán)境下,我們可以只分配一個(gè)進(jìn)程(線(xiàn)程)去阻塞調用select,其他線(xiàn)程不就可以解放了嗎
3.4、信號驅動(dòng)式I/O (SIGIO)
- 需要提供一個(gè)信號捕捉函數,并和socket套接字關(guān)聯(lián);發(fā)起sigaction調用之后進(jìn)程就能解放去處理其他事
- 當數據在內核準備好后,進(jìn)程會(huì )收到一個(gè)SIGIO信號,繼而中斷去運行信號捕捉函數,調用recvfrom把數據從內核讀取到用戶(hù)空間,再處理數據
- 可以看出用戶(hù)進(jìn)程是不會(huì )阻塞在R1階段,但R2還是會(huì )阻塞等待
3.5、異步IO (POSIX的aio_系列函數)
- 相對同步IO,異步IO在用戶(hù)進(jìn)程發(fā)起異步讀(aio_read)系統調用之后,無(wú)論內核緩沖區數據是否準備好,都不會(huì )阻塞當前進(jìn)程;在aio_read系統調用返回后進(jìn)程就可以處理其他邏輯
- socket數據在內核就緒時(shí),系統直接把數據從內核復制到用戶(hù)空間,然后再使用信號通知用戶(hù)進(jìn)程
- R1、R2兩階段時(shí)進(jìn)程都是非阻塞的
四、多路復用IO深入理解一波
4.1、select
int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
1)使用copy_from_user從用戶(hù)空間拷貝fd_set到內核空間
2)注冊回調函數__pollwait
3)遍歷所有fd,調用其對應的poll方法(對于socket,這個(gè)poll方法是sock_poll,sock_poll根據情況會(huì )調用到tcp_poll,udp_poll或者datagram_poll)
4)以tcp_poll為例,其核心實(shí)現就是__pollwait,也就是上面注冊的回調函數
5)__pollwait的主要工作就是把current(當前進(jìn)程)掛到設備的等待隊列中,不同的設備有不同的等待隊列,對于tcp_poll來(lái)說(shuō),其等待隊列是sk->sk_sleep(注意把進(jìn)程掛到等待隊列中并不代表進(jìn)程已經(jīng)睡眠了)。在設備收到一條消息(網(wǎng)絡(luò )設備)或填寫(xiě)完文件數據(磁盤(pán)設備)后,會(huì )喚醒設備等待隊列上睡眠的進(jìn)程,這時(shí)current便被喚醒了
6)poll方法返回時(shí)會(huì )返回一個(gè)描述讀寫(xiě)操作是否就緒的mask掩碼,根據這個(gè)mask掩碼給fd_set賦值
7)如果遍歷完所有的fd,還沒(méi)有返回一個(gè)可讀寫(xiě)的mask掩碼,則會(huì )調用schedule_timeout是調用select的進(jìn)程(也就是current)進(jìn)入睡眠
8) 當設備驅動(dòng)發(fā)生自身資源可讀寫(xiě)后,會(huì )喚醒其等待隊列上睡眠的進(jìn)程。如果超過(guò)一定的超時(shí)時(shí)間(timeout指定),還是沒(méi)人喚醒,則調用select的進(jìn)程會(huì )重新被喚醒獲得CPU,進(jìn)而重新遍歷fd,判斷有沒(méi)有就緒的fd
9)把fd_set從內核空間拷貝到用戶(hù)空間
select的缺點(diǎn):
- 每次調用select,都需要把fd集合從用戶(hù)態(tài)拷貝到內核態(tài),這個(gè)開(kāi)銷(xiāo)在fd很多時(shí)會(huì )很大
- 同時(shí)每次調用select都需要在內核遍歷傳遞進(jìn)來(lái)的所有fd,這個(gè)開(kāi)銷(xiāo)在fd很多時(shí)也很大
- select支持的文件描述符數量太小了,默認是1024
4.2、epoll
int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event *events,int maxevents, int timeout);
- 調用epoll_create,會(huì )在內核cache里建個(gè)紅黑樹(shù)用于存儲以后epoll_ctl傳來(lái)的socket,同時(shí)也會(huì )再建立一個(gè)rdllist雙向鏈表用于存儲準備就緒的事件。當epoll_wait調用時(shí),僅查看這個(gè)rdllist雙向鏈表數據即可
- epoll_ctl在向epoll對象中添加、修改、刪除事件時(shí),是在rbr紅黑樹(shù)中操作的,非???/li>
- 添加到epoll中的事件會(huì )與設備(如網(wǎng)卡)建立回調關(guān)系,設備上相應事件的發(fā)生時(shí)會(huì )調用回調方法,把事件加進(jìn)rdllist雙向鏈表中;這個(gè)回調方法在內核中叫做ep_poll_callback
epoll的兩種觸發(fā)模式:
epoll有EPOLLLT和EPOLLET兩種觸發(fā)模式,LT是默認的模式,ET是“高速”模式(只支持no-block socket)
- LT(水平觸發(fā))模式下,只要這個(gè)文件描述符還有數據可讀,每次epoll_wait都會(huì )觸發(fā)它的讀事件
- ET(邊緣觸發(fā))模式下,檢測到有I/O事件時(shí),通過(guò) epoll_wait 調用會(huì )得到有事件通知的文件描述符,對于文件描述符,如可讀,則必須將該文件描述符一直讀到空(或者返回EWOULDBLOCK),否則下次的epoll_wait不會(huì )觸發(fā)該事件
4.3、epoll相比select的優(yōu)點(diǎn)
解決select三個(gè)缺點(diǎn):
- 對于第一個(gè)缺點(diǎn):epoll的解決方案在epoll_ctl函數中。每次注冊新的事件到epoll句柄中時(shí)(在epoll_ctl中指定EPOLL_CTL_ADD),會(huì )把所有的fd拷貝進(jìn)內核,而不是在epoll_wait的時(shí)候重復拷貝。epoll保證了每個(gè)fd在整個(gè)過(guò)程中只會(huì )拷貝一次(epoll_wait不需要復制)
- 對于第二個(gè)缺點(diǎn):epoll為每個(gè)fd指定一個(gè)回調函數,當設備就緒,喚醒等待隊列上的等待者時(shí),就會(huì )調用這個(gè)回調函數,而這個(gè)回調函數會(huì )把就緒的fd加入一個(gè)就緒鏈表。epoll_wait的工作實(shí)際上就是在這個(gè)就緒鏈表中查看有沒(méi)有就緒的fd(不需要遍歷)
- 對于第三個(gè)缺點(diǎn):epoll沒(méi)有這個(gè)限制,它所支持的FD上限是最大可以打開(kāi)文件的數目,這個(gè)數字一般遠大于2048,舉個(gè)例子,在1GB內存的機器上大約是10萬(wàn)左右,一般來(lái)說(shuō)這個(gè)數目和系統內存關(guān)系很大
epoll的高性能:
- epoll使用了紅黑樹(shù)來(lái)保存需要監聽(tīng)的文件描述符事件,epoll_ctl增刪改操作快速
- epoll不需要遍歷就能獲取就緒fd,直接返回就緒鏈表即可
- linux2.6 之后使用了mmap技術(shù),數據不在需要從內核復制到用戶(hù)空間,零拷貝
4.4、關(guān)于epoll的IO模型是同步異步的疑問(wèn)
概念定義:
- 同步I/O操作:導致請求進(jìn)程阻塞,直到I/O操作完成
- 異步I/O操作:不導致請求進(jìn)程阻塞,異步只用處理I/O操作完成后的通知,并不主動(dòng)讀寫(xiě)數據,由系統內核完成數據的讀寫(xiě)
- 阻塞,非阻塞:進(jìn)程/線(xiàn)程要訪(fǎng)問(wèn)的數據是否就緒,進(jìn)程/線(xiàn)程是否需要等待
異步IO的概念是要求無(wú)阻塞I/O調用。前面有介紹到I/O操作分兩階段:R1等待數據準備好。R2從內核到進(jìn)程拷貝數據。雖然epoll在2.6內核之后采用mmap機制,使得其在R2階段不需要復制,但是它在R1還是阻塞的。因此歸類(lèi)到同步IO
五、Reactor模型
Reactor的中心思想是將所有要處理的I/O事件注冊到一個(gè)中心I/O多路復用器上,同時(shí)主線(xiàn)程/進(jìn)程阻塞在多路復用器上;一旦有I/O事件到來(lái)或是準備就緒,多路復用器返回,并將事先注冊的相應I/O事件分發(fā)到對應的處理器中
5.1、相關(guān)概念介紹
- 事件:就是狀態(tài);比如:讀就緒事件指的是我們可以從內核讀取數據的狀態(tài)
- 事件分離器:一般會(huì )把事件的等待發(fā)生交給epoll、select;而事件的到來(lái)是隨機,異步的,所以需要循環(huán)調用epoll,在框架里對應封裝起來(lái)的模塊就是事件分離器(簡(jiǎn)單理解為對epoll封裝)
- 事件處理器:事件發(fā)生后需要進(jìn)程或線(xiàn)程去處理,這個(gè)處理者就是事件處理器,一般和事件分離器是不同的線(xiàn)程
5.2、Reactor的一般流程
1)應用程序在事件分離器注冊讀寫(xiě)就緒事件和讀寫(xiě)就緒事件處理器
2)事件分離器等待讀寫(xiě)就緒事件發(fā)生
3)讀寫(xiě)就緒事件發(fā)生,激活事件分離器,分離器調用讀寫(xiě)就緒事件處理器
4)事件處理器先從內核把數據讀取到用戶(hù)空間,然后再處理數據
5.3、單線(xiàn)程 + Reactor
5.4、多線(xiàn)程 + Reactor
5.5、多線(xiàn)程 + 多個(gè)Reactor
六、Proactor模型的一般流程
1)應用程序在事件分離器注冊讀完成事件和讀完成事件處理器,并向系統發(fā)出異步讀請求
2)事件分離器等待讀事件的完成
3)在分離器等待過(guò)程中,系統利用并行的內核線(xiàn)程執行實(shí)際的讀操作,并將數據復制進(jìn)程緩沖區,最后通知事件分離器讀完成到來(lái)
4)事件分離器監聽(tīng)到讀完成事件,激活讀完成事件的處理器
5)讀完成事件處理器直接處理用戶(hù)進(jìn)程緩沖區中的數據
6.1、Proactor和Reactor的區別
- Proactor是基于異步I/O的概念,而Reactor一般則是基于多路復用I/O的概念
- Proactor不需要把數據從內核復制到用戶(hù)空間,這步由系統完成
以上就是解析Linux高性能網(wǎng)絡(luò )IO和Reactor模型的詳細內容,更多關(guān)于Linux高性能網(wǎng)絡(luò )IO和Reactor模型的資料請關(guān)注腳本之家其它相關(guān)文章!