解析Linux高性能网络IO和Reactor模型

时间：2021-06-29

阅读：

一、基本概念介绍

进程(线程)切换：所有系统都有调度进程的能力，它可以挂起一个当前正在运行的进程，并恢复之前挂起的进程进程(线程)的阻塞：运行中的进程，有时会等待其他事件的执行完成，比如等待锁，请求I/O的读写；进程在等待过程会被系统自动执行阻塞，此时进程不占用CPU 文件描述符：在Linux，文件描述符是一个用于表述指向文件引用的抽象化概念，它是一个非负整数。当程序打开一个现有文件或者创建一个新文件时，内核向进程返回一个文件描述符 linux信号处理：Linux进程运行中可以接受来自系统或者进程的信号值，然后根据信号值去运行相应捕捉函数；信号相当于是硬件中断的软件模拟

在零拷贝机制篇章已介绍过用户空间和内核空间和缓冲区，这里就省略了

二、网络IO的读写过程

当在用户空间发起对socket套接字的读操作时，会导致上下文切换，用户进程阻塞（R1）等待网络数据流到来，从网卡复制到内核；（R2）然后从内核缓冲区向用户进程缓冲区复制。此时进程切换恢复，处理拿到的数据这里我们给socket读操作的第一阶段起个别名R1，第二阶段称为R2 当在用户空间发起对socket的send操作时，导致上下文切换，用户进程阻塞等待（1）数据从用户进程缓冲区复制到内核缓冲区。数据copy完成，此时进程切换恢复

三、Linux五种网络IO模型

3.1、阻塞式I/O (blocking IO)

ssize_t recvfrom(int sockfd,void *buf,size_t len,unsigned int flags, struct sockaddr *from,socket_t *fromlen);

最基础的I/O模型就是阻塞I/O模型，也是最简单的模型。所有的操作都是顺序执行的阻塞IO模型中，用户空间的应用程序执行一个系统调用（recvform），会导致应用程序被阻塞，直到内核缓冲区的数据准备好，并且将数据从内核复制到用户进程。最后进程才被系统唤醒处理数据在R1、R2连续两个阶段，整个进程都被阻塞

3.2、非阻塞式I/O (nonblocking IO)

非阻塞IO也是一种同步IO。它是基于轮询（polling）机制实现，在这种模型中，套接字是以非阻塞的形式打开的。就是说I/O操作不会立即完成，但是I/O操作会返回一个错误代码(EWOULDBLOCK)，提示操作未完成轮询检查内核数据，如果数据未准备好，则返回EWOULDBLOCK。进程再继续发起recvfrom调用，当然你可以暂停去做其他事直到内核数据准备好，再拷贝数据到用户空间，然后进程拿到非错误码数据，接着进行数据处理。需要注意，拷贝数据整个过程，进程仍然是属于阻塞的状态进程在R2阶段阻塞，虽然在R1阶段没有被阻塞，但是需要不断轮询

3.3、多路复用I/O (IO multiplexing)

一般后端服务都会存在大量的socket连接，如果一次能查询多个套接字的读写状态，若有任意一个准备好，那就去处理它，效率会高很多。这就是“I/O多路复用”，多路是指多个socket套接字，复用是指复用同一个进程 linux提供了select、poll、epoll等多路复用I/O的实现方式 select或poll、epoll是阻塞调用与阻塞IO不同，select不会等到socket数据全部到达再处理，而是有了一部分socket数据准备好就会恢复用户进程来处理。怎么知道有一部分数据在内核准备好了呢？答案：交给了系统系统处理吧进程在R1、R2阶段也是阻塞；不过在R1阶段有个技巧，在多进程、多线程编程的环境下，我们可以只分配一个进程（线程）去阻塞调用select，其他线程不就可以解放了吗

3.4、信号驱动式I/O (SIGIO)

需要提供一个信号捕捉函数，并和socket套接字关联；发起sigaction调用之后进程就能解放去处理其他事当数据在内核准备好后，进程会收到一个SIGIO信号，继而中断去运行信号捕捉函数，调用recvfrom把数据从内核读取到用户空间，再处理数据可以看出用户进程是不会阻塞在R1阶段，但R2还是会阻塞等待

3.5、异步IO (POSIX的aio_系列函数)

相对同步IO，异步IO在用户进程发起异步读（aio_read）系统调用之后，无论内核缓冲区数据是否准备好，都不会阻塞当前进程；在aio_read系统调用返回后进程就可以处理其他逻辑 socket数据在内核就绪时，系统直接把数据从内核复制到用户空间，然后再使用信号通知用户进程 R1、R2两阶段时进程都是非阻塞的

四、多路复用IO深入理解一波

4.1、select

int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

1）使用copy_from_user从用户空间拷贝fd_set到内核空间

2）注册回调函数__pollwait

3）遍历所有fd，调用其对应的poll方法（对于socket，这个poll方法是sock_poll，sock_poll根据情况会调用到tcp_poll,udp_poll或者datagram_poll）

4）以tcp_poll为例，其核心实现就是__pollwait，也就是上面注册的回调函数

5）__pollwait的主要工作就是把current（当前进程）挂到设备的等待队列中，不同的设备有不同的等待队列，对于tcp_poll来说，其等待队列是sk->sk_sleep（注意把进程挂到等待队列中并不代表进程已经睡眠了）。在设备收到一条消息（网络设备）或填写完文件数据（磁盘设备）后，会唤醒设备等待队列上睡眠的进程，这时current便被唤醒了

6）poll方法返回时会返回一个描述读写操作是否就绪的mask掩码，根据这个mask掩码给fd_set赋值

7）如果遍历完所有的fd，还没有返回一个可读写的mask掩码，则会调用schedule_timeout是调用select的进程（也就是current）进入睡眠

8）当设备驱动发生自身资源可读写后，会唤醒其等待队列上睡眠的进程。如果超过一定的超时时间（timeout指定），还是没人唤醒，则调用select的进程会重新被唤醒获得CPU，进而重新遍历fd，判断有没有就绪的fd

9）把fd_set从内核空间拷贝到用户空间

select的缺点：

每次调用select，都需要把fd集合从用户态拷贝到内核态，这个开销在fd很多时会很大同时每次调用select都需要在内核遍历传递进来的所有fd，这个开销在fd很多时也很大 select支持的文件描述符数量太小了，默认是1024

4.2、epoll

int epoll_create(int size);  
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);  
int epoll_wait(int epfd, struct epoll_event *events,int maxevents, int timeout);

调用epoll_create，会在内核cache里建个红黑树用于存储以后epoll_ctl传来的socket，同时也会再建立一个rdllist双向链表用于存储准备就绪的事件。当epoll_wait调用时，仅查看这个rdllist双向链表数据即可 epoll_ctl在向epoll对象中添加、修改、删除事件时，是在rbr红黑树中操作的，非常快添加到epoll中的事件会与设备(如网卡)建立回调关系，设备上相应事件的发生时会调用回调方法，把事件加进rdllist双向链表中；这个回调方法在内核中叫做ep_poll_callback

epoll的两种触发模式：

epoll有EPOLLLT和EPOLLET两种触发模式，LT是默认的模式，ET是“高速”模式（只支持no-block socket）

LT（水平触发）模式下，只要这个文件描述符还有数据可读，每次epoll_wait都会触发它的读事件 ET（边缘触发）模式下，检测到有I/O事件时，通过 epoll_wait 调用会得到有事件通知的文件描述符，对于文件描述符，如可读，则必须将该文件描述符一直读到空（或者返回EWOULDBLOCK），否则下次的epoll_wait不会触发该事件

4.3、epoll相比select的优点

解决select三个缺点：

对于第一个缺点：epoll的解决方案在epoll_ctl函数中。每次注册新的事件到epoll句柄中时（在epoll_ctl中指定EPOLL_CTL_ADD），会把所有的fd拷贝进内核，而不是在epoll_wait的时候重复拷贝。epoll保证了每个fd在整个过程中只会拷贝一次(epoll_wait不需要复制) 对于第二个缺点：epoll为每个fd指定一个回调函数，当设备就绪，唤醒等待队列上的等待者时，就会调用这个回调函数，而这个回调函数会把就绪的fd加入一个就绪链表。epoll_wait的工作实际上就是在这个就绪链表中查看有没有就绪的fd(不需要遍历) 对于第三个缺点：epoll没有这个限制，它所支持的FD上限是最大可以打开文件的数目，这个数字一般远大于2048，举个例子，在1GB内存的机器上大约是10万左右，一般来说这个数目和系统内存关系很大

epoll的高性能：

epoll使用了红黑树来保存需要监听的文件描述符事件，epoll_ctl增删改操作快速 epoll不需要遍历就能获取就绪fd，直接返回就绪链表即可 linux2.6 之后使用了mmap技术，数据不在需要从内核复制到用户空间，零拷贝

4.4、关于epoll的IO模型是同步异步的疑问

概念定义：

同步I/O操作：导致请求进程阻塞，直到I/O操作完成异步I/O操作：不导致请求进程阻塞，异步只用处理I/O操作完成后的通知，并不主动读写数据，由系统内核完成数据的读写阻塞，非阻塞：进程/线程要访问的数据是否就绪，进程/线程是否需要等待

异步IO的概念是要求无阻塞I/O调用。前面有介绍到I/O操作分两阶段：R1等待数据准备好。R2从内核到进程拷贝数据。虽然epoll在2.6内核之后采用mmap机制，使得其在R2阶段不需要复制，但是它在R1还是阻塞的。因此归类到同步IO

五、Reactor模型

Reactor的中心思想是将所有要处理的I/O事件注册到一个中心I/O多路复用器上，同时主线程/进程阻塞在多路复用器上；一旦有I/O事件到来或是准备就绪，多路复用器返回，并将事先注册的相应I/O事件分发到对应的处理器中

5.1、相关概念介绍

事件：就是状态；比如：读就绪事件指的是我们可以从内核读取数据的状态事件分离器：一般会把事件的等待发生交给epoll、select；而事件的到来是随机，异步的，所以需要循环调用epoll，在框架里对应封装起来的模块就是事件分离器（简单理解为对epoll封装）事件处理器：事件发生后需要进程或线程去处理，这个处理者就是事件处理器，一般和事件分离器是不同的线程

5.2、Reactor的一般流程

1）应用程序在事件分离器注册读写就绪事件和读写就绪事件处理器

2）事件分离器等待读写就绪事件发生

3）读写就绪事件发生，激活事件分离器，分离器调用读写就绪事件处理器

4）事件处理器先从内核把数据读取到用户空间，然后再处理数据

5.3、单线程 + Reactor

5.4、多线程 + Reactor

5.5、多线程 + 多个Reactor

六、Proactor模型的一般流程

1）应用程序在事件分离器注册读完成事件和读完成事件处理器，并向系统发出异步读请求

2）事件分离器等待读事件的完成

3）在分离器等待过程中，系统利用并行的内核线程执行实际的读操作，并将数据复制进程缓冲区，最后通知事件分离器读完成到来

4）事件分离器监听到读完成事件，激活读完成事件的处理器

5）读完成事件处理器直接处理用户进程缓冲区中的数据

6.1、Proactor和Reactor的区别

Proactor是基于异步I/O的概念，而Reactor一般则是基于多路复用I/O的概念 Proactor不需要把数据从内核复制到用户空间，这步由系统完成

以上就是解析Linux高性能网络IO和Reactor模型的详细内容，更多关于Linux高性能网络IO和Reactor模型的资料请关注其它相关文章！

丢失数据的本质在本文开始前，首先明白一个点，平时我们说的组件数据不丢失究竟是在指什么，如果你往ES写入数据，ES返回给你写入错误，这个不算数据丢失。如果你往ES写入数据，ES返回给

2024-03-13 00:00:59

引言在网络环境中，有时候我们需要让局域网内的电脑访问外网，但是由于网络策略或其他原因，直接访问外网是不可行的。这时候，可以借助 Nginx 来搭建一个正向代理服务器，实现局域网

2024-03-12 23:58:37

netcat 命令介绍及使用示例nc（netcat）是一个强大的网络工具，它可以用于读取和写入数据流，支持 TCP 和 UDP 协议。它常被用于网络调试和网络服务的创建。一、安装方法centos 中，执

2024-03-08 22:33:26

接触过 Linux 的小伙伴们都知道在 Linux （或者说类 Unix）中，有三种类型的用户：超级用户（UID 为 0）：即 root 用户，拥有最高权限。系统用户（UID 为 1~999）：系统内建用户，用于运行系统服

2024-03-01 20:34:50

1 背景说明在做系统集群部署时,涉及到两个或多个服务器之间文件同步.在软件层面linux服务环境找到以下两种同步方式利用linux NFS功能将网络共享文件挂载成本地目录采用文

2024-03-01 11:54:51

这篇文章主要介绍了 Docker 如何利用 Linux 的 Control Groups（cgroups）实现容器的资源隔离和管理。最后通过简单 Demo 演示了如何使用 Go 和 cgroups 交互。如果你对云原生技

2024-02-26 22:19:08

通过这篇文章你可以了解到 Docker 容器的核心实现原理，包括 Namespace、Cgroups、Rootfs 等三个核心功能。如果你对云原生技术充满好奇，想要深入了解更多相关的文章和资讯，欢迎

2024-02-26 22:18:00

本文为从零开始写 Docker 系列第二篇，主要在 mydocker run 命令基础上优化参数传递方式，改为使用 runC 同款的匿名管道传递参数。完整代码见：https://github.com/lixd/mydocker

2024-02-26 22:17:36

本文为从零开始写 Docker 系列第一篇，主要实现 mydocker run 命令，构造了一个具有基本的 Namespace 隔离的简单容器。如果你对云原生技术充满好奇，想要深入了解更多相关的文章

2024-02-26 22:17:04

哈喽大家好，我是咸鱼。之前写过两篇关于 SSL 过期巡检脚本的文章： SSL 证书过期巡检脚本 SSL 证书过期巡检脚本(Python 版)这两篇文章都是讲如何通过脚本去自动检测 SSL 过期

2024-02-26 22:09:11

why 为什么要搭建此开发环境? 在linux环境下开发可以利用shell命令实现对文件的批处理伟大的程序员应该都用类unix系统! 可以实现对底层编译技术的了解,以便于更好的掌握嵌

2024-02-07 19:09:41

简介Nginx是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。其特点是占有内存少，并发能力强，在同类型的网页服务器中表现较好。此外，Nginx也可以作为一

2024-01-30 20:44:23

虚拟主机是一种特殊的软硬件技术，它可以将网络上的每一台计算机分成多个虚拟主机，每个虚拟主机可以独立对外提供www服务，这样就可以实现一台主机对外提供多个web服务，每个虚拟主

2024-01-30 20:43:52

nginx进程结构linux 信号量管理机制[root@VM-8-17-centos nginx]# kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT

2024-01-30 20:42:44

本站的环境搭建用的军哥的 LNMP PHP 版本是 7.3.33 想用 PHP 8.0 但是有些客观的原因存在暂时无法使用。今天事情不多就把 LNMP PHP 的版本升级一下，把 PHP 升级到 7.4.29 如

2024-01-28 21:29:42

在我内网的 HomeLab 上部署 NextCloud 测试用。在部署的过程中需要用到 PHP 的 smbclient 这个扩展，就是在 NextCloud 上挂载我群晖的 SMB 共享作为存储。已经部署了 LNMP 环

2024-01-28 21:27:59

本篇教程是教大家如何使用群晖的 Active Backup for Business 套件来备份网站已经打包的压缩文件或者其他文件。无论你的网站环境是 LNMP 还是使用的宝塔，都可以使用这个教程

2024-01-28 21:23:05

Kickstart 是什么？kickstart是一个定义了Linux安装过程的配置文件，比如要在系统中使用的时区、如何对驱动器进行分区、或者应该安装哪些软件包。有了这个文件可以解放双手，让Li

2024-01-28 21:21:48

LNMP 的网站备份是压缩格式，但是数据库不是压缩格式。今天这篇文章是教大家如何让数据库备份为压缩格式。此方法来源于 LNMP 官方论坛。有需要的童鞋可以照着修改就可以了。

2024-01-28 21:21:00

Linux Shell 脚本入门教程Linux Shell 脚本是一种强大的工具，它允许您自动化日常任务和复杂操作。在本教程中，我们将逐步介绍几个实用的 Shell 脚本示例。每个示例都将详细说

2024-01-28 15:48:16

Linux操作系统具有多种安全策略，以下是其中一些常见的安全策略：访问控制：使用权限和访问控制列表（ACL）来限制用户对文件和目录的访问权限。可以使用chmod、chown等命令来设置文

2024-01-24 15:28:17

公司的一个商城项目，然后配置完参数，本来应该可以跑起来的，最近做了一次服务器迁移，打开后台发现浏览器提示重定向次数过多追踪代码调试，发现是$_SERVER['PHP_SELF']的值

2024-01-24 15:28:04

分布式架构是一种将系统拆分为多个独立的组件或服务，并在不同的计算节点上部署这些组件或服务的架构方式。它可以提供高性能和可用性的好处。下面我将详细介绍分布式架构在高

2024-01-24 15:27:42

将服务从 HTTP 变为 HTTPS，需要进行 SSL 证书的配置。需要完成一下步骤：获取 SSL 证书安装 SSL 证书配置 Nginx 支持 HTTPS 重启 Nginx HTTP 到 HTTPS 的重定向（可选）1. 获取

2024-01-24 15:27:26

总结/朱季谦在日常开发或者编程当中，经常需要用到redis集群，若是按照传统的方式，一个机器一个机器搭建，难免过于繁琐，故而可以通过dock er-compose编排方式，快速搭建。我在搭建过

2024-01-24 15:26:59

转载请注明出处：香吧香　　EOF（End of File）在Shell中通常用于指示输入的结束，并在脚本或命令中进行多行输入。它允许用户指定一个特定的分界符来表示输入的结束，通常用于创建临

2024-01-24 15:26:27

Prometheus 是一个时序数据库，存数据exporter是收集器，来收集被监控的数据，想要监控不同的内容，就使用不同的exporter，这个exporter应该放在被测服务器上，再把exporter和Prometheu

2024-01-24 15:25:59

公众号「架构成长指南」，专注于生产实践、云原生、分布式系统、大数据技术分享前言K8s本身不包含内置的监控工具，所以市场上有不少这样监控工具来填补这一空白，但是没有一个监

2024-01-24 15:25:39

在深入理解 Docker 核心原理：Namespace、Cgroups 和 Rootfs 一文中我们分析了 Docker 是由三大核心技术实现的。今天就一起分析 Docker 三大核心技术之一的 Linux Namespace

2024-01-24 15:25:18

前言linux以及嵌入式一些代码，我们看到core_initcall、device_initcall等等需要链接器分配各个section，并且在启动该模块时候执行。下面我们详细追溯一下执行过程。作者：良知犹

2024-01-24 15:24:55

2020-07-31

2019-11-21

2019-08-07

2018-09-24

2020-03-22

2019-02-16

2019-11-17

2018-10-07

2018-10-04