传输层、网络层、数据链路层协议介绍

原创已于 2024-11-02 11:14:29 修改 · 1.3k 阅读

42 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#udp #tcp/ip #网络

于 2023-11-23 14:56:39 首次发布

本文详细介绍了UDP协议的无连接、不可靠特性以及接收缓冲区工作原理，对比了TCP的连接性、可靠性、序列号、确认应答、流量控制和拥塞控制机制，包括慢启动、超时重传和滑动窗口策略，以及TCP的四次挥手和保活定时器。最后讨论了粘包问题在TCP中的影响。

1. 传输层

1.1 UDP(user datagram protocal用户数据报协议)

16位UDP长度包含UDP报头+UDP数据，UDP包最大为64k，如果校验和出错会直接丢弃。

1.1.1 UDP特点

无连接: 知道对端的IP和端口号就直接进行传输, 不需要建立连接;

不可靠: 没有确认机制, 没有重传机制; 如果因为网络故障该段无法发到对方, UDP协议层也不会给应用层返回任何错误信息;

面向数据报: 不能够灵活的控制读写数据的次数和数量。

1.1.2 UDP缓冲区

UDP没有真正意义上的发送缓冲区. 调用sendto会直接交给内核, 由内核将数据传给网络层协议进行后续的传输动作;

UDP具有接收缓冲区. 但是这个接收缓冲区不能保证收到的UDP报的顺序和发送UDP报的顺序一致; 如果缓冲区满了, 再到达的UDP数据就会被丢弃。

UDP的socket既能读也能写，属于全双工模式。

1.2 TCP(transmission control protocal传输控制协议)

4位首部长度，单位为4字节，TCP首部长度最大为15*4=60字节；

16位窗口大小为发送方的接收缓冲区的可用大小；

16位TCP校验和，发送端填充，CRC校验，接收端校验不通过，则认为数据有问题。此处的检验和不光包含TCP首部, 也包含TCP数据部分；

16位紧急指针，标识哪部分数据为紧急数据。

1.2.1 标志位

URG：urgent紧急的，紧急指针是否有效。

ACK：acknowledgement确认，确认号是否有效。TCP规定除了最初建立连接是SYN包之外，该位必须设置为1。

PSH：push推，发送方提醒接收方尽快将数据从缓冲区中读走。

RST：reset重置，对方要求重新连接，携带此标识的称为复位报文段。

SYN：synchronize同步，请求建立连接，携带此标识的称为同步报文段。

FIN：finish结束，请求断开连接，携带此标识的称为结束报文段。

1.2.2 三次握手

三次握手可以保证服务端可以转嫁同等的成本给客户端；

验证全双工。

1.2.3 四次挥手

服务器如果存在大量的CLOST_WAIT，是应用层忘记了关闭sodkfd，导致状态不会往下更新。

主动断开连接的一方，要维持一段时间的TIME_WAIT，等待两个MSL(maximum segment lifetime)的时间后才能回到CLOSE状态，保证历史数据从网络中消散。

MSL是TCP报文的最大生存时间，因此TIME_WAIT持续存在2MSL的话就能保证在两个传输方向上的尚未被接收或迟到的报文段都已经消失(否则服务器立刻重启，可能会收到来自上一个进程的迟到的数据，但是这种数据很可能是错误的)。

同时也是在理论上保证最后一个报文可靠到达(假设最后一个ACK丢失，那么服务器会再重发一个FIN，这时虽然客户端的进程不在了，但是TCP连接还在，仍然可以重发LAST_ACK)。

1.2.4 TCP特点

保证可靠性，同时尽可能的提高性能。

1.2.4.1 序列号

TCP将每个字节都进行了编号，即为序列号。

1.2.4.2 确认应答

TCP报头中有序号和确认序号来进行确认应答。

1.2.4.3 面向字节流

创建一个TCP的socket, 同时在内核中创建一个发送缓冲区和一个接收缓冲区;

调用write时, 数据会先写入发送缓冲区中;

如果发送的字节数太长, 会被拆分成多个TCP的数据包发出;

如果发送的字节数太短, 就会先在缓冲区里等待, 等到缓冲区长度差不多了, 或者其他合适的时机发送出去;

接收数据的时候, 数据也是从网卡驱动程序到达内核的接收缓冲区;

然后应用程序可以调用read从接收缓冲区拿数据;

另一方面, TCP的一个连接, 既有发送缓冲区, 也有接收缓冲区, 那么对于这一个连接, 既可以读数据, 也可以写数据. 这个概念叫做全双工.

由于缓冲区的存在, TCP程序的读和写不需要一一匹配, 例如:

写100个字节数据时, 可以调用一次write写100个字节, 也可以调用100次write, 每次写一个字节;

读100个字节数据时, 也完全不需要考虑写的时候是怎么写的, 既可以一次read 100个字节, 也可以一次read一个字节, 重复100次;

1.2.4.4 连接管理

三次握手建立连接，四次挥手断开连接。

1.2.4.5 流量控制

接收端将自己可以接收的缓冲区大小放入TCP首部中的 "窗口大小" 字段, 通过ACK端通知发送端;

窗口大小字段越大, 说明网络的吞吐量越高;

接收端一旦发现自己的缓冲区快满了, 就会将窗口大小设置成一个更小的值通知给发送端;

发送端接受到这个窗口之后, 就会减慢自己的发送速度;

如果接收端缓冲区满了, 就会将窗口置为0; 这时发送方不再发送数据, 但是需要定期发送一个窗口探测数据段, 使接收端把窗口大小告诉发送端。

TCP首部中, 有一个16位窗口字段, 存放了窗口大小信息，16位数字最大表示65535字节，实际TCP首部40字节选项中还包含了一个窗口扩大因子M，实际窗口大小是窗口字段的值左移M 位。

1.2.4.6 拥塞控制

虽然TCP有了滑动窗口这个大杀器, 能够高效可靠的发送大量的数据. 但是如果在刚开始阶段就发送大量的数据, 仍然可能引发问题。

因为网络上有很多的计算机, 可能当前的网络状态就已经比较拥堵. 在不清楚当前网络状态下, 贸然发送大量的数据，是很有可能引起雪上加霜的。

TCP引入慢启动机制, 先发少量的数据, 探探路, 摸清当前的网络拥堵状态, 再决定按照多大的速度传输数据。

为了不增长的那么快, 因此不能使拥塞窗口单纯的加倍；

此处引入一个叫做慢启动的阈值，当拥塞窗口超过这个阈值的时候, 不再按照指数方式增长, 而是按照线性方式增长；

当TCP开始启动的时候, 慢启动阈值等于窗口最大值;

在每次超时重发的时候, 慢启动阈值会变成原来的一半, 同时拥塞窗口置回1。

少量的丢包, 我们仅仅是触发超时重传; 大量的丢包, 我们就认为网络拥塞;

当TCP通信开始后, 网络吞吐量会逐渐上升; 随着网络发生拥堵, 吞吐量会立刻下降;

拥塞控制, 归根结底是TCP协议想尽可能快的把数据传输给对方, 但是又要避免给网络造成太大压力的折中方案。

1.2.4.7 超时重传

发送端将数据发给接收端后，一直得不到应答，就会发起超时重传，接收端如果是因为ack丢了重复收到了接收端发来的包会根据序列号进行去重。

TCP为了保证无论在任何环境下都能比较高性能的通信, 因此会动态计算最大超时时间；

Linux中(BSD Unix和Windows也是如此), 超时以500ms为一个单位进行控制, 每次判定超时重发的超时时间都是500ms的整数倍；

如果重发一次之后, 仍然得不到应答, 等待 2*500ms 后再进行重传；

如果仍然得不到应答, 等待 4*500ms 进行重传. 依次类推, 以指数形式递增；

累计到一定的重传次数, TCP认为网络或者对端主机出现异常, 强制关闭连接。

1.2.4.8 滑动窗口

一次发送多条数据, 就可以大大的提高性能(其实是将多个段的等待时间重叠在一起了);

窗口大小指的是无需等待确认应答而可以继续发送数据的最大值. 上图的窗口大小就是4000个字节(四个段);

发送前四个段的时候, 不需要等待任何ACK, 直接发送;

收到第一个ACK后, 滑动窗口向后移动, 继续发送第五个段的数据; 依次类推;

操作系统内核为了维护这个滑动窗口, 需要开辟发送缓冲区来记录当前还有哪些数据没有应答; 只有确认应答过的数据, 才能从缓冲区删掉;

窗口越大, 则网络的吞吐率就越高。

如果接收缓冲区的数据越来越多，相应的滑动窗口就会变小直到为0，因此滑动窗口不一定是向右移动，在接收缓冲区的数据快满的时候，窗口不在进行移动逐渐缩小至0。

1.2.4.9 快重传

在连续发起多个包给接收端时，如果是某个ack丢了，发送端可以通过后续的ack确认来继续发送，收到的ack应答会根据确认序号把之前的未确认序号也全部按应答处理。

如果是某个数据包丢失，接收端会一直发送已丢包序号的确认应答，发送端连续收到三个一样的确认应答之后就会进行重发。

1.2.4.10 延迟应答

如果接收数据的主机立刻返回ack应答，此时的窗口可能较小，应用层还没来得及取走数据，因此通过延迟应答可以提高传输效率。

数量限制: 每隔N个包就应答一次;

时间限制: 超过最大延迟时间就应答一次;

具体的数量和超时时间, 依操作系统不同也有差异; 一般N取2, 超时时间取200ms。

1.2.4.11 捎带应答

在延迟应答的基础上, 我们发现, 很多情况下, 客户端服务器在应用层也是 "一发一收" 的. 意味着客户端给服务器说了 "How are you", 服务器也会给客户端回一个 "Fine, thank you";

那么这个时候ACK就可以搭顺风车, 和服务器回应的 "Fine, thank you" 一起回给客户端。

1.2.5 异常情况

TCP内置了一个保活定时器，会定期询问对方是否还在，如果发现对方不在了会自动断开连接。

1.3. 粘包问题

UDP是一个一个完整的包交付应用层，每个包都有有效载荷的长度，不存在粘包问题；

TCP接收到的所有数据都放在一个缓冲区中，存在粘包问题，由应用层的协议来进行应用层所需要的包与包的分离。

2. 网络层

2.1 IP协议(Internet Protocol)

4位版本号(version): 指定IP协议的版本, 对于IPv4来说, 就是4.

4位头部长度(header length): IP头部的长度是多少个32bit, 也就是 length * 4 的字节数. 4bit表示最大的数字是15, 因此IP头部最大长度是60字节.

8位服务类型(Type Of Service): 3位优先权字段(已经弃用), 4位TOS字段, 和1位保留字段(必须置为0). 4位TOS分别表示: 最小延时, 最大吞吐量, 最高可靠性, 最小成本. 这四者相互冲突, 只能选择一个. 对于ssh/telnet这样的应用程序, 最小延时比较重要; 对于ftp这样的程序, 最大吞吐量比较重要.

16位总长度(total length): IP数据报整体占多少个字节.

16位标识(id): 唯一的标识主机发送的报文. 如果IP报文在数据链路层被分片了, 那么每一个片里面的这个id都是相同的.

3位标志字段: 第一位保留(保留的意思是现在不用, 但是还没想好说不定以后要用到). 第二位置为1表示禁止分片, 这时候如果报文长度超过MTU, IP模块就会丢弃报文. 第三位表示"更多分片", 如果分片了的话, 最后一个分片置为1, 其他是0. 类似于一个结束标记.

13位分片偏移(framegament offffset): 是分片相对于原始IP报文开始处的偏移. 其实就是在表示当前分片在原报文中处在哪个位置. 实际偏移的字节数是这个值 * 8 得到的. 因此, 除了最后一个报文之外, 其他报文的长度必须是8的整数倍(否则报文就不连续了).

8位生存时间(Time To Live, TTL): 数据报到达目的地的最大报文跳数. 一般是64. 每次经过一个路由, TTL-= 1, 一直减到0还没到达, 那么就丢弃了. 这个字段主要是用来防止出现路由循环

8位协议: 表示上层协议的类型.

16位头部校验和: 使用CRC进行校验, 来鉴别头部是否损坏.

32位源地址和32位目标地址: 表示发送端和接收端.

选项字段(不定长, 最多40字节): 略

2.1.1 网段划分

IP地址分为两个部分, 网络号和主机号。

网络号: 保证相互连接的两个网段具有不同的标识;

主机号: 同一网段内, 主机之间具有相同的网络号, 但是必须有不同的主机号；

不同的子网其实就是把网络号相同的主机放到一起；

如果在子网中新增一台主机, 则这台主机的网络号和这个子网的网络号一致, 但是主机号必须不能和子网中的其他主机重复。

手动管理子网内的IP, 是一个相当麻烦的事情.

有一种技术叫做DHCP(Dynamic Host Configuration Protocol动态主机配置协议)，能够自动的给子网内新增主机节点分配IP地址, 避免了手动管理IP的不便.

一般的路由器都带有DHCP功能. 因此路由器也可以看做一个DHCP服务器.

过去曾经提出一种划分网络号和主机号的方案, 把所有IP 地址分为五类, 如下图所示

随着Internet的飞速发展,这种划分方案的局限性很快显现出来,大多数组织都申请B类网络地址, 导致B类地址很快就分配完了, 而A类却浪费了大量地址;

例如, 申请了一个B类地址, 理论上一个子网内能允许6万5千多个主机. A类地址的子网内的主机数更多.

然而实际网络架设中, 不会存在一个子网内有这么多的情况. 因此大量的IP地址都被浪费掉了.

针对这种情况提出了新的划分方案, 称为CIDR(Classless Interdomain Routing):

引入一个额外的子网掩码(subnet mask)来区分网络号和主机号;

子网掩码也是一个32位的正整数. 通常用一串 "0" 来结尾;

将IP地址和子网掩码进行 "按位与" 操作, 得到的结果就是网络号;

网络号和主机号的划分与这个IP地址是A类、B类还是C类无关。

CIDR在一定程度上缓解了IP地址不够用的问题(提高了利用率, 减少了浪费, 但是IP地址的绝对上限并没有增加), 仍然不是很够用. 这时候有三种方式来解决:

动态分配IP地址: 只给接入网络的设备分配IP地址. 因此同一个MAC地址的设备, 每次接入互联网中, 得到的IP地址不一定是相同的;

NAT技术;

IPv6: IPv6并不是IPv4的简单升级版. 这是互不相干的两个协议, 彼此并不兼容; IPv6用16字节128位来表示一个IP地址; 但是目前IPv6还没有普及。

2.1.2 特殊的IP地址

将IP地址中的主机地址全部设为0, 就成为了网络号, 代表这个局域网;

将IP地址中的主机地址全部设为1, 就成为了广播地址, 用于给同一个链路中相互连接的所有主机发送数据包;

127.*的IP地址用于本机环回(loop back)测试,通常是127.0.0.1。

2.1.3 NAT(Network Address Translation网络地址转换)

10.*,前8位是网络号,共16,777,216个地址；

172.16.到172.31.,前12位是网络号,共1,048,576个地址；

192.168.*,前16位是网络号,共65,536个地址；

包含在这个范围中的, 都成为私有IP, 其余的则称为全局IP(或公网IP)。

一个路由器可以配置两个IP地址, 一个是WAN口IP, 一个是LAN口IP(子网IP).

路由器LAN口连接的主机, 都从属于当前这个路由器的子网中.

不同的路由器, 子网IP其实都是一样的(通常都是192.168.1.1). 子网内的主机IP地址不能重复. 但是子网之间的IP地址就可以重复了.

每一个家用路由器, 其实又作为运营商路由器的子网中的一个节点. 这样的运营商路由器可能会有很多级,最外层的运营商路由器, WAN口IP就是一个公网IP了.

子网内的主机需要和外网进行通信时, 路由器将IP首部中的IP地址进行替换(替换成WAN口IP), 这样逐级替换, 最终数据包中的IP地址成为一个公网IP. 这种技术称为NAT(Network Address Translation，网络地址转换)。

2.1.4 IP分片

分片行为不是主流；

同一个报文的分片具有相同的报文标识；

更多分片标识是1，代表分片，更多分片标识为0，代表报文最后一个分片；

开始：更多分片为1，片偏移为0，中间：更多分片为1，片偏移大于0，最后：更多分片为0，片偏移大于0，中间如果有多个分片，IP协议会根据片偏移量进行升序排序，偏移量+自身大小=下一个分片偏移量。

网络层进行分片和组装，上层并不知道，分片增加了丢包概率。

3. 数据链路层

3.1 以太网帧格式

源地址和目的地址是指网卡的硬件地址(也叫MAC地址), 长度是48位,是在网卡出厂时固化的;

帧协议类型字段有三种值,分别对应IP、ARP、RARP;

帧末尾是CRC校验码。

IP地址描述的是路途总体的起点和终点。

MAC地址描述的是路途上的每一个区间的起点和终点。

3.2 MTU(Maximum Transmission Unit最大传输单元)

以太网帧中的数据长度规定最小46字节,最大1500字节,ARP数据包的长度不够46字节,要在后面补填充位;

最大值1500称为以太网的最大传输单元(MTU),不同的网络类型有不同的MTU;

如果一个数据包从以太网路由到拨号链路上,数据包长度大于拨号链路的MTU了,则需要对数据包进行分片(fragmentation);

不同的数据链路层标准的MTU是不同的。

3.3 MTU与MSS(Maximum Segment Size最大段大小)

3.4 MTU对UDP协议的影响

一旦UDP携带的数据超过1472(1500 - 20(IP首部) - 8(UDP首部)), 那么就会在网络层分成多个IP数据报.

这多个IP数据报有任意一个丢失, 都会引起接收端网络层重组失败. 那么这就意味着, 如果UDP数据报在网络层被分片, 整个数据被丢失的概率就大大增加了.

3.5 MTU对于TCP协议的影响

TCP的一个数据报也不能无限大, 还是受制于MTU. TCP的单个数据报的最大消息长度, 称为MSS(Max Segment Size);

TCP在建立连接的过程中, 通信双方会进行MSS协商.

最理想的情况下, MSS的值正好是在IP不会被分片处理的最大长度(这个长度仍然是受制于数据链路层的MTU).

双方在发送SYN的时候会在TCP头部写入自己能支持的MSS值.

然后双方得知对方的MSS值之后, 选择较小的作为最终MSS.

MSS的值就是在TCP首部的40字节变长选项中(kind=2)。

3.6 ARP协议(Address Resolution Protoco地址解析协议)

ARP协议建立了主机IP地址和MAC地址的映射关系。

在网络通讯时,源主机的应用程序知道目的主机的IP地址和端口号,却不知道目的主机的硬件地址;

数据包首先是被网卡接收到再去处理上层协议的,如果接收到的数据包的硬件地址与本机不符,则直接丢弃;

因此在通讯前必须获得目的主机的硬件地址。

源主机发出ARP请求,询问“目的IP地址的主机的硬件地址是多少”, 并将这个请求广播到本地网段(以太网帧首部的硬件地址填FF:FF:FF:FF:FF:FF表示广播);

目的主机接收到广播的ARP请求,发现其中的IP地址与本机相符,则发送一个ARP应答数据包给源主机,将自己的硬件地址填写在应答包中;

每台主机都维护一个ARP缓存表,可以用arp -a命令查看。缓存表中的表项有过期时间(一般为20分钟),如果20分钟内没有再次使用某个表项,则该表项失效,下次还要发ARP请求来获得目的主机的硬件地址。

注意到源MAC地址、目的MAC地址在以太网首部和ARP请求中各出现一次,对于链路层为以太网的情况是多余的,但如果链路层是其它类型的网络则有可能是必要的。

硬件类型指链路层网络类型,1为以太网;

协议类型指要转换的地址类型,0x0800为IP地址;

硬件地址长度对于以太网地址为6字节;

协议地址长度对于和IP地址为4字节;

op(opcode操作码)字段为1表示ARP请求,op字段为2表示ARP应答。