重新认识：零拷贝与直接内存

最新推荐文章于 2026-02-13 12:20:52 发布

原创最新推荐文章于 2026-02-13 12:20:52 发布 · 934 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#java #后端

最近在研究零拷贝和直接内存，有了一些新的发现，其中最重要的是：

直接内存并不简单的用堆外内存，还做了内存映射，使内核可以直接操作，避免了所有需要向内核内存的拷贝，所以速度快！

一、传统IO的四次内存屏障

当数据从磁盘到达网卡，传统模式需要跨越四道关卡：

内核缓冲区（磁盘数据着陆点）
JVM堆内存（Java对象存储区）
堆外内存（内核可访问的跳板）
Socket缓冲区（网卡发送前哨站）

每次跨越都是一次完整的内存复制，如同货物在四个仓库间反复搬运。更致命的是，每次搬运都需要CPU亲自参与，这正是性能瓶颈的根源。

二、直接内存：打破用户态与内核态的边界

直接内存的本质是物理内存的地址透传：

物理连续性特权
JVM通过malloc在操作系统层面申请物理地址连续的内存块，确保内存块不会被碎片化
双重映射机制
操作系统内核为这块物理内存建立两个虚拟地址映射：
- 用户态虚拟地址：供Java程序直接读写
- 内核态虚拟地址：供网络协议栈访问

     物理内存
    ┌──────────┐
    │ 直接内存区块 │←── 用户态映射
    └──────────┘
         │
         └── 内核态映射

此设计实现了同一块物理内存的跨域共享，用户程序写入数据后，内核可直接读取，无需复制转移。

三、零拷贝：硬件协作的终极形态

当数据已在直接内存中，发送流程发生本质简化：

指令传递
Java程序触发write()系统调用，将内存地址+长度发送给内核
DMA接管
内核指令DMA引擎：“从0x7F3A8800开始拷贝1024字节到网卡”
硬件直通
DMA控制器直接访问物理内存地址，通过内存总线将字节流注入网卡

        ┌────────────┐       ┌─────┐
        │ 直接内存      │──────►│ DMA │
        │ 0x7F3A8800 │       └─────┘
        └────────────┘           │
                                 ▼
                              ┌─────┐
                              │ 网卡 │
                              └─────┘

整个过程的关键突破：

零CPU复制：数据流不经过CPU寄存器
单次物理传输：内存到网卡仅1次硬件级搬运
无上下文切换：用户态和内核态无权限切换

四、操作系统级优化加速

零拷贝在Linux系统的终极形态：

1. sendfile系统调用

磁盘文件→内核缓冲区→网卡

内核自动完成文件到网络的传输，完全跳过用户空间

2. 分散/聚集（Scatter-Gather）

┌────────┐   ┌────────┐   ┌────────┐
│ 内存块1 │   │ 内存块2 │   │ 内存块3 │
└───┬────┘   └───┬────┘   └───┬────┘
    └─────┬──────┘            │
          ▼                   ▼
       ┌─────┐             ┌─────┐
       │ DMA │─────────────►│ 网卡 │
       └─────┘             └─────┘

DMA引擎从多个非连续内存块收集数据后统一发送