Linux内核架构浅谈46-Linux vmalloc机制：非连续内存分配的实现与应用

最新推荐文章于 2025-11-05 00:53:32 发布

原创最新推荐文章于 2025-11-05 00:53:32 发布 · 841 阅读

30 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#linux #架构 #服务器

Linux内核架构浅谈专栏收录该内容

97 篇文章

订阅专栏

1. 引言：为什么需要vmalloc？

在Linux内核中，内存分配是核心功能之一。开发者最熟悉的内核内存分配接口是kmalloc，它能分配连续的物理内存页，且分配的内存直接映射到内核虚拟地址空间，访问效率极高。但kmalloc有一个明显局限：当系统运行一段时间后，物理内存容易产生碎片，此时即使总空闲内存足够，也可能无法分配到大块连续的物理内存。

为解决这一问题，Linux内核引入了vmalloc机制。与kmalloc不同，vmalloc允许分配非连续的物理内存页，再通过页表将这些分散的物理页映射到内核虚拟地址空间的连续区域。这种“物理非连续、虚拟连续”的特性，让内核在物理内存碎片化时仍能获取大块内存，尤其适合驱动程序、内核模块等需要动态分配大内存的场景。

注意：vmalloc分配的内存位于内核虚拟地址空间的“vmalloc区域”，该区域与直接映射区（kmalloc分配区域）、高端内存区等严格划分，避免地址冲突。

1.1 kmalloc与vmalloc的核心差异

特性	kmalloc	vmalloc
物理内存连续性	连续	非连续
虚拟内存连续性	连续（直接映射）	连续（动态映射）
分配速度	快（依赖伙伴系统，无页表操作）	慢（需创建页表映射）
内存访问效率	高（无TLB切换 overhead）	较低（可能触发TLB失效）
适用场景	小块内存、高性能需求（如驱动缓冲区）	大块内存、物理碎片较多（如模块加载）

2. vmalloc的实现原理

vmalloc的核心是“物理页分配”与“虚拟地址映射”的分离：先通过伙伴系统分配多个独立的物理页帧，再在内核虚拟地址空间中申请一段连续的虚拟地址，最后通过修改页表，将虚拟地址逐一映射到分散的物理页帧。整个过程涉及三个关键组件：vmalloc地址空间管理、物理页分配、页表映射建立。

2.1 vmalloc地址空间的划分

Linux内核将虚拟地址空间划分为多个区域，其中vmalloc区域专门用于非连续内存分配。以32位IA-32架构为例（经典3:1地址划分）：

用户空间：0 ~ 3GB（进程私有）
内核空间：3GB ~ 4GB
- 直接映射区：3GB ~ 3GB+896MB（物理内存直接映射，kmalloc使用）
- vmalloc区域：3GB+896MB ~ 3GB+960MB（非连续内存映射区）
- 高端内存区：3GB+960MB ~ 4GB（用于管理超过896MB的物理内存）

64位架构（如AMD64）的vmalloc区域范围更大（通常从VMALLOC_START到VMALLOC_END），但核心逻辑与32位一致：通过全局变量维护当前可用的虚拟地址区间，避免地址重叠。

2.2 核心数据结构：struct vm_struct

内核用struct vm_struct描述一个vmalloc分配的内存块，记录虚拟地址范围、物理页指针、大小等关键信息。所有活跃的vm_struct实例通过链表串联，便于内核遍历和管理。

struct vm_struct { struct vm_struct *next; // 链表下一个节点 void *addr; // 虚拟地址起始位置 unsigned long size; // 内存块大小（含页表等开销） unsigned long flags; // 内存块标志（如VM_IO、VM_ALLOC） struct page **pages; // 指向物理页帧的指针数组 unsigned int nr_pages; // 物理页数量 phys_addr_t phys_addr; // 物理地址（仅用于IO映射） const void *caller; // 调用者地址（调试用） };

关键字段说明：

pages：数组，每个元素指向一个struct page实例（对应一个物理页帧），数组长度由nr_pages指定。
flags：标识内存块类型，如VM_ALLOC表示普通vmalloc分配，VM_IO表示IO设备内存映射。
caller：记录调用vmalloc的函数地址，用于内核崩溃时定位问题。

2.3 vmalloc的执行流程

以vmalloc(size_t size)调用为例，其内部执行步骤可分为四步：

内存大小校准：将请求大小按页对齐（通常4KB），并额外预留页表所需空间（若开启多级页表）。
虚拟地址申请：调用get_vm_area(size, VM_ALLOC)，从vmalloc区域中分配一段连续的虚拟地址，返回对应的struct vm_struct实例。
物理页分配：通过伙伴系统（alloc_pages()）分配nr_pages个独立的物理页帧，将页指针存入vm_struct->pages数组。
页表映射建立：调用map_vm_area()，遍历vm_struct->pages，为每个虚拟地址页建立页表项（PTE），将虚拟地址映射到对应的物理页帧。

// vmalloc核心流程简化代码 void *vmalloc(size_t size) { struct vm_struct *area; void *addr; // 1. 页对齐与大小检查 size = PAGE_ALIGN(size); if (size == 0 || size > VMALLOC_MAX_SIZE) return NULL; // 2. 申请虚拟地址区域 area = get_vm_area(size, VM_ALLOC); if (!area) return NULL; // 3. 分配物理页并建立映射 if (vmalloc_area_pages(area, GFP_KERNEL)) { vfree(area->addr); // 分配失败，释放虚拟地址 return NULL; } addr = area->addr; return addr; }

2.4 页表映射的细节

vmalloc建立页表映射时，需处理多级页表（如IA-32的两级页表、AMD64的四级页表）。以AMD64为例，map_vm_area()会执行以下操作：

从虚拟地址中提取全局页目录（PGD）、上层页目录（PUD）、中间页目录（PMD）、页表（PTE）的索引。
逐级创建页目录项：若某级页目录不存在（如PUD项为空），则通过pud_alloc()分配新页目录，并初始化其页表项。
在最底层的PTE中，将虚拟页映射到物理页帧，同时设置页属性（如可读可写、内核权限）。
若系统支持大页（HugePage），则尝试合并连续物理页为大页，减少页表项数量，提升访问效率。

性能优化点：vmalloc在建立页表时会使用pte_alloc_kernel()而非用户空间的pte_alloc()，前者专门为内核页表优化，避免不必要的用户态权限检查。

3. vmalloc的衍生接口与应用场景

除了基础的vmalloc函数，内核还提供了多个衍生接口，适配不同的使用场景（如IO映射、大内存分配等）。同时，vmalloc在内核内部被广泛应用，是许多核心功能的基础。

3.1 常用衍生接口

接口	功能描述	适用场景
`vmalloc_user(size_t size)`	分配非连续内存，且设置页表为“用户可访问”	内核向用户空间提供大块共享内存
`vmalloc_32(size_t size)`	分配非连续内存，且物理地址限于32位可寻址范围	兼容旧版32位IO设备（仅支持32位地址）
`vmap(struct page **pages, unsigned int count)`	将已有的物理页数组映射为连续虚拟地址	已有分散物理页，需连续虚拟地址访问
`ioremap(phys_addr_t phys_addr, size_t size)`	将物理IO地址映射到内核虚拟地址（非连续物理地址）	驱动访问IO设备寄存器（如PCI设备）
`vfree(const void *addr)`	释放vmalloc分配的内存（含页表和物理页）	所有vmalloc衍生接口的内存释放

3.2 典型应用场景示例

场景1：内核模块加载时的内存分配

内核模块（.ko文件）加载时，模块的代码段、数据段需要加载到内存。由于模块大小可能超过连续物理内存的可用空间，内核会使用vmalloc分配非连续物理内存，再映射为连续虚拟地址，确保模块代码能正常执行。

// 模块初始化函数中使用vmalloc
static int __init my_module_init(void)
{
    // 分配1MB非连续内存（页对齐）
    my_buffer = vmalloc(1024 * 1024);
    if (!my_buffer) {
        pr_err("vmalloc failed for my_buffer\n");
        return -ENOMEM;
    }

    // 初始化内存（示例：填充0）
    memset(my_buffer, 0, 1024 * 1024);
    pr_info("vmalloc success, addr: %pK\n", my_buffer); // %pK隐藏内核地址（安全）
    return 0;
}

static void __exit my_module_exit(void)
{
    // 释放vmalloc内存
    if (my_buffer) {
        vfree(my_buffer);
        pr_info("vfree success for my_buffer\n");
    }
}

场景2：驱动中IO设备内存映射

许多IO设备（如网卡、显卡）的寄存器或显存位于物理地址空间的特定区域，且这些区域通常是非连续的。驱动程序可通过ioremap（vmalloc的衍生接口）将这些物理地址映射到内核虚拟地址的连续区域，简化访问逻辑。

以下是规范格式后的代码，保持原内容不变，仅调整缩进：

// 驱动中映射IO设备物理地址
#define DEVICE_PHYS_ADDR 0x10000000  // 设备物理地址
#define DEVICE_SIZE 0x1000           // 设备内存大小

static void __iomem *dev_base;       // 映射后的虚拟地址

static int __init dev_driver_init(void)
{
    // 映射IO物理地址到内核虚拟地址
    dev_base = ioremap(DEVICE_PHYS_ADDR, DEVICE_SIZE);
    if (!dev_base) {
        pr_err("ioremap failed for device\n");
        return -ENOMEM;
    }

    // 访问设备寄存器（示例：读取状态寄存器）
    u32 status = ioread32(dev_base + 0x04);  // 0x04为状态寄存器偏移
    pr_info("device status: 0x%x\n", status);

    return 0;
}

static void __exit dev_driver_exit(void)
{
    // 解除IO映射
    if (dev_base) {
        iounmap(dev_base);
        pr_info("iounmap success for device\n");
    }
}

注意：访问ioremap映射的地址时，必须使用内核提供的IO访问函数（如ioread32、iowrite32），而非直接指针操作，这些函数会处理CPU的IO屏障、端序转换等问题。

4. vmalloc的性能考量与限制

尽管vmalloc解决了物理内存碎片化问题，但在使用时需注意其性能开销和功能限制，避免滥用导致系统性能下降。

4.1 性能开销来源

页表操作开销：vmalloc需创建多级页表项，而kmalloc直接使用已有的直接映射页表，无需额外操作。
TLB失效：由于vmalloc映射的物理页非连续，访问不同虚拟页时可能触发TLB（地址转换后备缓冲器）失效，导致CPU重新查询页表，增加延迟。
内存碎片加剧：vmalloc分配的物理页是分散的，频繁分配/释放可能加剧物理内存碎片化，影响后续kmalloc的大块连续内存分配。

4.2 使用限制

不可用于中断上下文：vmalloc分配物理页时调用alloc_pages()，该函数可能睡眠（如内存不足时），而中断上下文不允许睡眠，因此中断处理函数中不能使用vmalloc。
不支持DMA操作：大多数DMA控制器要求缓冲区物理地址连续，而vmalloc分配的物理页非连续，因此不能用于DMA传输（需用dma_alloc_coherent等专用接口）。
内存大小限制：vmalloc区域的大小有限（如32位系统约64MB），无法分配超过该区域的内存，此时需使用高端内存接口（如kmap）。