Linux内核漏洞利用实战：从UAF到容器逃逸的完整攻防解析

原创于 2026-06-21 16:33:59 发布 · 244 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Linux内核安全 #Use-After-Free #容器逃逸

1. 项目概述：一场内核攻防的顶级实战

去年DEFCON CTF总决赛的KERNEL KRAKEN挑战，堪称近年来内核安全领域最具代表性的实战案例之一。它不是一个简单的缓冲区溢出，而是一个精心设计的“复合型”漏洞利用场景，要求选手从一次内存破坏开始，逐步突破层层隔离，最终实现从容器内部逃逸到宿主机，完全掌控系统。这几乎复现了高级持续性威胁（APT）攻击中，攻击者在云环境里拿到一个容器初始权限后，如何进一步渗透底层基础设施的完整链条。对于从事系统安全、云原生安全研究或内核开发的朋友来说，拆解这个案例的价值，远超过解决一个CTF题目本身。它能帮你建立起从漏洞原理到完整武器化利用的全局视角，理解现代Linux内核安全机制的薄弱环节究竟在哪里。

简单来说，KERNEL KRAKEN模拟了一个带有漏洞的内核模块。攻击者起始于一个被严格限制的容器环境，通过触发该模块的漏洞，可以篡改关键的内核数据结构。但这仅仅是第一步。真正的挑战在于，如何将这次内存篡改，转化为稳定的、绕过所有现代内核防护机制（如KASLR, SMAP, SMEP, KPTI）的任意代码执行能力，并最终打破容器（cgroup/namespace）的壁垒，实现逃逸。整个过程涉及堆风水、函数指针劫持、ROP链构造、凭证篡改、命名空间穿越等多个高难度技术点，是对漏洞利用技术的一次全面检验。

接下来，我将以参赛者的视角，结合赛后公开的Write-up和内核源码，为你深度还原这场“擒拿内核海妖”的实战全过程。我们会从环境与漏洞分析入手，一步步拆解利用链的每个环节，并重点分享那些在真实漏洞利用中才会遇到的“坑”和技巧。无论你是想精进内核利用技术，还是希望加固自己的云平台安全，这篇文章都会提供极具价值的参考。

2. 漏洞原理与内核模块分析

2.1 目标环境与漏洞定位

题目提供的环境是一个定制的Linux内核，并加载了一个名为 kraken.ko 的可加载内核模块。我们的起点是一个拥有 CAP_SYS_MODULE 权限的容器，这允许我们插入或卸载内核模块，为后续利用提供了初始的“抓手”。通过 /proc/kallsyms 或查看内核日志，我们可以定位到 kraken 模块暴露出的几个关键操作：

一个杂项设备 ：例如 /dev/kraken ，提供了与用户空间交互的接口。
一组ioctl命令 ：这是漏洞的触发点。通常，模块会定义如 KRAKEN_CREATE , KRAKEN_DELETE , KRAKEN_EDIT 等命令来管理其内部对象。

通过逆向工程或直接阅读题目可能提供的部分源码，漏洞的形态很快清晰起来。这是一个典型的“Use-After-Free”漏洞，但其对象生命周期管理逻辑中存在一个特殊的“竞态窗口”。

漏洞核心逻辑伪代码分析：

struct kraken_object {
    unsigned long id;
    char *buffer;
    size_t size;
    // ... 其他字段
    void (*notify)(struct kraken_object *obj); // 一个函数指针
};

static long kraken_ioctl_create(...) {
    obj = kmalloc(sizeof(*obj), GFP_KERNEL);
    obj->buffer = kmalloc(user_size, GFP_KERNEL);
    // 将obj加入全局链表或数组
}

static long kraken_ioctl_delete(...) {
    // 根据id找到obj
    kfree(obj->buffer);
    kfree(obj);
    // 但没有从全局数据结构中立即移除或标记为NULL
    // 存在一个短暂的窗口期，对象指针已释放，但索引仍有效
}

static long kraken_ioctl_edit(...) {
    // 根据id找到obj（可能在窗口期内拿到一个已释放的指针）
    copy_from_user(obj->buffer, user_buf, user_size); // UAF写！
    obj->notify(obj); // UAF调用！关键触发点
}

注意： 这里的 notify 函数指针是漏洞利用的“黄金门票”。控制这个指针，就能劫持内核的执行流。而 edit 操作中的 copy_from_user 为我们提供了向已释放的内存（即 kraken_object 结构体）写入数据的能力。

2.2 利用原语提炼与堆风水策略

利用UAF，我们获得了一个强大的原语： 在可控的内核堆地址上，进行有限制的数据写入，并触发一次函数调用 。这里的“可控”是指我们可以通过堆喷等技术，影响释放后的内存被什么数据填充。

内核堆（slab allocator）管理着像 kraken_object 这样的小对象。我们的攻击策略分为三步：

堆喷占位 ：先创建大量 kraken_object 然后删除，让内核的slab缓存中被释放的“空洞”保持活跃。接着，我们通过其他内核接口（如 msg_msg 消息队列、 shm_file_data 等）喷射大量我们精心构造的数据块，目标是让这些数据块恰好落在之前释放的 kraken_object 的位置上。这样，当内核通过漏洞指针去读取 obj->notify 时，读到的就是我们喷射数据中指定的值。
构造伪造对象 ：我们需要设计一个伪造的 kraken_object 内存布局。其中， notify 指针字段必须指向我们希望跳转的地址。在开启了SMEP/SMAP（防止内核执行用户空间代码/访问用户空间数据）的情况下，直接指向用户空间的shellcode是行不通的。因此，我们需要转向内核本身的代码片段，即 ROP（Return-Oriented Programming） 或 JOP（Jump-Oriented Programming） 。
绕过KASLR ：内核地址空间布局随机化是必须绕过的。通常，我们需要先通过漏洞泄露一个内核指针。在这个挑战中，模块可能提供了信息泄露的接口，或者我们可以利用UAF读原语（如果存在）来读取内核堆上的其他对象，从而推断出内核基址。假设我们已经通过某种方式获得了内核的基地址。

堆风水实操要点：

对象大小对齐 ：首先用 sizeof 或观察 kmalloc 调用确定 kraken_object 的实际大小（例如 kmalloc-128 ）。我们喷射的对象必须大小匹配，才能被分配到同一个slab缓存。
稳定性的关键 ：在多核CPU环境下，堆分配可能发生在不同CPU的slab上，增加不确定性。一种技巧是使用 sched_setaffinity 将进程绑定到单个CPU核心，提高堆布局的可预测性。
选择喷什么 ：常用的喷涌对象包括：
- msg_msg ：结构体大小灵活可控，是内核利用中的“万金油”。
- seq_operations ：结构体小，包含多个函数指针，非常适合劫持控制流。
- subprocess_info ：与 call_usermodehelper 相关，可用于直接提权，但现代内核中限制增多。在KERNEL KRAKEN中，选择 msg_msg 来伪造对象是常见且稳定的方案。

3. 从控制流劫持到权限提升

3.1 绕过防护与ROP链构造

假设我们已成功堆喷，并且当 obj->notify(obj) 被调用时， obj 指针指向了我们伪造的 msg_msg 结构体。 notify 被解释为我们伪造的“函数指针”。我们的目标是将其设置为一个内核ROP gadget的地址，例如 push rdi; pop rsp; ret 。这个gadget的作用是进行“栈翻转”——将 obj （此时在 rdi 寄存器中，作为第一个参数）的内容当作新的栈指针。因为 obj 指向我们可控的伪造对象内存，我们相当于在内核堆上布置了一个新的“栈”。

接下来，我们就在伪造的 kraken_object 内存布局中，精心布置ROP链。ROP链需要完成以下几项核心任务：

保存现场 ：在执行提权操作前，最好先保存一些关键寄存器状态，虽然复杂ROP中不一定需要。
提权：将当前进程的凭证（ struct cred ）改为root凭证。最直接的方法是：
- 找到 init_cred 的地址（这是内核启动时的root凭证，是只读的）。
- 将当前进程的 task_struct->cred 和 task_struct->real_cred 指针都覆盖为指向 init_cred 的地址。这可以通过 commit_creds(prepare_kernel_cred(0)) 函数组合实现，但更简单稳定的方法是直接定位当前任务的 task_struct （通常可以通过 current 宏关联的内核栈地址推算），然后进行内存写操作。ROP链中需要调用如 copy_from_user 或寻找写原语函数。
修复上下文 ：在提权后，需要平稳地返回到触发漏洞的上下文，避免内核崩溃。这意味着我们需要恢复栈指针，并返回到一个安全的地址，例如 user_rip 或直接调用 swapgs; iretq 返回用户空间。
绕过KPTI ：内核页表隔离要求从内核态返回用户态时，需要切换页表。这通常由 swapgs 和 iretq 指令序列完成。我们的ROP链最后需要模拟这个返回过程。

构造ROP链的实战技巧：

工具选择 ：使用 ROPgadget 或 ropper 工具从内核镜像中提取gadget。注意，要使用与目标内核版本完全一致的 vmlinux 文件。
链式调用 ：内核中函数调用通常遵循System V AMD64 ABI，前六个参数通过 rdi , rsi , rdx , rcx , r8 , r9 传递。布置ROP链时，需要先用 pop rdi; ret 之类的gadget设置好参数，再跳转到目标函数地址。
栈指针控制 ：确保你的“堆栈”有足够的空间，并且每个gadget的 ret 都能顺利指向链中的下一个地址。

3.2 容器逃逸：打破Namespace与Cgroup壁垒

成功将进程权限提升为root后，我们仍然被困在容器内部。因为容器技术不仅通过 capabilities 限制权限，更重要的是使用了 Linux Namespace 进行隔离。我们的进程可能处于独立的PID、Network、Mount、UTS等Namespace中。从容器内看到的 / ，可能只是宿主机的一个绑定挂载子目录。

逃逸的关键在于 突破Mount Namespace 和 与宿主机进程交互 。以下是几种经典的逃逸路径，KERNEL KRAKEN很可能涉及其中一种或多种：

挂载逃逸 ：以root权限，我们可以执行 mount 系统调用。如果容器配置不当（例如 /proc 或 /sys 以敏感方式挂载），我们可以重新挂载宿主机根文件系统到容器内的某个目录。
```
# 假设我们能在容器内发现宿主机文件系统
mkdir /tmp/hostroot
mount /dev/sda1 /tmp/hostroot # 需要知道宿主机设备，或通过/proc/self/mountinfo推断
# 现在，/tmp/hostroot就是宿主机根目录，可以任意读写
```
常见防御与绕过 ：容器运行时（如Docker）默认会使用 MS_PRIVATE 或 MS_SLAVE 传播类型，并移除 CAP_SYS_ADMIN 能力，使得容器内 mount 操作失效。但如果我们通过内核漏洞获得了任意内核代码执行能力，就可以直接调用内核的 do_mount 函数，无视这些用户态的权限检查。
Procfs或Sysfs逃逸 ： /proc/1/ns/ 目录下的符号链接指向了宿主机init进程的Namespace。如果我们能以宿主机root权限运行一个进程，并让其加入我们当前进程的Namespace，就能实现反向逃逸。这需要我们在宿主机上执行代码。一种方法是 向宿主机init进程发送可执行文件 ，并通过内核漏洞 修改宿主机上某个关键进程的 namespace 文件描述符 。更直接的方法是，如果容器以 --privileged 模式运行（在CTF中常见），那么 /proc/self/exe 可能就是宿主机上的容器运行时二进制文件，我们可以尝试覆盖它。
Cgroups逃逸 ：Cgroups用于资源限制。在旧版本内核中， cgroup release_agent 特性曾被用于逃逸。现代内核已默认禁用。但在拥有内核写原语的情况下，攻击者可以 修改当前进程所属的cgroup，将其移动到不受限制的根cgroup ，从而突破CPU、内存等限制。更高级的利用是 利用cgroup v2的 notify_on_release 机制 ，但需要更复杂的条件。

在KERNEL KRAKEN中的实现： 通常，这类综合挑战不会要求实现最复杂的物理逃逸，而是设计一个“标志性”的逃逸动作。例如，题目可能要求我们 读取宿主机根目录下的一个特定文件（如 /flag ） 。这简化了逃逸目标。我们的ROP链或后续的利用代码，在获得内核任意读写能力后，可以：

遍历 init 进程的 task_struct 。
找到其 fs_struct 和 files_struct ，获取宿主机根目录的文件描述符和根路径。
或者，直接调用 kern_path 和 filp_open 等内核函数，以宿主机视角打开 /flag 文件。
最后，将文件内容写回我们用户空间的内存。

这整个过程完全在内核态完成，不依赖容器内的任何文件系统视图，实现了真正的“穿透”式逃逸。

4. 完整利用链组装与稳定性优化

4.1 利用步骤全流程复盘

让我们将上述所有环节串联起来，形成一份可复现的利用步骤清单：

信息收集 ：
- 获取内核版本、编译配置（检查 /proc/config.gz 是否存在）。
- 定位 kraken 模块的基地址和符号（ /proc/kallsyms ）。
- 确认防护机制（检查 /proc/cpuinfo 中的 smep , smap ，以及 cat /proc/self/status 中的 PaX / KPTI 标志）。
漏洞触发与堆布局 ：
- 创建多个 kraken_object 。
- 删除其中一个目标对象，制造UAF“空洞”。
- 立即启动大量线程，通过 msgsnd 喷射包含ROP链和伪造对象结构的 msg_msg ，试图占据该空洞。
- 绑定进程到特定CPU核心，增加堆布局确定性。
劫持控制流 ：
- 对目标对象调用 edit 的ioctl。
- copy_from_user 将我们喷射的数据（即伪造的 notify 指针和后续ROP链）写入已被喷涌对象占位的原对象内存。
- notify(obj) 被调用，跳转到我们预设的栈翻转gadget。
执行ROP链 ：
- 内核堆上的伪造数据成为新栈，ROP链开始执行。
- 链中首先通过 commit_creds(prepare_kernel_cred(0)) 或直接内存写操作修改 cred 。
- 然后修复栈帧，执行 swapgs; iretq 序列，携带正确的段寄存器、用户空间RIP、RSP等，返回到一个用户空间的“胜利函数”。
容器逃逸 ：
- 在用户空间的“胜利函数”中，我们已具备root权限。
- 但此时仍在容器内。我们需要使用内核漏洞赋予的“后门”。
- 通常，我们会在ROP链中额外布置一个“第二阶段”的payload：例如，在内核中安装一个伪造的 syscall 或修改一个现有的函数指针，使其指向一段可以打开宿主机文件的内核shellcode。
- 或者，更干净的做法是：在ROP链提权后，直接调用 switch_task_namespaces() 等内核函数，将当前进程的namespace切换到 init 进程的namespace。
- 最后，从用户空间直接访问 /flag （此时它已是宿主机文件），完成读取。

4.2 稳定性提升与疑难排查

内核利用的稳定性一直是难点。以下是在实际利用开发中必须考虑的问题和技巧：

1. 竞态条件处理： UAF的窗口期可能极短。为了提高成功率：

原子操作 ：使用 ioctl 的 edit 和 delete 操作时，尽可能减少中间的系统调用，让触发序列紧凑。
多线程轰炸 ：创建大量线程同时进行喷涌和触发，只要有一个成功即可。但要注意线程同步和资源竞争。
CPU亲和性与优先级 ：设置线程为实时优先级（ SCHED_FIFO ），并绑定到同一CPU，减少上下文切换带来的不确定性。

2. 堆布局的“按摩”：

堆风水 ：不只是一次性喷涌。可以先进行多次“占位-释放”循环，让slab缓存状态趋于稳定。
对象类型选择 ： msg_msg 的大小包含一个消息头。需要精确计算 struct msg_msg 和 struct kraken_object 的大小，确保 notify 指针在 msg_msg 数据区中的偏移正确。使用 gdb 或 crash 工具调试内核，查看结构体布局是必不可少的步骤。

3. 内核崩溃与日志分析： 利用失败最常见的结果是内核崩溃（oops）或死锁。

保存崩溃日志 ： dmesg 输出是黄金信息。关注崩溃时的 RIP （指令指针）、 RAX 等寄存器值，以及调用栈回溯。
常见崩溃点 ：
- notify 指针指向了不可执行地址 -> 检查KASLR偏移计算和gadget地址。
- ROP链执行到一半崩溃 -> 检查栈指针是否对齐（x86-64要求16字节对齐），gadget是否破坏了关键寄存器。
- 提权后返回用户空间时崩溃 -> 检查 iretq 帧的构造是否正确，特别是 CS 、 SS 段选择子是否指向用户模式描述符。
使用模拟环境 ：在QEMU中运行带调试符号的内核，使用 gdb 连接进行单步调试，是开发复杂内核利用链的最高效方式。

4. 对抗未来加固： KERNEL KRAKEN基于某个特定内核版本。但真实世界的内核在不断加固：

控制流完整性 ：Linux内核开始支持 CONFIG_CFI_CLANG ，这会严格检查间接函数调用，使函数指针劫持极度困难。未来的利用可能需要转向数据攻击，如修改 cred 结构体本身的内容。
堆隔离与随机化 ： SLAB_VIRTUAL 等特性或 SLUB 分配器的增强，使得堆布局预测更难。可能需要结合新的信息泄露漏洞。
权限细分 ：即使获得内核代码执行，也不意味着能直接修改 init 进程的namespace。内核模块和核心功能可能被进一步沙盒化。

5. 防御视角与安全启示

站在防守方，从KERNEL KRAKEN这样的案例中，我们可以汲取以下加固经验：

1. 对内核模块的严格审查：

最小权限原则 ：模块不应默认拥有 CAP_SYS_MODULE 。容器或沙箱环境应禁用非必需的内核模块加载。
代码审计 ：对任何第三方或自定义内核模块，进行彻底的代码安全审计，重点关注对象生命周期管理、锁机制和用户输入验证。
使用更安全的API ：鼓励使用 refcount_t 代替普通的引用计数，使用 GFP_KERNEL_ACCOUNT 进行内存分配以辅助追踪。

2. 运行时防护与检测：

内核漏洞利用检测 ：部署基于eBPF的运行时安全工具，监控异常的内核函数调用序列（如 commit_creds 后接 switch_task_namespaces ）、异常的堆操作模式或直接对 cred 结构体的写操作。
容器行为基线 ：建立容器内进程行为的基线，一旦发现容器内进程试图调用某些罕见系统调用（如 keyctl 、 mount ）或访问 /proc/self/ns 下的敏感文件，立即告警。
强化Namespace隔离 ：使用 user namespace 映射，即使容器内获得root，也只是在一个无特权的虚拟用户ID下。结合 seccomp-bpf 严格过滤系统调用。

3. 供应链与部署安全：

保持内核更新 ：及时修复已知漏洞。
禁用调试接口 ：在生产容器中，确保 /proc/kallsyms 不可读，禁用 kgdb 等调试接口。
使用硬件安全特性 ：在支持的系统上启用 TME 或 SEV 等内存加密技术，增加攻击者分析内存数据的难度。

KERNEL KRAKEN挑战虽然发生在CTF赛场，但其技术内涵与真实世界的云原生安全威胁高度同构。它清晰地展示了一条从应用层漏洞到内核权限，再到跨容器边界的完整攻击链。对于攻击者，它是一份高级利用技术的教科书；对于防御者，它则是一记响亮的警钟，提醒我们安全的纵深防御必须覆盖从应用到内核的每一个层面。在云时代，内核安全就是云安全的基石，对这个基石的任何一点忽视，都可能让整个基础设施暴露在“海妖”的威胁之下。