从硬件除法周期到代码优化：为什么Linux内核坚持使用do_div()？

最新推荐文章于 2026-06-26 14:43:39 发布

原创

最新推荐文章于 2026-06-26 14:43:39 发布 · 359 阅读

标签

#Linux内核 #性能优化 #do_div #系统编程

从硬件除法周期到代码优化：为什么Linux内核坚持使用do_div()？

在性能敏感的系统编程领域，一个看似简单的除法操作背后，往往隐藏着复杂的硬件特性和软件权衡。如果你曾经深入Linux内核源码，或者开发过对性能要求极高的嵌入式系统，很可能遇到过那个神秘的do_div()宏。它不像标准C语言的除法运算符那样直观，却在内核中随处可见，这背后究竟有什么深意？

今天，我们就来深入探讨这个看似简单却充满智慧的设计选择。从x86和ARM处理器的除法指令周期差异，到编译器优化策略的局限性，再到实际性能测试的方法论，我们将一步步揭示do_div()存在的必要性。无论你是内核开发者、嵌入式工程师，还是对系统性能优化有浓厚兴趣的程序员，这篇文章都将为你提供全新的视角和实用的工具。

1. 硬件层面的现实：除法指令的代价

要理解do_div()的价值，首先要从硬件说起。在大多数现代处理器架构中，除法指令都是最昂贵的操作之一，其执行周期数远高于加法、减法甚至乘法指令。

1.1 x86与ARM的除法周期对比

让我们先看看不同处理器架构上除法指令的实际成本。根据Agner Fog的指令周期表，我们可以得到以下数据：

处理器架构	指令类型	操作数大小	典型周期数	最坏情况周期数
Intel Core i7	DIV	32位/32位	20-26	40-50
Intel Core i7	DIV	64位/32位	40-60	80-100
ARM Cortex-A53	SDIV	32位	2-12	20+
ARM Cortex-A72	SDIV	32位	3-18	30+

注意：这些数据只是近似值，实际执行时间会受到操作数大小、数据依赖、流水线状态等多种因素影响。ARM处理器的除法周期数范围较大，是因为某些实现可能使用迭代算法，其执行时间与操作数的位模式相关。

从表格中可以明显看出几个关键点：

64位除法比32位除法代价高得多
即使是最新的处理器，除法指令仍然相对昂贵
ARM架构的除法指令在某些情况下可能比x86更慢

1.2 为什么除法这么慢？

除法指令的高成本源于其算法复杂性。与加法和乘法不同，除法通常无法通过简单的逻辑门电路并行完成。大多数处理器使用以下算法之一来实现除法：

恢复除法（Restoring Division）：传统的迭代算法，每次迭代处理一位
非恢复除法（Non-restoring Division）：恢复除法的改进版本
SRT算法：更高效的迭代算法，每次迭代处理多位
乘法逆元法：通过乘法近似实现除法（需要浮点单元或特殊硬件）

这些算法要么需要多次迭代（每次迭代多个周期），要么需要特殊的硬件支持。更糟糕的是，许多嵌入式处理器（特别是较旧的ARM Cortex-M系列）根本没有硬件除法指令，完全依赖软件模拟，代价更高。

// 一个简化的软件除法实现示例
uint32_t software_divide(uint32_t dividend, uint32_t divisor) {
    uint32_t quotient = 0;
    uint32_t remainder = 0;
    
    for (int i = 31; i >= 0; i--) {
        remainder = (remainder << 1) | ((dividend >> i) & 1);
        if (remainder >= divisor) {
            remainder -= divisor;
            quotient |= (1 << i);
        }
    }
    return quotient;
}

这个简单的恢复除法实现需要32次迭代，每次迭代包含多个操作。在缺乏硬件除法的平台上，这样的软件实现可能消耗数百个时钟周期。

2. do_div()的魔法：一次操作，双重收获

了解了硬件除法的代价后，我们再来看看do_div()的设计。这个宏的巧妙之处在于它同时计算商和余数，而硬件通常也提供这样的能力。

2.1 do_div()的基本原理

do_div()的核心思想是利用处理器提供的除法指令特性。大多数现代处理器在执行除法时，会同时产生商和余数，但标准C语言的除法运算符/和取模运算符%会生成两次除法操作：

// 传统方式：可能产生两次除法
uint64_t n = 1234567890123456ULL;
uint32_t base = 1000;
uint64_t quotient = n / base;      // 第一次除法
uint32_t remainder = n % base;     // 第二次除法

而do_div()通过内联汇编或编译器内置函数，确保只执行一次除法指令：

// 使用do_div()：只执行一次除法
u64 num = 1234567890123456ULL;
u32 base = 1000;
u32 remainder;

remainder = do_div(num, base);
// 此时num中存储的是商，remainder中存储的是余数

2.2 不同架构的实现差异

do_div()的实现因架构而异，这正是其价值所在。让我们看看几个主要架构的实现方式：

x86架构的实现（简化版）：

static inline uint32_t do_div_x86(uint64_t *n, uint32_t base) {
    uint32_t low = (uint32_t)*n;
    uint32_t high = (uint32_t)(*n >> 32);
    uint32_t remainder;
    
    asm volatile("divl %4"
                 : "=a" (*n), "=d" (remainder)
                 : "a" (low),

最低0.47元/天解锁文章