从CTFshow re2看RC4算法：逆向工程中的加密模式识别技巧-CSDN博客

逆向工程中的密码学指纹：从RC4算法识别到实战解密

在CTF逆向挑战中，加密算法的识别往往是解题的关键突破口。最近在分析CTFshow的re2题目时，我再次深刻体会到这一点——那道题的核心加密机制正是经典的RC4流密码。但有趣的是，题目并没有直接告诉你“这是RC4”，而是需要逆向工程师通过分析二进制文件中的代码模式，自己识别出这个算法。

这让我想起几年前刚开始接触逆向时，面对加密函数总是感到迷茫。那些看似随机的字节操作、复杂的循环结构，在没有密码学背景知识的情况下，简直就像天书。但经过大量实战后，我逐渐发现，主流加密算法在二进制实现中往往有独特的“指纹特征”，就像每个人都有独特的笔迹一样。

1. RC4算法的核心特征与识别技巧

RC4（Rivest Cipher 4）虽然已经被认为存在安全缺陷，但在CTF题目和某些遗留系统中仍然常见。它的算法结构相对简单，在二进制层面有几个非常明显的特征。

1.1 算法结构的三段式模式

标准的RC4实现通常包含三个主要阶段，这在逆向分析时可以作为重要的识别线索：

密钥调度算法（KSA）阶段：

// 典型的KSA伪代码结构
for i from 0 to 255
    S[i] = i
j = 0
for i from 0 to 255
    j = (j + S[i] + key[i % keylen]) % 256
    swap(S[i], S[j])

在汇编层面，这个阶段通常表现为：

一个初始化0-255数组的循环（通常使用mov byte ptr [eax+ecx], cl这样的指令）
嵌套的循环结构，内部包含模256运算和交换操作
常见的指令模式：add, mod, xchg或通过临时变量实现的交换

伪随机生成算法（PRGA）阶段：

i = 0
j = 0
while 明文未结束:
    i = (i + 1) % 256
    j = (j + S[i]) % 256
    swap(S[i], S[j])
    K = S[(S[i] + S[j]) % 256]
    输出 明文字节 ^ K

二进制层面的识别特征：

两个计数器变量（通常存储在寄存器或局部变量中）
每次加密前都有的i = (i + 1) % 256操作
明显的异或操作（xor指令）用于加密输出

1.2 内存布局的典型模式

在分析re2题目时，我注意到几个关键的内存特征：

内存区域	典型内容	识别意义
.data段	256字节的常量数组（0-255）	可能是S盒初始化的来源
栈空间	256字节的局部数组	运行时S盒的存储位置
堆分配	动态分配的256字节缓冲区	某些实现中的S盒存储

注意：有些实现会省略显式的0-255数组初始化，直接在循环中计算。这时需要关注循环计数器是否从0到255，以及是否按顺序赋值。

1.3 逆向分析时的快速检查清单

当怀疑某个函数可能是RC4时，可以快速检查以下几点：

数组大小是否为256 - 查找0x100（256）这个魔数
是否有模256运算 - 查找and eax, 0xFF或类似的指令
交换操作 - 查找两个数组元素的交换（通常通过临时变量）
异或加密 - 最后的输出阶段一定有xor指令
密钥处理循环 - 密钥长度可能小于256，需要循环使用

2. 实战：CTFshow re2的完整分析过程

让我们回到具体的题目，看看如何应用这些识别技巧。这道题提供了一个Windows可执行文件，运行后需要输入密钥，然后对flag.txt进行加密生成enflag.txt。

2.1 初步静态分析

使用IDA Pro打开文件，首先定位到main函数。我习惯先搜索字符串引用，这能快速找到关键的用户交互点：

// IDA反编译的main函数片段
int __cdecl main_0(int argc, const char **argv, const char **envp)
{
  // ... 初始化代码 ...
  printf("请输入密钥: ");
  scanf("%s", input_key);
  
  // 密钥验证部分
  if ( sub_401069(input_key) )
  {
    // 文件操作和加密
    sub_401028();
  }
  // ... 其他代码 ...
}

这里有两个关键函数：sub_401069（密钥处理）和sub_401028（文件加密）。先看密钥处理函数。