Code Embedding研究系列二：从AST到向量——结构感知的代码表示学习-CSDN博客

1. 为什么我们需要结构感知的代码表示？

大家好，我是老张，在AI和代码分析这块摸爬滚打了十来年。上一期我们聊了基于代码“词汇”（Token）的Embedding方法，就像把一篇英文文章拆成一个个单词，然后学习每个单词的意思。这种方法确实有用，能帮我们做很多基础的分析，比如看看代码里有没有敏感词（API误用）或者简单的模式匹配。

但咱们程序员都知道，代码之所以是代码，而不是一堆乱码，核心在于它的结构。一个for循环和一个while循环，用到的单词可能差不多，但结构意义完全不同。把代码拍扁成一串Token序列，就像把一辆汽车拆成零件后混在一起，你很难再看出它原来是一辆能跑的汽车，而不是一堆废铁。这种“降维打击”丢失了太多关键信息，比如控制流、数据依赖、作用域嵌套等等。当任务变得复杂，比如要判断两段代码在功能上是否等价（代码克隆检测），或者给一段代码自动分类（是排序算法还是网络请求），光看“单词”就远远不够了。

这时候，抽象语法树（AST） 就闪亮登场了。AST是编译器在理解我们代码时，在内存中构建的一棵树。这棵树忠实地记录了代码的语法结构：根节点是整个程序，它的孩子可能是函数声明，函数声明的孩子里又有参数列表和函数体，函数体里则包含了各种语句（如赋值、循环、条件判断）……每个叶子节点往往对应着具体的标识符、字面量或操作符。

把代码变成AST，相当于我们拿到了这份代码的“骨架”和“基因图谱”。基于AST的Embedding，目标就是把这份富含结构信息的树，转换成一个固定长度的、稠密的低维向量。这个向量，既要能“记住”代码的词汇（叶子节点是什么），更要能“理解”代码的结构（这些词汇是如何组织在一起的）。有了这样的向量，我们就能用成熟的机器学习方法，去解决更高级的代码智能任务。

我刚开始接触这个方向时，觉得把一棵树变成一个数（向量）简直不可思议。但试过几种主流模型后，我发现其中的设计思想非常巧妙，而且效果拔群。接下来，我就带大家深入看看，研究者们都是怎么“驯服”AST这棵结构之树的。

2. 开山之作：TBCNN——给树做卷积

时间回到2014年，那会儿图像领域的CNN（卷积神经网络）正火得不行，大家都在想怎么把这种能捕捉局部特征的利器用到新领域。微软亚洲研究院的Mou等人就想：AST也是一棵树，图像是二维网格，我们能不能给树也做“卷积”呢？于是，TBCNN（Tree-Based Convolutional Neural Networks） 诞生了，这可以说是结构感知代码表示学习的奠基性工作。

2.1 TBCNN要解决什么问题？

论文里主要瞄准了两个非常实际的场景：

源代码分类：想象你是一个在线判题系统（OJ）的老师，收了5万多份学生提交的C语言程序，涵盖了104道不同的题目。你需要一个模型，自动判断某份代码是在做哪道题。这本质上是一个104个类别的分类问题。
代码模式检测：公司想清理代码库，找出所有用了低效“冒泡排序”的地方。这就是一个二分类问题：给定一段代码，判断它里面是否包含冒泡排序模式。

这两个任务，光靠关键词匹配（比如找for、swap）肯定不准，必须理解代码的结构逻辑。TBCNN就是为了让机器具备这种“结构理解”能力。