ARC-2求解器架构解析：从结构分析到可验证无解证明-CSDN博客

1. 项目概述：这不是一个普通求解器，而是一把打开ARC谜题黑箱的钥匙

ARC-2 Solver——这个名字乍听像某个冷门学术论文里的缩写，但如果你在AI推理、认知建模或程序合成领域泡过几年，就会立刻绷紧神经：ARC，指的是Abstraction and Reasoning Corpus，那个由François Chollet设计、被业内公认为“人类智能试金石”的谜题集。它不考数学公式，不比算力速度，而是用几十个看似简单的3×3到10×10网格变换题，精准刺探模型是否真正理解“抽象”“泛化”与“因果推理”。而ARC-2，是Chollet在2023年发布的升级版，新增了更隐蔽的结构约束、更复杂的跨任务模式迁移要求，以及明确标注的“不可解题”样本——它不再只是测试模型，更是在测试你对“可解性边界”的判断力。

我做这个Solver，不是为了刷榜，也不是为了凑一篇顶会paper。过去三年里，我带过七支不同背景的团队（有刚毕业的算法实习生，也有十年经验的编译器工程师）尝试复现ARC baseline，90%的人卡在同一个地方：他们写的搜索器能跑通前20题，但一碰到第23题（那个著名的“旋转+镜像+颜色映射三重嵌套”的网格题），CPU风扇狂转两小时，内存爆到32GB，最终返回一个空解。问题不在代码效率，而在 求解框架本身缺乏对ARC底层语义结构的显式建模 。Part 1我们搭好了骨架——定义了Grid、Operation、Program三层DSL，实现了基础的前向执行和反向约束传播；Part 2，我们要给这副骨架装上真正的“神经突触”：让Solver能主动识别题干中的隐含结构约束，动态剪枝无效搜索路径，并在无解时给出可验证的失败证明，而不是沉默崩溃。它要做的，不是暴力穷举，而是像人类解题者一样，先看懂题目在“问什么”，再决定“怎么答”。

这个项目适合三类人直接抄作业：第一类是正在啃ARC数据集的研究生，你需要的不是又一个黑盒Transformer微调方案，而是可调试、可解释、可逐步增强的符号化求解基座；第二类是工业界做规则引擎或低代码平台的工程师，ARC-2的约束表达方式（比如“输出网格必须是输入网格的某种仿射变换的子集”）和你们日常处理的业务规则高度同构；第三类是教育科技产品负责人，这套求解器拆解出的“结构识别→约束生成→路径剪枝→失败归因”四步法，可以直接映射到智能题库的自动命题与难度评估模块中。接下来的内容，没有一行是理论推导，全是我在凌晨三点盯着Jupyter Notebook里第47次失败的traceback时，用红笔圈出来的实操要点。

2. 整体架构演进：从“执行器”到“推理机”的四层跃迁

2.1 为什么必须重构？Part 1的三个硬伤

Part 1的Solver本质是个“增强型计算器”：它接收一个Program字符串，能正确执行，也能根据单个IO Pair反向推导出Operation参数。但它面对ARC-2的真实挑战时，暴露了三个结构性缺陷，这些缺陷不是靠优化就能绕过去的：

提示：这三个问题在ARC-2官方文档的Appendix C里被明确列为“当前符号求解器的瓶颈”，但没告诉你具体怎么破。

第一，静态约束 vs 动态结构 。Part 1的约束传播是“被动响应式”的：只有当某个Operation执行后产生冲突，才触发回溯。但ARC-2第38题要求“所有输出行必须是某输入行的循环移位”，这个约束在Program执行前就该被识别并用于剪枝——它不依赖具体数值，只依赖网格的行列结构关系。我们之前用的Z3求解器，把这种结构约束硬编码成布尔变量，导致约束图节点爆炸（一个5×5网格的循环移位约束生成超2000个布尔变量）。

第二，单点验证 vs 全局一致性 。Part 1对每个IO Pair独立验证，然后取交集。但ARC-2引入了“跨样本约束”：第52题的四个训练样本，其输出网格的像素值总和必须构成等差数列。这种全局统计约束无法分解到单个Pair上，强行拆分会导致大量假阳性解。

第三，无解判定的不可信 。Part 1的“无解”结论，本质是搜索超时后的放弃。但ARC-2明确要求区分“真无解”（题目本身矛盾）和“搜索空间过大”（需换策略）。我们曾用Part 1跑第66题（一个涉及颜色置换群的题目），32核服务器跑了17小时返回“无解”，结果手动画了张置换图，发现解就在深度为4的某条路径上——只是我们的剪枝策略误杀了它。

这三点，逼着我们必须把Solver从“执行器”升级为“推理机”。不是加更多规则，而是重建信息流动的管道。

2.2 四层新架构：每一层都解决一个核心痛点

新架构不是堆砌模块，而是按信息抽象层级垂直切分，每层只做一件事，且接口清晰：

层级	名称	核心职责	解决Part 1哪个痛点	关键创新点
L1	Structure Analyzer（结构分析器）	输入原始IO Pair集合，输出结构签名（Structural Signature）	痛点一：静态约束	用图神经网络轻量版（仅2层GCN）学习网格拓扑不变量，将“循环移位”“镜像对称”等抽象为可计算的向量嵌入，而非布尔逻辑
L2	Constraint Synthesizer（约束合成器）	接收L1的签名，生成两类约束：局部约束（per-Pair）和全局约束（cross-Pair）	痛点二：单点验证	引入“约束模板库”，每个模板含参数化占位符（如 `shift_amount` ），合成时用SMT求解器实例化，避免硬编码
L3	Search Orchestrator（搜索协调器）	管理多策略搜索（BFS/DFS/Beam Search），根据L2约束动态调整分支因子和深度限制	痛点三：无解判定	实现“约束驱动的自适应搜索”：当检测到高复杂度全局约束时，自动切换至基于约束满足度的启发式搜索（Constraint Satisfaction Heuristic, CSH）
L4	Proof Generator（证明生成器）	对“无解”结论，生成可验证的失败证明（Proof Object），包含被剪枝的关键路径和违反的约束编号	痛点三延伸	证明格式严格遵循Coq可验证语法，已集成到CI流程，每次“无解”返回必经形式化验证

这个分层不是纸上谈兵。我们在第29题（一个需要识别“螺旋填充模式”的题目）上实测：Part 1平均耗时42分钟，失败率68%；新架构下，L1在0.8秒内识别出螺旋结构签名，L2据此激活“径向坐标系”约束模板，L3将搜索空间压缩92%，最终在11秒内找到解，且L4自动生成了包含17个关键剪枝点的证明文件。

2.3 架构决策背后的血泪教训：为什么选GCN而不是CNN？

这里必须展开说一个关键选型：L1结构分析器，为什么用轻量GCN，而不是更常见的CNN或ViT？

最初我们试了ResNet-18微调。想法很朴素：把网格当灰度图输入，让CNN学特征。结果惨烈——在ARC-2的“颜色无关题”（如第15题，只关心形状，颜色纯属干扰）上，准确率跌到31%。原因很简单：CNN的卷积核天生对像素绝对位置敏感，而ARC的核心是 相对位置关系 （“左上角元素等于右下角元素的两倍”这类约束，与网格在图像中的坐标无关）。

我们也试过ViT，用patch embedding。问题在于：ViT的attention机制会强行建立所有patch间的全连接，而ARC网格中，真正相关的往往是局部邻域（如“每个单元格等于其上方和左方单元格之和”）。ViT学到的长程依赖太多噪声，且计算开销大，单次推理要200ms，拖慢整个流水线。

最后选定GCN，是踩了三次坑后的选择：

第一次，用手工设计的图：节点=网格单元格，边=上下左右连接。效果尚可，但无法处理“对角线约束”或“跳格约束”（如第41题的“隔行采样”）。
第二次，改用k-NN图：每个节点连最近k个节点。k=4时漏掉对角线，k=8时引入冗余边，约束合成器L2直接崩溃。
第三次，也是最终方案： 动态图构建 。GCN的第一层不固定边，而是用一个小MLP（2层，16维隐藏层）预测每对节点间是否存在语义边。MLP输入是两节点的坐标差向量（dx, dy）和值差（dv），输出一个[0,1]的边权重。训练时，只用ARC-2中明确标注了结构类型（如“旋转”“反射”“平移”）的50个样本做监督。实测下来，这个动态图在保持低延迟（平均12ms）的同时，结构识别F1-score达到94.7%，且对“颜色无关题”的鲁棒性完美。

这个细节，很多论文里一笔带过，但实际部署时，它决定了你的Solver是能稳定跑通，还是每天都在调参。

3. 核心模块实现：L1结构分析器的代码级拆解

3.1 输入预处理：为什么要把网格“打散”再重组？

ARC-2的IO Pair不是标准图像格式，而是Python list of list，例如一个3×3网格可能表示为 [[1,2,3],[4,5,6],[7,8,9]] 。直接喂给GCN会出大问题：GCN期望节点特征是连续向量，而这里的数字是离散标签（颜色ID）。更麻烦的是，ARC-2允许颜色ID任意映射（同一题中，训练样本用0/1/2，测试样本可能用5/7/9），所以不能简单把数字当特征。

我们的预处理分三步，每一步都有明确目的：

第一步：颜色归一化（Color Normalization）
对每个IO Pair，提取所有出现的颜色值，映射到0~K-1（K为去重后颜色数）。例如 [[1,2,3],[4,5,6],[7,8,9]] 有9种颜色，就映射为 [[0,1,2],[3,4,5],[6,7,8]] 。但这还不够——ARC-2有“颜色恒等题”（如第7题，输出必须和输入颜色完全一致），归一化会抹掉这种信息。

第二步：双通道编码（Dual-Channel Encoding）
我们构造两个特征矩阵：

color_channel : 归一化后的颜色ID，维度[H×W]
identity_channel : 原始颜色ID（未归一化），维度[H×W]，但只在“颜色恒等题”标记为True时启用，否则全0

这样，模型既能学结构模式（靠color_channel），又能记住特定颜色绑定（靠identity_channel），且不增加推理负担。

第三步：图节点构建（Node Construction）
每个单元格变成一个节点，节点特征向量是 [x_coord, y_coord, color_norm, color_orig, is_train_sample] （5维）。注意 is_train_sample 这个标志位：ARC-2的测试样本可能有额外约束（如“输出必须使用训练样本中未出现的颜色”），这个bit让GCN能区分训练/测试语义。

注意：不要用one-hot编码颜色！ARC-2最大颜色数可达20，one-hot会让特征维度爆炸。我们用learned embedding（16维），在GCN第一层前查表，实测比直接用数字ID提升12%准确率。

3.2 GCN核心：动态边权重的数学实现

GCN层的核心是消息传递： h_i^{(l+1)} = σ(∑_{j∈N(i)} α_{ij} W^{(l)} h_j^{(l)}) ，其中 α_{ij} 是边权重。我们的创新在 α_{ij} 的计算上。

传统GCN用固定邻接矩阵A， α_{ij} 是A[i][j]。我们改为：

# 输入：节点i和j的坐标(x_i, y_i), (x_j, y_j) 和颜色值(c_i, c_j)
# 输出：边权重 alpha_ij ∈ [0,1]

def compute_edge_weight(pos_i, pos_j, color_i, color_j):
    # 1. 计算几何偏移向量
    dx, dy = pos_j[0] - pos_i[0], pos_j[1] - pos_i[1]
    # 2. 计算颜色差异（归一化后）
    dc = abs(color_j - color_i) / max_color_id if max_color_id > 0 else 0
    # 3. 拼接为MLP输入
    mlp_input = torch.tensor([dx, dy, dc, 
                             abs(dx), abs(dy),  # 加入绝对值，捕捉对称性
                             dx*dy])             # 加入乘积项，捕捉对角线相关性
    # 4. MLP预测权重（2层，ReLU激活）
    alpha = torch.sigmoid(mlp(mlp_input))  # 输出标量
    return alpha

这个MLP只有128个参数，训练极快。关键是它的输入设计： dx, dy 捕获相对位置， dc 捕获颜色关系， abs(dx), abs(dy) 让模型能识别“左右对称”或“上下对称”， dx*dy 则专门针对对角线模式（当dx=dy≠0时，乘积最大）。我们在ARC-2的“反射对称题”上验证，这个设计让对角线边的权重平均提升0.63，而无关边权重压到0.02以下。

3.3 结构签名生成：从向量到可操作的语义

L1的输出不是分类标签，而是一个128维的 Structural Signature 向量。这个向量必须能被L2的约束合成器直接消费，所以它的设计有严格规范：

维度分配 ：前64维是“结构类型概率分布”（共32类预定义结构，每类2维：存在概率+置信度）
中间32维是“参数槽位” （Parameter Slots）：例如“旋转题”的槽位存旋转角度（0/90/180/270），"缩放题"的槽位存缩放因子（1.0/2.0/0.5）
最后32维是“约束强度” （Constraint Strength）：量化该结构在题干中的主导程度，范围[0,1]，用于L3搜索时的权重分配

生成过程分两步：

Step 1: Graph Pooling
用Gated Graph Neural Network (GGNN) 的readout函数，将所有节点的最终嵌入 h_i^{(2)} 聚合为图级向量 g ： g = ∑_i softmax(W_g h_i^{(2)}) ⊙ tanh(W_h h_i^{(2)}) （ ⊙ 是Hadamard积， W_g , W_h 是可学习权重）

Step 2: Signature Projection
g 通过一个线性层投影到128维，再用三个独立的线性层分别解码出三部分：

type_logits = W_type @ g → Softmax得概率分布
param_preds = W_param @ g → Tanh后映射到参数范围（如角度映射到[-1,1]再转0/90/180/270）
strength = sigmoid(W_str @ g) → 直接输出强度值

这个设计确保了签名的可解释性。当我们debug第55题（一个失败案例）时，直接打印 signature[0:32] ，发现“反射对称”的存在概率是0.92，但“反射轴方向”的参数预测是 [0.1, -0.8] ，对应y轴负方向——这明显错误，因为题干网格明显是x轴对称。追查发现是预处理时坐标系搞反了（Python list索引是[row][col]，但我们当成了[x][y]），修正后问题消失。如果没有这种细粒度的签名，这种bug要花半天才能定位。

4. 约束合成与搜索协调：让求解器学会“思考暂停”

4.1 约束模板库：不是规则引擎，而是可编程的约束DSL

L2的约束合成器不写死任何逻辑，它操作的是一个“约束模板库”（Constraint Template Library）。每个模板是一个Python类，必须实现两个方法：

class ConstraintTemplate:
    def __init__(self, signature: StructuralSignature):
        self.signature = signature  # L1传入的128维向量
    
    def instantiate(self, io_pairs: List[IO_Pair]) -> List[SMT_Constraint]:
        """根据signature和IO数据，生成具体的SMT约束"""
        pass
    
    def get_complexity_score(self) -> float:
        """返回该约束的计算复杂度，供L3搜索调度用"""
        pass

我们内置了17个模板，覆盖ARC-2 95%的题型。以最常用的 RotationInvarianceTemplate 为例：

class RotationInvarianceTemplate(ConstraintTemplate):
    def instantiate(self, io_pairs: List[IO_Pair]) -> List[SMT_Constraint]:
        constraints = []
        # 从signature中读取旋转角度预测
        angle_pred = self.signature.param_slots[0]  # 假设槽位0存角度
        if angle_pred < 0.3:  # 预测为0度
            for pair in io_pairs:
                # 添加约束：output == input
                constraints.append(smt_eq(pair.output, pair.input))
        elif angle_pred < 0.6:  # 预测为90度
            for pair in io_pairs:
                # 添加约束：output == rotate90(input)
                rotated = smt_rotate90(pair.input)
                constraints.append(smt_eq(pair.output, rotated))
        # ... 其他角度
        return constraints
    
    def get_complexity_score(self) -> float:
        # 旋转约束的复杂度与网格大小正相关
        return len(io_pairs[0].input) * len(io_pairs[0].input[0]) * 0.8

关键点在于： 模板的instantiate方法不直接生成SMT代码，而是返回一个约束对象列表，每个对象包含smt表达式和元数据 。这样，L3搜索协调器可以：

查看 get_complexity_score() 决定是否启用该模板
在搜索中动态禁用高复杂度模板（如 ComplexPermutationTemplate ）
对约束对象打标签，用于L4证明生成

我们拒绝用Z3的 declare-const 直接写约束，是因为那会让约束失去语义。现在，每个约束对象都有 .source_template = "RotationInvarianceTemplate" 和 .confidence = 0.92 属性，debug时一眼就知道哪条约束来自哪个模板、有多可信。

4.2 搜索协调器的自适应策略：当“无解”成为一种信号

L3是整个Solver的“大脑”，它不执行具体运算，只做三件事：调度、监控、干预。

调度（Scheduling） ：L3维护一个策略队列，初始为 [BFS, DFS, BeamSearch] 。它根据L2返回的约束复杂度总分（sum of get_complexity_score() ）动态调整：

总分 < 5.0 → 只用BFS（保证最优解）
5.0 ≤ 总分 < 15.0 → BFS + DFS混合，BFS探索浅层，DFS深挖高置信模板路径
总分 ≥ 15.0 → 切换至CSH（Constraint Satisfaction Heuristic）

CSH是我们自研的启发式，核心思想是： 不搜索Program，而搜索“约束满足度” 。它把每个候选Program看作一个向量，维度=约束数量，每个维度值是该Program对对应约束的满足程度（0~1）。搜索目标是找到满足度向量的L∞范数最大的Program。这比盲目搜索Program字符串高效得多，因为满足度计算比完整执行快两个数量级。

监控（Monitoring） ：L3每100ms采样一次搜索状态，记录：

当前深度分布（多少节点在depth=1,2,3...）
各约束的违反率（多少节点违反了约束#3）
节点扩展速率（nodes/sec）

当检测到“违反率突增且深度分布严重右偏”（如90%节点在depth>5），L3会触发干预。

干预（Intervention） ：这是L3最聪明的地方。它不简单地终止搜索，而是：

分析违反率最高的约束（如约束#7， ColorConsistencyConstraint ）
查询该约束的模板，调用其 get_debug_hint() 方法（每个模板必须实现）
get_debug_hint() 返回一个字符串，如“检查输入网格是否所有行长度相等”，或“验证颜色映射是否为双射”
L3将此hint写入日志，并降低该约束的权重，同时提升其他约束权重

我们在第61题（一个因输入网格不规则导致失败的题）上实测，这个干预机制让Solver在第3次失败后，自动提示“输入网格第2行长度为4，其余行为3”，我们立刻发现数据加载bug。没有这个机制，我们会在错误的方向上浪费数小时。

4.3 证明生成器：让“无解”结论经得起同行评审

L4不是锦上添花，而是ARC-2求解器的必备品。ARC-2明确要求：对无解题，必须提供可验证的失败证明，否则结果无效。

我们的证明格式是JSON Schema，但内容是形式化可验证的。一个典型证明长这样：

{
  "proof_id": "ARC2-29-20240512-001",
  "problem_id": "ARC2-29",
  "solver_version": "v2.1.0",
  "timestamp": "2024-05-12T03:22:17Z",
  "conclusion": "NO_SOLUTION",
  "key_pruned_paths": [
    {
      "path_id": "p1",
      "depth": 4,
      "operations": ["rotate90", "crop", "fill"],
      "violated_constraint": "Constraint#5",
      "constraint_template": "SymmetryAxisTemplate",
      "violation_detail": "At depth=3, output grid has no vertical symmetry axis, but constraint requires it"
    }
  ],
  "search_statistics": {
    "total_nodes_explored": 12487,
    "max_depth_reached": 6,
    "time_elapsed_sec": 42.3
  }
}

关键在 key_pruned_paths ：它不记录所有被剪枝的路径（那会太大），而是用贪心算法选出最具代表性的3条。选择标准是：

违反的约束在L2中的 get_complexity_score() 最高
路径深度最接近搜索上限（证明不是因太浅而放弃）
该路径在搜索树中的“兄弟节点”最多（证明剪枝影响面广）

这个证明文件被设计成可被外部工具验证。我们提供了 verify_proof.py 脚本，它会：

重新加载ARC-2-29题干
复现被剪枝的路径（用相同的随机种子）
执行到指定深度，确认确实违反约束#5
验证约束#5的模板实例化逻辑是否正确

在团队内部，我们把证明生成设为CI强制步骤。任何PR如果修改了L2或L3，必须通过 verify_proof.py 对全部ARC-2无解题的验证，否则CI失败。这倒逼我们写出真正健壮的代码，而不是靠运气跑通。

5. 实战复现指南：从零部署ARC-2 Solver Part 2

5.1 环境与依赖：精简到极致的必要组件

别被“求解器”吓到，这个项目刻意避开了所有重量级框架。你只需要：

Python 3.9+（我们用3.10.12，兼容性最好）
PyTorch 2.0+（必须，要用torch.compile加速GCN）
Z3-solver（ pip install z3-solver ，注意不是z3，后者是旧版）
NumPy, tqdm, PyYAML（仅用于日志和配置）

绝对不需要 ：TensorFlow, JAX, HuggingFace Transformers, DGL, PyG。我们自己实现了轻量GCN（<200行），因为DGL的API太重，会拖慢L1的毫秒级响应。

安装命令一行搞定：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install z3-solver numpy tqdm pyyaml

注意：Z3必须用 pip install z3-solver ， conda install z3 在某些Linux发行版上有ABI不兼容问题，会导致L2约束合成器静默崩溃。我们踩过这个坑，在Ubuntu 22.04上，conda版Z3会让 smt_eq() 返回None而不报错，debug三天才发现。

5.2 数据准备：ARC-2官方数据集的正确打开方式

ARC-2数据集不是下载即用。官方发布的是JSONL格式，每行一个task，但有三个坑：

坑一：训练/测试样本混杂
ARC-2的JSONL中，每个task包含 train 和 test 字段，但 test 字段里可能有多个样本，而ARC-2协议规定： Solver只能用train样本学习，test样本只用于最终验证，且test样本数量必须严格等于1 。我们写了 arc2_validator.py 来清洗：

def validate_arc2_task(task_json):
    assert len(task_json["train"]) >= 2, "Need at least 2 train samples"
    assert len(task_json["test"]) == 1, f"Test must have exactly 1 sample, got {len(task_json['test'])}"
    # 检查train样本尺寸一致性
    h, w = len(task_json["train"][0]["input"]), len(task_json["train"][0]["input"][0])
    for i, pair in enumerate(task_json["train"]):
        assert len(pair["input"]) == h and len(pair["input"][0]) == w, \
            f"Train sample {i} size mismatch"

运行 python arc2_validator.py --input arc2_tasks.jsonl --output clean_tasks.jsonl ，得到干净数据。

坑二：颜色ID的跨任务漂移
ARC-2不同task的颜色ID完全独立。Task A用0/1/2，Task B可能用100/200/300。但我们的L1结构分析器需要统一的颜色归一化。解决方案是： 每个task单独归一化 。在 data_loader.py 中，我们确保 ColorNormalizer 是per-task实例，绝不跨task复用。

坑三：JSONL解析的内存爆炸
ARC-2全量有1000+ tasks，直接 json.load(f) 会吃光16GB内存。我们用流式解析：

def load_arc2_stream(filepath):
    with open(filepath, 'r') as f:
        for line_num, line in enumerate(f):
            try:
                task = json.loads(line.strip())
                yield task
            except json.JSONDecodeError as e:
                print(f"Parse error at line {line_num}: {e}")
                continue

5.3 运行第一个Solver：三步走，10分钟内看到结果

假设你已准备好 clean_tasks.jsonl ，现在运行Solver：

Step 1: 启动L1结构分析器（预热）

python l1_analyzer.py --model_path models/l1_gcn_v2.1.pth \
                      --input clean_tasks.jsonl \
                      --output signatures.pkl

这会遍历所有tasks，为每个生成 StructuralSignature ，保存为pickle。首次运行约8分钟（GPU加速），后续只需读取pickle。

Step 2: 运行完整Solver

python solver.py --signatures signatures.pkl \
                 --tasks clean_tasks.jsonl \
                 --output results.jsonl \
                 --timeout 60  # 每题最多60秒

solver.py 会自动调用L2/L3/L4。你会看到实时日志：

[INFO] Solving ARC2-01... L1 signature loaded.
[INFO] L2: Activated 3 templates (Rotation, ColorMap, SizeConsistency)
[INFO] L3: Starting CSH search (complexity=12.4)
[SUCCESS] ARC2-01 solved in 4.2s! Program: ['rotate90', 'fill(2)']

Step 3: 验证结果与证明

python verify_proof.py --results results.jsonl --tasks clean_tasks.jsonl

它会检查所有 NO_SOLUTION 结论的证明有效性，并输出统计报告。

实操心得：第一次运行时，建议先用 --limit 10 参数只跑前10题。ARC-2-07（一个需要识别“棋盘格”模式的题）是很好的压力测试——如果它在15秒内解出，说明你的GCN和约束模板都工作正常；如果超时，大概率是L1的动态图构建有bug，检查 compute_edge_weight 函数中 dx*dy 项是否被意外注释。

5.4 性能调优：让Solver在笔记本上也流畅运行

不是所有人都有A100。我们在MacBook Pro M1 Max（32GB RAM）上做了全套优化：

GCN推理加速 ：用 torch.compile(model, backend="inductor") ，比默认执行快3.2倍。注意：必须用PyTorch 2.0+，且 inductor 后端在M系列芯片上需设置环境变量 export TORCHINDUCTOR_COMPILE_THREADS=8 。

Z3内存控制 ：Z3默认吃内存。在 l2_synthesizer.py 开头加：

from z3 import *
set_option(max_memory=2048)  # 限制2GB
set_option(timeout=5000)     # 每个约束生成最多5秒

搜索空间剪枝 ：在 l3_orchestrator.py 中，我们加了一个硬规则： 任何Program长度超过5个Operation，立即剪枝 。ARC-2所有已知解，Program长度≤4。这个规则让搜索节点减少76%，且零误杀。
缓存策略 ：对相同 StructuralSignature 的约束合成结果，用LRU cache缓存。 @lru_cache(maxsize=1000) ，实测命中率89%，省去大量重复计算。

这些优化后，M1 Max上ARC-2-01到ARC-2-50的平均求解时间是8.3秒/题，98%的题在30秒内完成。对比Part 1在同硬件上的42分钟，提升30倍不止。

6. 常见问题与独家排错手册

6.1 “Solver卡死在某题，CPU 100%，但无日志输出”——这是Z3的幽灵锁

现象：运行 solver.py 时，进程卡住， htop 显示Python进程CPU 100%，但console无新日志。 Ctrl+C 后看到 KeyboardInterrupt 在 z3.Solver.check() 处。

原因：Z3在处理高复杂度约束（如 ComplexPermutationTemplate ）时，可能进入无限循环，且不响应timeout。这不是bug，是SMT求解器的固有特性。

解决方案 ：

在 l2_synthesizer.py 中，不用 Solver.check() ，改用 Solver.check(timeout=5000) （单位毫秒）
更重要的是，加一层Python级超时：用 concurrent.futures.ProcessPoolExecutor 包装约束合成：

from concurrent.futures import ProcessPoolExecutor, TimeoutError

def safe_instantiate(template, io_pairs):
    return template.instantiate(io_pairs)

with ProcessPoolExecutor(max_workers=1) as executor:
    try:
        future = executor.submit(safe_instantiate, template, io_pairs)
        constraints = future.result(timeout=8)  # 8秒硬超时
    except TimeoutError:
        logger.warning(f"Template {template.__class__.__name__} timeout, skipping")
        constraints = []

这个双重超时（Z3级+Python级）彻底解决了卡死问题。我们把它设为默认，所有用户无需修改。

6.2 “L1结构分析器总是预测错旋转角度”——检查你的坐标系约定

现象： signature.param_slots[0] 总是输出0.1或0.9，但从不接近0.5（90度）或0.0（0度）。

根因：GCN的节点特征中， x_coord, y_coord 的定义与ARC-2网格的物理布局不匹配。ARC-2的JSON中， input 是list of list， input[i] 是第i行， input[i][j] 是第i行第j列。数学上，这对应坐标系： 行索引i是y轴，列索引j是x轴 。但很多人习惯把 i 当x， j 当y，导致 dx, dy 计算全反。

验证方法 ：打印一个已知旋转题（如ARC-2-12）的前几个节点特征：

# 应该看到：节点(0,0)的坐标是[0,0]，节点(0,1)是[1,0]，节点(1,0)是[0,1]
# 如果看到