从‘算得好’到‘写得好’：解析28nm RRAM存内计算芯片的混合编程与架构创新

最新推荐文章于 2026-04-23 12:39:36 发布

原创

最新推荐文章于 2026-04-23 12:39:36 发布 · 372 阅读

标签

#存内计算 #RRAM #芯片架构 #模拟计算

1. 从“算力狂欢”到“编程焦虑”：为什么“写得好”比“算得快”更难？

这几年，AI芯片领域热闹非凡，大家张口闭口都是“算力”、“TOPS”、“能效比”。这感觉就像在赛车场上，所有人都在比拼发动机的马力，看谁能在直道上跑得更快。但一个现实的问题是，如果一辆赛车加满油需要好几个小时，或者每次换轮胎都极其麻烦，那它马力再大，在实际比赛中也难有作为。清华大学吴华强、钱鹤、高滨教授团队最近在《Journal of Semiconductors》上发表的这篇关于28nm RRAM存内计算芯片的工作，恰恰就戳中了这个痛点：我们是不是过于关注芯片“推理时”的巅峰表现了，而忽略了让它“学会”一个任务（也就是写入权重）这个过程有多痛苦？

传统的存内计算，尤其是基于RRAM（忆阻器）的方案，其魅力在于“存算一体”。数据不用在存储器和处理器之间来回搬运，直接在存储单元里完成乘加运算，理论上能效极高，是突破“内存墙”的利器。过去很多研究论文，包括一些顶会顶刊的工作，核心指标都聚焦在推理时的吞吐量（比如每秒多少万亿次操作，TOPS）和能效（比如每瓦多少TOPS）。这当然很重要，毕竟这是芯片的“高光时刻”。但这就好比只评测一辆车在赛道上的极速，却完全不提它怎么加油、怎么保养。

团队敏锐地意识到，对于一块真正的、可用的RRAM存算芯片来说，“片上编程”（On-chip Programming）——也就是把训练好的神经网络权重精准、高效地写入到RRAM阵列中——才是从实验室走向应用的“最后一公里”，也可能是最崎岖的一公里。RRAM单元通过改变内部电阻来存储信息，但这个“改变”的过程，远非像给DRAM充电或给Flash注入电子那么简单。它涉及到复杂的电学操作，需要精细控制电压、电流脉冲，而且每个单元的物理特性还有细微差异。

我打个比方，这就像你要用一支非常不稳定的笔，在一张巨大的、每个格子敏感度都略有不同的纸上，画出一幅精度要求极高的工程图纸。笔迹的深浅（电阻值）很难一次控制到位，画错了擦除重画（Reset/Set操作）又慢又耗电，而且当你画某一格时，整行整列的纸都会受到干扰。这就是RRAM大阵列编程面临的真实困境：写入速度慢、功耗高、大尺寸阵列难以控制一致性。如果这个问题不解决，芯片就算推理时再“飞起”，也会因为部署困难、更新模型成本高昂而被束之高阁。

所以，这篇论文的标题《从‘算得好’到‘写得好’》点出了研究范式的转变。它不再仅仅追求推理的峰值性能，而是深入工程腹地，去解决那些让芯片真正“好用”的基础问题。他们提出的混合编程模式、分段字线结构和双开关直流ADC，正是为了解决“写”的难题而生的组合拳。接下来，我们就一层层剥开，看看这些创新具体是怎么玩的。