从‘算得好’到‘写得好’:解析28nm RRAM存内计算芯片的混合编程与架构创新

1. 从“算力狂欢”到“编程焦虑”:为什么“写得好”比“算得快”更难?

这几年,AI芯片领域热闹非凡,大家张口闭口都是“算力”、“TOPS”、“能效比”。这感觉就像在赛车场上,所有人都在比拼发动机的马力,看谁能在直道上跑得更快。但一个现实的问题是,如果一辆赛车加满油需要好几个小时,或者每次换轮胎都极其麻烦,那它马力再大,在实际比赛中也难有作为。清华大学吴华强、钱鹤、高滨教授团队最近在《Journal of Semiconductors》上发表的这篇关于28nm RRAM存内计算芯片的工作,恰恰就戳中了这个痛点:我们是不是过于关注芯片“推理时”的巅峰表现了,而忽略了让它“学会”一个任务(也就是写入权重)这个过程有多痛苦?

传统的存内计算,尤其是基于RRAM(忆阻器)的方案,其魅力在于“存算一体”。数据不用在存储器和处理器之间来回搬运,直接在存储单元里完成乘加运算,理论上能效极高,是突破“内存墙”的利器。过去很多研究论文,包括一些顶会顶刊的工作,核心指标都聚焦在推理时的吞吐量(比如每秒多少万亿次操作,TOPS)和能效(比如每瓦多少TOPS)。这当然很重要,毕竟这是芯片的“高光时刻”。但这就好比只评测一辆车在赛道上的极速,却完全不提它怎么加油、怎么保养。

团队敏锐地意识到,对于一块真正的、可用的RRAM存算芯片来说,“片上编程”(On-chip Programming)——也就是把训练好的神经网络权重精准、高效地写入到RRAM阵列中——才是从实验室走向应用的“最后一公里”,也可能是最崎岖的一公里。RRAM单元通过改变内部电阻来存储信息,但这个“改变”的过程,远非像给DRAM充电或给Flash注入电子那么简单。它涉及到复杂的电学操作,需要精细控制电压、电流脉冲,而且每个单元的物理特性还有细微差异。

我打个比方,这就像你要用一支非常不稳定的笔,在一张巨大的、每个格子敏感度都略有不同的纸上,画出一幅精度要求极高的工程图纸。笔迹的深浅(电阻值)很难一次控制到位,画错了擦除重画(Reset/Set操作)又慢又耗电,而且当你画某一格时,整行整列的纸都会受到干扰。这就是RRAM大阵列编程面临的真实困境:写入速度慢、功耗高、大尺寸阵列难以控制一致性。如果这个问题不解决,芯片就算推理时再“飞起”,也会因为部署困难、更新模型成本高昂而被束之高阁。

所以,这篇论文的标题《从‘算得好’到‘写得好’》点出了研究范式的转变。它不再仅仅追求推理的峰值性能,而是深入工程腹地,去解决那些让芯片真正“好用”的基础问题。他们提出的混合编程模式、分段字线结构和双开关直流ADC,正是为了解决“写”的难题而生的组合拳。接下来,我们就一层层剥开,看看这些创新具体是怎么玩的。

2. 庖丁解牛:三大核心创新如何破解编程困局

2.1 混合编程模式:像老司机一样“先粗调,再微调”

要给RRAM阵列写入一个精确的权重(通常用一对1T1R单元的差分电导表示),传统上有两种思路,但各有各的“坑”。

第一种是 1T1R模式。顾名思义,就是一次只针对一个1T1R单元进行编程,盯着它的电流变化,慢慢调到目标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值