Engram联合创始人:AI下一个瓶颈是记忆,训练模型记住你可节省百倍token!

“我们的模型始终在训练”——打破预训练与后训练的边界

Engram联合创始人Dan Biderman认为,把提示词调到极致,也比不上等一个新版本。这一判断成为了这家公司创立的起点。当整个行业都在专注于上下文工程、RAG、工具调用时,Biderman和搭档Jessy Lin却另辟蹊径,将目光投向了训练。他们并非要训练更聪明的模型,而是训练模型去记住用户。Biderman出身神经科学,Lin来自NLP与认知计算方向,二人组建了一支小而精的团队,成立了名为“Neolab”的新兴AI实验室。Engram不做通用大模型,其客户是那些需要让AI真正理解自身业务的团队,像Notion、Microsoft、Harvey等公司,已用它训练自己的“专属模型”,使引擎能像老员工一样,记住每一次决策、每一轮迭代和每个领域特有的暗知识。在本期45分钟的播客专访中,两位风投背景的主持人追问核心问题:当AI模型足够聪明,下一个瓶颈是什么?Engram给出的答案很明确——记忆。不是把更多东西塞进上下文窗口,而是让记忆刻进模型的权重里。

Engram架构:把公司知识“烘焙”进模型权重

Engram官网有句话引发主持人追问:“我们不从预训练或后训练的视角看世界。我们的模型始终在训练。”Jessy Lin解释道,如今的模型已很聪明,但让其更有用的瓶颈不再是原始智能,而是理解新的、持续变化的上下文,比如新任务或公司特有的工作方式。问题在于,如何把这些内容像预训练“法国首都是巴黎”那样,深深刻进模型的权重里。Dan用比喻补充说,人类每天睡醒回到工作,大脑不仅有笔记,还有新直觉,知道该往哪儿看、怎么想。而现在的AI解决方案是外部化记忆,将东西写进上下文和笔记,但存在两个问题:一是每天产生的token会达数千万级别,检索成本极高;二是外部记忆只有查找,没有真正理解。两人认为,上下文工程、RAG、工具调用都有价值,但训练这个工具被严重低估。可以用前沿实验室训练顶级数学/代码模型的方式,训练任何垂直领域、任何公司的私有数据。

记忆到底该不该放进权重?——RAG的局限

Engram的工作可概括为训练每个团队的专属模型,使其深度理解团队上下文,并随时间持续进化。Jessy描述了产品工作方式,他们接入Notion、Microsoft、Harvey等有大量长期工作数据的平台,将文档、对话、反馈等日常工作产生的原始信号转化为训练数据,再通过LoRA等adapter微调技术,把这些知识“烘焙”进模型的权重。目标不是“在推理时把文件读一遍”,而是让模型像在公司工作多年的老员工一样理解公司,知晓公司战略方向,理解做事方式,熟悉招聘流程、写作风格和内部惯例,能不检索文档直接给出准确答案。Dan给出量化对比,当前最好的前沿模型回答公司内部知识问题,可能需消耗10万个token来检索和推理,而Engram训练好后,同样问题可能只需100个token,节省幅度达100倍。技术上,Engram需要白盒访问模型权重,因此更倾向开源模型,也可与有闭源权重的公司合作。任何基于Transformer架构的模型,都能接受Engram的处理。

什么叫“重要的事才记”——遗忘是智能的一部分

主持人追问,RAG难道不能解决问题吗?Dan用类比回答,需要内化每天使用的门禁密码,但无需内化去年酒店的房间号,写下来即可。但他也指出RAG的核心局限,即难以知道该搜什么。检索系统解决“存什么、放哪里”的问题,而“知道该找什么”才是难题。很多有价值的关联无法预先查询,如看到团队某人做研究,凭直觉想起相关事情,这种联想只能发生在权重里,而非检索系统。Jessy补充,依赖RAG只能做静态检索,无法在知识上累积和组合,就像只看笔记而不消化,理解不会加深。Dan更直接地说,Engram的方向在某种意义上是“RAG killer”,并非RAG没价值,而是对于需真正内化的知识,训练进权重是更优选择。

为什么大模型厂商自己不做这件事?

一个哲学问题浮现:大模型把所有事实记进权重,是优点还是缺点?Jessy认为,无法完全分离事实记忆和技能记忆,有些研究者尝试剥离模型里的“事实”,只保留“算法能力”,结果模型变得不自然,连基本问题都答不上来。需要内化一些东西,才能构建更抽象的概念。但她也承认,不是所有事实都值得记,现有的学术benchmark常要求模型记住“某个非洲国家某座桥的长度”,这类信息没必要占用模型容量。Dan从神经科学视角分析,人类记忆是有损的,这不是缺陷,而是智能的一部分,即压缩重要的,过滤不重要的。深度学习的神奇之处在于,梯度下降能把海量信息压缩进极少数参数里。70B的Llama模型,参数文件约100GB,却能记住整个互联网的精华;而缓存一篇泰勒·斯威夫特的维基百科文章的KV cache,需80GB的GPU内存,将几十KB的文字变成了80GB的“大脑状态”。他的结论是,训练就是压缩。若能把80GB离线压缩成几百兆,加载速度会快1000倍,这对整个推理基础设施有颠覆性意义。

记忆钱包、个人模型与终极愿景

主持人尖锐提问,OpenAI、Anthropic等前沿实验室为何不自己做持续学习?Dan坦率回答,前沿实验室的首要目标是AGI,即编程和数学上极度通用的超级模型。推进AGI的路径明确,即更多预训练、更大模型、更多数据、更多RL、更多推理计算,这占据了他们95%的精力和资金。他认为大厂并非没想过记忆和持续学习,DeepMind的Demis Hassabis在Sequoia活动上就说过“这个领域需要新突破”,但对大厂来说,这更多是产品层面的问题,未被当作核心研究挑战。Jessy补充,这个问题需要研究和产品深度整合。在大厂现有模式中,研究者训好模型交给产品团队,产品团队再做上下文工程和提示词工程。而在Engram的模式里,用户的每一次交互就是训练信号,研究和产品必须在同一个闭环里运转,这是不同的组织方式。她还提到,每个人、每家公司想要的东西往往是私有的、冲突的,比如写作风格和工作流不同,这些不会出现在后训练数据集里。

语言 vs 视觉——一个“疯狂理论”

对话最后,主持人畅想未来是否会有“记忆钱包”,能把在某家公司学到的技能、养成的工作方式带到下一份工作。Dan认为这是终极目标之一,在工作中创造的价值,IP和机密留给公司,但自己学到的技能和独特思考方式,经过“消毒处理”后应能带走。数字化版本会更有趣,能让人们将AI更深融入工作并获得回报。Jessy的愿景更具体,即人人都有自己的模型,与前沿模型不同,服务于个人或团队。Dan用神经科学的发现收尾,大脑中负责记忆和导航的神经回路几乎相同,记忆本质上是认知空间里的导航。他想象中的Engram是“神经接口”,不是文件系统的索引,而是对整个数据平面的大脑状态表示,关联性更强、效率更高、更贴近人类理解信息的方式。他说:“这有点像Databricks或Oracle,只不过我们存的是神经记忆,模型是个性化的,而且会有数亿个。”

播客临近尾声,主持人Sean分享“疯帽子理论”,探讨为何语言模型最终超越视觉模型。他假设,生物界中视觉信息带宽远超语言,所以大脑把更多“计算资源”分配给视觉。但在计算机世界里,视觉和语言的处理成本被“拉平”,语言模型获得了公平竞争机会。Dan和Jessy认为这个方向有一定道理,但也提醒,人类现在的大量知识工作,如写备忘录、读文档、和AI聊天,并非大脑进化设计的任务,而语言AI恰好擅长。视觉在图像/视频领域仍有巨大潜力,但在知识工作方面,语言暂时占优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值