Engram联合创始人：AI下一个瓶颈是记忆，训练模型记住你可节省百倍token！-CSDN博客

“我们的模型始终在训练”——打破预训练与后训练的边界

Engram联合创始人Dan Biderman认为，把提示词调到极致，也比不上等一个新版本。这一判断成为了这家公司创立的起点。当整个行业都在专注于上下文工程、RAG、工具调用时，Biderman和搭档Jessy Lin却另辟蹊径，将目光投向了训练。他们并非要训练更聪明的模型，而是训练模型去记住用户。Biderman出身神经科学，Lin来自NLP与认知计算方向，二人组建了一支小而精的团队，成立了名为“Neolab”的新兴AI实验室。Engram不做通用大模型，其客户是那些需要让AI真正理解自身业务的团队，像Notion、Microsoft、Harvey等公司，已用它训练自己的“专属模型”，使引擎能像老员工一样，记住每一次决策、每一轮迭代和每个领域特有的暗知识。在本期45分钟的播客专访中，两位风投背景的主持人追问核心问题：当AI模型足够聪明，下一个瓶颈是什么？Engram给出的答案很明确——记忆。不是把更多东西塞进上下文窗口，而是让记忆刻进模型的权重里。

Engram架构：把公司知识“烘焙”进模型权重

Engram官网有句话引发主持人追问：“我们不从预训练或后训练的视角看世界。我们的模型始终在训练。”Jessy Lin解释道，如今的模型已很聪明，但让其更有用的瓶颈不再是原始智能，而是理解新的、持续变化的上下文，比如新任务或公司特有的工作方式。问题在于，如何把这些内容像预训练“法国首都是巴黎”那样，深深刻进模型的权重里。Dan用比喻补充说，人类每天睡醒回到工作，大脑不仅有笔记，还有新直觉，知道该往哪儿看、怎么想。而现在的AI解决方案是外部化记忆，将东西写进上下文和笔记，但存在两个问题：一是每天产生的token会达数千万级别，检索成本极高；二是外部记忆只有查找，没有真正理解。两人认为，上下文工程、RAG、工具调用都有价值，但训练这个工具被严重低估。可以用前沿实验室训练顶级数学/代码模型的方式，训练任何垂直领域、任何公司的私有数据。

记忆到底该不该放进权重？——RAG的局限

Engram的工作可概括为训练每个团队的专属模型，使其深度理解团队上下文，并随时间持续进化。Jessy描述了产品工作方式，他们接入Notion、Microsoft、Harvey等有大量长期工作数据的平台，将文档、对话、反馈等日常工作产生的原始信号转化为训练数据，再通过LoRA等adapter微调技术，把这些知识“烘焙”进模型的权重。目标不是“在推理时把文件读一遍”，而是让模型像在公司工作多年的老员工一样理解公司，知晓公司战略方向，理解做事方式，熟悉招聘流程、写作风格和内部惯例，能不检索文档直接给出准确答案。Dan给出量化对比，当前最好的前沿模型回答公司内部知识问题，可能需消耗10万个token来检索和推理，而Engram训练好后，同样问题可能只需100个token，节省幅度达100倍。技术上，Engram需要白盒访问模型权重，因此更倾向开源模型，也可与有闭源权重的公司合作。任何基于Transformer架构的模型，都能接受Engram的处理。

什么叫“重要的事才记”——遗忘是智能的一部分

主持人追问，RAG难道不能解决问题吗？Dan用类比回答，需要内化每天使用的门禁密码，但无需内化去年酒店的房间号，写下来即可。但他也指出RAG的核心局限，即难以知道该搜什么。检索系统解决“存什么、放哪里”的问题，而“知道该找什么”才是难题。很多有价值的关联无法预先查询，如看到团队某人做研究，凭直觉想起相关事情，这种联想只能发生在权重里，而非检索系统。Jessy补充，依赖RAG只能做静态检索，无法在知识上累积和组合，就像只看笔记而不消化，理解不会加深。Dan更直接地说，Engram的方向在某种意义上是“RAG killer”，并非RAG没价值，而是对于需真正内化的知识，训练进权重是更优选择。

为什么大模型厂商自己不做这件事？

一个哲学问题浮现：大模型把所有事实记进权重，是优点还是缺点？Jessy认为，无法完全分离事实记忆和技能记忆，有些研究者尝试剥离模型里的“事实”，只保留“算法能力”，结果模型变得不自然，连基本问题都答不上来。需要内化一些东西，才能构建更抽象的概念。但她也承认，不是所有事实都值得记，现有的学术benchmark常要求模型记住“某个非洲国家某座桥的长度”，这类信息没必要占用模型容量。Dan从神经科学视角分析，人类记忆是有损的，这不是缺陷，而是智能的一部分，即压缩重要的，过滤不重要的。深度学习的神奇之处在于，梯度下降能把海量信息压缩进极少数参数里。70B的Llama模型，参数文件约100GB，却能记住整个互联网的精华；而缓存一篇泰勒·斯威夫特的维基百科文章的KV cache，需80GB的GPU内存，将几十KB的文字变成了80GB的“大脑状态”。他的结论是，训练就是压缩。若能把80GB离线压缩成几百兆，加载速度会快1000倍，这对整个推理基础设施有颠覆性意义。

记忆钱包、个人模型与终极愿景

主持人尖锐提问，OpenAI、Anthropic等前沿实验室为何不自己做持续学习？Dan坦率回答，前沿实验室的首要目标是AGI，即编程和数学上极度通用的超级模型。推进AGI的路径明确，即更多预训练、更大模型、更多数据、更多RL、更多推理计算，这占据了他们95%的精力和资金。他认为大厂并非没想过记忆和持续学习，DeepMind的Demis Hassabis在Sequoia活动上就说过“这个领域需要新突破”，但对大厂来说，这更多是产品层面的问题，未被当作核心研究挑战。Jessy补充，这个问题需要研究和产品深度整合。在大厂现有模式中，研究者训好模型交给产品团队，产品团队再做上下文工程和提示词工程。而在Engram的模式里，用户的每一次交互就是训练信号，研究和产品必须在同一个闭环里运转，这是不同的组织方式。她还提到，每个人、每家公司想要的东西往往是私有的、冲突的，比如写作风格和工作流不同，这些不会出现在后训练数据集里。

语言 vs 视觉——一个“疯狂理论”

对话最后，主持人畅想未来是否会有“记忆钱包”，能把在某家公司学到的技能、养成的工作方式带到下一份工作。Dan认为这是终极目标之一，在工作中创造的价值，IP和机密留给公司，但自己学到的技能和独特思考方式，经过“消毒处理”后应能带走。数字化版本会更有趣，能让人们将AI更深融入工作并获得回报。Jessy的愿景更具体，即人人都有自己的模型，与前沿模型不同，服务于个人或团队。Dan用神经科学的发现收尾，大脑中负责记忆和导航的神经回路几乎相同，记忆本质上是认知空间里的导航。他想象中的Engram是“神经接口”，不是文件系统的索引，而是对整个数据平面的大脑状态表示，关联性更强、效率更高、更贴近人类理解信息的方式。他说：“这有点像Databricks或Oracle，只不过我们存的是神经记忆，模型是个性化的，而且会有数亿个。”

播客临近尾声，主持人Sean分享“疯帽子理论”，探讨为何语言模型最终超越视觉模型。他假设，生物界中视觉信息带宽远超语言，所以大脑把更多“计算资源”分配给视觉。但在计算机世界里，视觉和语言的处理成本被“拉平”，语言模型获得了公平竞争机会。Dan和Jessy认为这个方向有一定道理，但也提醒，人类现在的大量知识工作，如写备忘录、读文档、和AI聊天，并非大脑进化设计的任务，而语言AI恰好擅长。视觉在图像/视频领域仍有巨大潜力，但在知识工作方面，语言暂时占优。