大模型相关论文笔记

最新推荐文章于 2026-05-18 00:00:00 发布

原创

最新推荐文章于 2026-05-18 00:00:00 发布 · 2.1k 阅读

·

26

·

标签

#论文 #大模型 #人工智能

本文介绍多篇大模型相关论文。如RAG可解决大模型幻觉问题；FLASHATTENTION是IO感知的精确注意力机制；LoRA可减少大模型下游任务训练参数；Llama 2及微调版LLAMA 2 - CHAT发布；LLaMA用公开数据训练，推理快。还阐述了各模型方法、训练等内容。

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

用于知识密集型NLP任务的检索增强生成
Facebook 2020
PDF
CODE
（论文代码链接已失效，以上是最新链接）

引言

大模型有幻觉问题（hallucinations），检索增强生成(retrieval-augmented generation, RAG)可以解决它。

方法

输入为x，外部检索资源为z，生成目标序列y。
模型有两块：一个检索器 $p_\eta(z|x)$ ， $\eta$ 为参数，给定一个查询q，根据文本返回top-K个分布；一个生成器 $p_\theta(y_i|x,z,y_{1:i-1})$ ，参数为 $\theta$ ，它基于过去i-1个tokens $y_{1:i-1}$ 、原始输入x和检索器信息z，产生一个当前的token。
为了端到端的训练检索器和生成器，我们将检索文档作为一个隐变量。我们提出了两个模型，他们以不同的方式边缘化隐变量，从而在文本上产生分布。在我们的方法里，第一步，RAG-Sequence，这个模型使用相同的文本预测每一个目标token；第二步，RAG-Token，基于不同的文件预测每一个目标token。

模型

RAG-Sequence模型
$p_{RAG-Sequence}(y|x)≈\sum_{z∈top-k(p(·|x))}p_\eta(z|x)p_\theta(y|x,z)=\sum_{z∈top-k(p(·|x))}p_\eta(z|x)\prod^N_ip_\theta(y_i|x,z,y_{1:i-1})$
RAG-Token模型
$p_{RAG-Token}(y|x)≈\prod^N_i\sum_{z∈top-k(p(·|x))}p_\eta(z|x)p_\theta(y_i|x,z,y_{1:i-1})$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。