啥是LLM?大语言模型从原理到选型的完整科普

本文整理自B站「AI专业知识科普:啥是LLM(大语言模型)」,通过AI音视频总结工具 Ai好记 转文字+截取PPT整理,以下为精炼整理后的内容。

LLM(Large Language Model,大语言模型)是这两年 AI 领域最火的关键词。ChatGPT、DeepSeek、Kimi、豆包,背后都是 LLM 在撑场子。

但 LLM 到底是怎么工作的,很多人其实是模糊的。这篇从最底层的原理开始聊,不搞玄学公式,争取用大白话讲清楚。

在这里插入图片描述

LLM 的本质:不是思考,是接龙

先说最核心的一件事:大语言模型并不真正"理解"你说的话,它只是在做一件事——根据你前面说的内容,猜下一个字最可能是什么。

像玩词语接龙。你开头说"今天天气真",它根据学过的数万亿字语料,算出"好"的概率是87%,"不"是8%,"热"是3%。

在这里插入图片描述

选了"好",然后继续猜下一个字。ChatGPT 输出的每一段回答,都是一个字一个字这么接龙接出来的。

这个认知很重要——LLM 没有懂,只有猜。 但当接龙做得足够准的时候,就足够模拟出 AI 真的很懂的样子了。

训练三阶段:从读到精再到对齐

一个 LLM 从"什么都不会"到"能用",要经过三个阶段。

预训练——全世界互联网上能找到的所有文字,网页、书籍、维基百科、新闻、论坛,几十万亿的字,全拿过来。

在这里插入图片描述

让模型一遍又一遍地玩"猜下一个字"的游戏。猜错了就内部调整参数,猜对了就保留。这个阶段成本极高,GPT-3 光是一次训练就要花上亿美元。

后训练精修——预训练完的模型虽然能接龙,但回答太生硬,像在抄书。这时候拿高质量对话数据(人工写的问题+标准答案)来精调,让模型学会怎么像一个正常人那样回答问题。

对齐——最后一步,用人类反馈来校准。给模型生成的多个回答排好坏,让它学会什么该说、什么不该说、怎么更有帮助。

在这里插入图片描述

这就是 RLHF(基于人类反馈的强化学习),也是 ChatGPT 当年脱颖而出的关键一步。

在这里插入图片描述

核心概念划重点

理解 LLM 需要了解几个关键概念。

参数:相当于模型内部的"小开关"数量。7B(70亿参数)的模型和 671B(6710亿参数,DeepSeek V3)的模型,能力差距就像小学生和博士生的区别。

在这里插入图片描述

参数越多,模型能记住的语言模式越丰富,但计算成本和部署难度也成倍增加。

在这里插入图片描述

Token:模型内部处理的不是"字",而是 token。一个 token 差不多相当于 0.75 个汉字。你提问的时候,模型不是看你一句话,而是看一堆 token 串在一起。

在这里插入图片描述

上下文窗口:模型一次能"记住"多少 token。GPT-4 是 12.8 万 token,Claude 2.5 达到了 100 万 token。窗口越大,它能处理的长文档就越长。

超出上下文窗口的内容,模型就会"忘记"——这不是 bug,是工作机制决定的。

在这里插入图片描述

温度参数:控制模型回答的"随机性"。温度设为 0,模型每次都选概率最高的那个词,回答稳定但不灵活。温度调高,模型会选概率较低但也可能的词,更有创造力但也更容易跑偏。

LLM 的实际工作过程

拿一个日常场景举例。你在 AI 里输入"帮我写一封请假邮件,因为感冒"。

模型先把这句话拆成 token 序列,然后从自己的参数里算出接下去最可能的词。首先输出"亲"——“亲爱的"的概率更高,于是输出"爱"再接"的”。一个接一个,直到"请领导批准"——到这里模型判断已经能组成一封完整的请假邮件了。

这就是 流式输出——你看到 AI 打字的时候,其实它正在实时做逐词预测。所以你会发现有时候它写到一半会"反悔"——删掉前面写的话重新输出,因为在接龙过程中发现了更合理的走向。

AI 家族的层级关系

很多概念容易混,理一下就清楚了。

人工智能(AI) 是最大的概念,图像识别、语音合成、自动驾驶等都算 AI。

在这里插入图片描述

大语言模型(LLM) 是 AI 中专门处理文本的子集。

多模态模型 是 LLM 的进化版——不仅能看文字,还能看图、听声音、处理视频。像 GPT-4o 就是典型。

在这里插入图片描述

推理模型 是更进一步——LLM 只是逐词预测,推理模型会在内部做多步思考和验证,像 OpenAI 的 o1。

在这里插入图片描述

日常说的"DeepSeek V3""GPT-4""Kimi"都是 LLM,"DeepSeek R1""o1"就是推理模型的代表。

参数规模与蒸馏

不同参数规模的模型适用于不同场景。

7B 模型可以在手机上跑,但回答质量有限。70B 模型需要显卡才能跑,回答质量明显提升。671B 模型是顶级水平,但需要多张高性能显卡集群才能部署。

蒸馏 技术解决了这个问题——用大模型(如 671B)的答案作为教材,去训练小模型(如 7B),让小模型以远低于大模型的成本,获得接近大模型的输出能力。这就是很多端侧 AI(手机本地模型)能做好的根本原因。

在这里插入图片描述

模型选择建议

在这里插入图片描述

日常聊天用免费网页版就好——豆包、Kimi、DeepSeek Web 都够用,完全免费。

复杂任务推荐用 API 调用——写代码、分析长文档、处理结构化数据,用 DeepSeek API(性价比高)或 Claude API(长上下文强)。

数据敏感场景选开源模型本地部署——不把数据传输到外网,Qwen、DeepSeek 开源版都可以自己部署。

总结

LLM 没有我们想象中那么神秘。它的本质就是一个被海量数据训练过的词语接龙高手,一个字一个字地预测输出。当这种接龙做得足够准的时候,就模拟出了"懂"的样子。

理解了这个底层逻辑,选模型、调参数、判断回答质量,都会更有谱。


常见问题

Q:LLM 和 ChatGPT 是什么关系?
A:ChatGPT 是基于 GPT 系列 LLM 开发的应用产品。LLM 是底层的"发动机",ChatGPT 是上面的"车身"。

Q:为什么 AI 有时候会胡说八道?
A:这叫"幻觉"。因为 LLM 的本质是在做概率预测,当它遇到训练数据中没有明确答案的问题,就会根据概率编造一个看起来像样的回答。

Q:参数越大的模型是不是一定更好?
A:通常来说参数越大能力越强,但部署成本也成倍增加。对于日常简单任务,蒸馏后的小模型反而性价比更高,速度和成本都友好。

Q:同样的问题问不同模型,回答不一样是为什么?
A:有两个原因。一是模型训练数据不同,知识库有差异。二是温度参数设置不同,高温度时回答会有一定随机性。

Q:开源 LLM 和闭源 LLM 怎么选?
A:闭源模型(GPT-4、Claude)能力更强,但成本高、受限于供应商服务。开源模型(DeepSeek、Qwen)可以本地部署,数据安全可控,适合对隐私要求高的场景。


以上内容由 Ai好记 转录整理。
支持解析B站、抖音、小宇宙等平台链接及本地/网盘的音视频文件,转写后自动生成精华速览、思维导图和结构化笔记,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值