【无标题】

用AI的时候,你是不是也被Token搞懵过?
比如算接口额度、担心Prompt超字数,最常问的就是:1个中文字到底算几个Token?英文、数字、符号又怎么算?

本期就用大白话把Token的相关知识讲清楚,看完你就不会再为这个问题犯愁了。

先简单说下,Token到底是什么?

其实很好理解,你就把它当成AI“吃文字”的一口饭。不管是中文、英文,还是数字、符号,AI都会先把它们切成一小段一小段,每一小段,就是1个Token。

重点是,它不是按字数算,也不是按字母算,是按“能理解的语义片段”算的,这点记好,后面就好懂了。

先解决核心问题:1个中文字,到底算几个Token?

直接给结论,通用大模型都这么算:1个汉字,大概等于1个Token,包括中文标点,比如,。!?这些,一个也按1个Token算。

稍微精确点说,普通中文大概1个字≈0.6-1个Token,但日常估算,直接按1字=1个Token来算,最稳妥,不容易超额度。

举两个简单例子:“我喜欢你”,就是4个Token;“今天天气真好!”,7个Token。这么看,中文其实是最“费Token”的,一个字就占AI一口“饭”。

再说说英文,这是很多人最容易搞混的地方——到底按字母算,还是按单词算?

答案很简单:只要是正常的英文单词,不管长短,大多都只算1个Token。

比如“interesting”,看着11个字母,其实就1个Token;“beautiful”“development”也一样,都是1个Token。只有那种特别长、特别生僻的词,比如“supercalifragilisticexpialidocious”,才会被拆成2-3个Token,这种情况平时几乎遇不到。

但如果是零散的字母,不是完整单词,就按字母算,大概4个字母≈1个Token。比如“a b c d”,就是1个Token;单独一个“k”,大概0.25个Token。

总结一下就是:连成完整单词,就按词算;零散字母,就按个估算。
  • 接下来是数字和符号,这俩是最“省Token”的。

先看数字,连续的数字会被AI打包计算,大概3-4个数字≈1个Token。比如“123”,差不多1个Token;“123456”,大概2个Token;像“2025-02-27”这种带符号的日期,会拆成几段,总共也就2-3个Token。

然后是符号,分两种情况:英文符号,比如! @ # $这些,大概3-4个≈1个Token;而中文标点,比如,。、!,就和汉字一样,1个算1个Token。

给大家整理了个好记的表格,平时忘了可以翻一翻:

再跟大家聊个进阶的,可能有人好奇,AI到底是怎么切分Token的?
不是我们想的那样,中文按字切,英文按词切。
它用的是一种叫“子词分词”的方法,说简单点,就是优先切最常见、最长的片段,切不动了再拆小,实在不行,最后才按单字或单字母算。

给大家举几个真实案例,理解起来会更轻松。

中文的话,“人工智能”可能会切成“人工”和“智能”,算2个Token;“我今天去上班”,可能切成“我”“今天”“去”“上班”,算4个Token。

英文的话,“unhappiness”会切成“un”和“happiness”,算2个Token;“running”会切成“run”和“ning”,算2个Token;而“happy”这种常见词,就直接算1个Token。

简单来说,文本越常见、越规整,消耗的Token就越少;反之,越生僻、越杂乱的文本,Token消耗就越多。

最后给大家分享几个日常能用的估算公式:

中文:字数×1;英文:单词数×1;数字+符号:数量÷3~4。

日常算额度、控字数,用这个估算,足够准了。

总结一下,其实就四句话:

中文最贵,一字差不多一口“饭”;

英文单词按词算,不按字母算;

数字符号最省,三四位才顶一口;

AI不是数笔画,是按能理解的片段“吃饭”。

下次再用AI,不管是算Token消耗,还是算API费用,你心里就门儿清了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值