大模型 Token 简介

大模型无论是 DeepSeek、GPT、Claude 还是通义千问,都按 Token 收费。
Token 是大模型处理文本的基本单位,可以是一个单词、一个汉字、一个标点符号,甚至是一个空格。

一个 Token 代表几个单词和汉字?

(1)英文 Token:单词的“拼图”

在英文中,一个 Token 大约对应 0.75 个单词 或 3-4 个字母。比如,“unhappiness” 可能被切成 “un”、“happi”、“ness” 三个 Token。

OpenAI 官方说,1000 个 Token 大约能装下 750 个英文单词。

(2)中文 Token:汉字的“打包”

在中文中,一个 Token 通常对应 1 到 1.8 个汉字。比如,“你好,世界!” 可能被切成 [‘你’, ‘好’, ‘,’, ‘世’, ‘界’, ‘!’],共 6 个 Token。

有的模型比较“豪爽”,1 个 Token 能装下 2个汉字,而有的大模型则 1 个 Token 只装 1 个汉字。

为什么 Token 这么重要?

训练成本:大模型的训练需要消耗海量 Token,比如通义千问-7B 用了超过 2.4 万亿 Token 的数据,相当于把整个互联网的文本都“吃”了一遍。

生成速度:模型的生成速度用 TPS(每秒生成的 Token 数)来衡量,TPS 越高,AI 的“打字速度”越快。

API 费用:开发者调用大模型 API 时,Token 就是“计价单位”。比如 GPT-4 的输入 Token 每百万个收费 2.5 美元,输出 Token 每百万个收费 10 美元。

Token 的“切法”

不同的模型用不同的“刀法”切 Token:

  • 子词分词(Subword Tokenization):像 BPE 或 WordPiece,把单词切成更小的部分,适合处理复杂的语言。
  • 字级分词(Character-level Tokenization):每个汉字或字母都单独切,简单粗暴。
  • 混合分词(Hybrid Tokenization):结合字级和子词级,既精细又高效。

总结:Token 的“性价比”

  • 英文:1 个 Token ≈ 0.75 个单词 ≈ 3-4 个字母。
  • 中文:1 个 Token ≈ 1 到 1.8 个汉字。
  • 省钱小技巧:如果你想省钱,尽量用短句子,避免长篇大论,毕竟 Token 可是按“字”收费的!

计算工具

如果需要更精确的 Token 计算,可以使用各模型提供的 Token 计算工具。

Tags: none

添加新评论