loading

Loading

探索与发现

首页 千问GPT

大模型中一个token 约等于多少个字符

分类:千问GPT
字数: (503)
阅读: (116)
0
摘要:通常一个汉字 ≈ 1 个 token(但不是绝对!)

在大语言模型(比如我这样的AI)里,一个 token 并不固定等于多少个字符,因为它不是按“字”或“字母”来切分的,而是按“有意义的单元”来分的。

举几个例子你就明白啦:

- 在英文中:

 - 单词 “cat” 通常是1 个 token

 - “unhappiness” 可能被拆成 **“un”, “happi”, “ness”** → **3 个 tokens**

 - 空格、标点也可能单独成 token,也可能和词连在一起

- 在中文中:

 - 通常一个汉字 ≈ 1 个 token(但不是绝对!)

 - 比如:“你好” 一般是 2 个 tokens

 - 但有些常见词或短语可能被合并,比如“人工智能”有时是 1 个 token,有时是 4 个,看模型的分词方式

大致估算:

- 英文:1 个 token ≈ 4~5 个字符(包括空格)

- 中文:1 个 token ≈ 1~1.3 个汉字

所以不能简单说“1 token = X 字符”,它取决于语言、上下文、模型的分词规则(比如用的是 Byte Pair Encoding, BPE 这类算法)。


本文发布于2026年02月02日16:03,已经过了97天,若内容或图片失效,请留言反馈

转载请注明出处: 燃点博客

本文的链接地址: https://ww.fengran.net/千问GPT/25.html

评论列表:
empty

暂无评论

1 / 1
预览图