何为 ChatGPT AI Token?
OpenAI 有一个很好的分解和一个有用的免费分词器工具来帮助你确定一个特定文本将有多少个分词以及文本是如何分词的(以防你需要减少提示或响应的分词数量)。
在 API 处理提示之前,输入被分解为标记。这些标记并没有准确地在单词开始或结束的地方被分割——标记可以包含尾随空格甚至子词。
您可以将标记视为用于自然语言处理的单词片段。对于英文文本,1 个标记大约为 4 个字符或 0.75 个单词。作为参考,莎士比亚全集约有 900,000 字或 120 万个令牌。
一个有用的经验法则是,对于普通英文文本,一个标记通常对应于 ~4 个字符的文本。这相当于大约 ¾ 个单词(因此 100 个标记 ~= 75 个单词)。
默认情况下,API 最多可以返回 4,096 个令牌。
令牌表示你的提示和响应有多少文本。 这是一个关键因素,因为较长的提示会缩短你的响应输出。
文本被翻译成标记,并粗略地分解为大约 4 个英语字符。
OpenAI 提供了关于如何根据文本计算标记的有用分解:
1 个令牌 ~= 4 个英文字符
1 个令牌 ~= ¾ 字
100 个标记 ~= 75 个单词
或者
1-2 句话 ~= 30 个标记
1 段 ~= 100 个代币
1,500 个单词 ~= 2048 个标记[1]
英文形式表达:
1 token ~= 4 chars in English
1 token ~= ¾ words
100 tokens ~= 75 words
或者
1-2 sentence ~= 30 tokens
1 paragraph ~= 100 tokens
1,500 words ~= 2048 tokens
要获得有关令牌如何堆叠的更多上下文,请考虑以下内容:
韦恩·格雷茨基 (Wayne Gretzky) 的名言“You miss 100% of the shots you don’t take”包含 11 个标记。
如何精确计算 文本 和 Token 的关系?
AI制造局 | 计算ChatGPT Token : https://gpt-api.ktv.ai/calculate-token