自然语言处理（NLP）中的 Token 解析

预计阅读时间: 6 分钟

在自然语言处理（NLP）的世界里，Token（标记） 是模型处理文本的基本单位。Token 在将语言拆分成可管理的部分方面起着至关重要的作用，使机器学习模型能够更轻松地解析和生成文本。

了解 Token 对于任何从事 NLP 工作的人来说都是必不可少的。无论是优化成本、提高模型效率，还是处理大规模文本输入，掌握 Token 化的工作原理都有助于更好地使用AI工具。

什么是 Token？

Token 可以是单词、子词、字符，甚至是标点符号。文本的 Token 化方式取决于特定 NLP 模型所使用的分词器。以下是一些常见的 Token 处理方式：

基于单词的 Token 化：在简单情况下，每个单词被视为一个 Token。例如，句子：
- “ChatGPT is amazing!” → [“ChatGPT”, “is”, “amazing”, “!”]（4 个 Token）
基于子词的 Token 化：许多现代 NLP 模型（如 GPT）使用子词 Token 化来更高效地处理罕见单词。这意味着将单词拆分为有意义的子部分：
- “extraordinary” → [“extra”, “ordinary”]（2 个 Token）
基于字符的 Token 化：在中文等语言中，由于单词之间没有明显的空格分隔，Token 可以表示单个字符：
- “你好世界” → [“你”, “好”, “世”, “界”]（4 个 Token）

为什么 Token 很重要？

提高处理效率：Token 化帮助 NLP 模型以可管理的文本块进行处理，提高计算效率。
管理内存和成本：NLP 模型具有 Token 限制，输入和输出中的 Token 数量会影响计算时间和成本。
上下文长度限制：基于 Token 的模型（如 GPT-4）在单个会话中最多可以处理 8K 或 32K 个 Token。超出此限制的内容会被截断。

如何计算 Token 数量？

Token 包括单词、子词、空格和标点。例如：

“Hello, world!” → [“Hello”, “,”, “world”, “!”]（4 个 Token）

要估算 Token 使用量，可以使用本地计算方法：

import re

def count_tokens(text):
    tokens = re.findall(r"\w+|[^\w\s]", text, re.UNICODE)
    return len(tokens)

text = "Hello, ChatGPT!"
print("Token 数量:", count_tokens(text))

不同 Token 计算方法的比较

根据具体 NLP 任务，可以采用不同的方法来计算 Token 数量：

基于空格的 Token 计数（适用于英文）

def count_tokens_by_space(text):
return len(text.split())

适用场景：英文文本的基本 Token 计数。

2. 基于字符的 Token 计数（适用于中文等无空格语言）

def count_tokens_by_character(text):
    return len(text)

适用场景：适用于中文、日语等语言。

3. 基于子词的 Token 计数（更接近 BPE/WordPiece）

def count_tokens_by_subword(text):
tokens = re.findall(r"\w+|[^\w\s]", text, re.UNICODE)
return len(tokens)

适用场景：适用于 NLP 预训练模型，如 GPT、BERT。

Token 计算的实际应用

计算 API 成本：在使用 OpenAI API 时，Token 直接影响调用成本。
优化输入文本：减少不必要的 Token 以提高模型响应速度。
提升 Prompt 设计：在 Prompt Engineering 过程中，合理规划 Token 使输出质量更高。

此外，还可以使用以下工具来更精确地计算 Token：

OpenAI 的 tiktoken
Hugging Face 的 tokenizers

启鑫的黑板报

自然语言处理（NLP）中的 Token 解析

什么是 Token？

为什么 Token 很重要？

如何计算 Token 数量？

不同 Token 计算方法的比较

Token 计算的实际应用

评论

发表回复取消回复

自然语言处理（NLP）中的 Token 解析

什么是 Token？

为什么 Token 很重要？

如何计算 Token 数量？

不同 Token 计算方法的比较

Token 计算的实际应用

相关文章

评论

发表回复 取消回复

发表回复取消回复