1. Token 的基本概念

定义：
Token 通常指文本中最小的语义单位。它可能是一个单词、一部分单词（尤其是对于复合词或生僻词）或者甚至是标点符号、空格等。在语言模型中，文本会被分解成一系列 token，模型基于这些 token 进行输入编码、生成和理解。
示例：
例如，在英语中，“Hello, world!” 可能被拆分成 [“Hello”, “,”, “world”, “!”] 四个 token；而在中文中，由于汉字本身就携带了语义，有时每个汉字会被视为一个 token，或者采用其他分词策略（如基于词语、子词或短语的分词方法）。

2. Tokenization（分词）过程

目的：
分词的主要目标是将原始文本转换为计算机能够理解的离散单位。由于语言的复杂性和多样性，分词策略会根据不同任务和语言的特点有所不同。
常见方法：
- 基于空格分割： 对于英语等使用空格作为词界的语言，可以直接按照空格分割。但这种方法对于标点符号和复合词处理不够精细。
- 子词分割（Subword Tokenization）： 例如 Byte-Pair Encoding（BPE）、WordPiece、SentencePiece 等方法，会将词拆分为更小的单元，这样既能处理常见词，又能较好地表示生僻词或新词。
- 字符级分词： 每个字符都视为一个 token。这种方法能捕捉到细粒度的信息，但可能导致序列长度增加，计算成本较高。
应用实例：
对于大型语言模型（如 GPT），通常采用子词分割方法。这样做的好处是既能减少词汇表的大小，又能应对未知词汇（OOV，Out-Of-Vocabulary）问题。例如，“unhappiness” 可能被拆分为 [“un”, “happi”, “ness”] 三个 token，而不是单独的单词。

输入与输出：
在训练或推理过程中，模型接收到的输入是 token 的序列。模型根据这些 token 生成内部表示，并最终输出一个新的 token 序列作为结果。
序列长度限制：
由于计算资源和模型结构的限制，很多模型（尤其是 Transformer 架构）都会对输入 token 数量设定上限。超过上限的文本需要截断或分批处理。这也是为什么在使用 API 时常提到“token 限制”的原因。
概率分布和生成：
模型在生成文本时，会基于当前 token 的上下文计算每个可能后续 token 出现的概率分布，并选择最有可能的 token 添加到输出序列中。这个过程是逐步进行的，直到满足生成结束的条件（例如达到最大长度或遇到特定结束符）。

词汇表（Vocabulary）：
Tokenization 后，每个 token 通常会映射到一个唯一的数字（或索引），这些数字构成了模型的输入。模型内部有一个嵌入层（Embedding Layer），它将每个 token 的数字表示转换为一个高维向量，供后续计算使用。
嵌入向量（Embedding）：
这些向量捕捉了 token 之间的语义关系，例如“猫”和“狗”的向量可能在空间中更接近，而“猫”和“汽车”的向量则相对遥远。这种表示方式使得模型能够理解词语之间的相似性和上下文关系。