Google SentencePiece

SentencePiece 是一种用于文本处理的工具，特别适用于基于神经网络的文本生成系统。它的主要功能是将文本分割成更小的单位（称为子词单元），这些子词单元可以是完整的单词、部分单词，甚至是单个字符。

灵活的词汇表： SentencePiece 允许我们在训练神经网络之前预先确定词汇表的大小。这对于控制模型的复杂度非常有用。
处理未知词： 它可以处理训练数据中未出现过的词，通过将它们分解成子词单元来表示。
语言无关性： SentencePiece 不依赖于特定的语言，可以用于多种语言的文本处理。
端到端系统： 它可以直接从原始文本进行训练，不需要额外的预处理或后处理步骤。

SentencePiece 主要使用了两种技术：

BPE ：通过迭代合并频繁出现的子序列来构建词汇表。
UniGram： 基于词频的语言模型，用于对生成的子词序列进行评分，从而选择最佳的分割方式。

pip install sentencepiece

GitHub：https://github.com/google/sentencepiece

使用示例代码：

from sentencepiece import SentencePieceTrainer
from sentencepiece import SentencePieceProcessor


# 1. 训练
def test01():
    SentencePieceTrainer.train(input='corpus.txt',
                               # 指定输出模型的前缀名称。模型文件包含两个文件：model_prefix.model 和 model_prefix.vocab
                               model_prefix='model/tokenizer',
                               # 指定输入文件的格式。可以是 'text'（默认，按行分隔的句子）或者 'tsv'（Tab 分隔的文件，第一列为句子，其他列可选）
                               input_format='text',
                               # 指定模型涵盖的字符的百分比
                               character_coverage=0.99,
                               # 词汇表的大小，即模型最终生成的分词单位数量。包括特殊符号（如 <unk>）在内
                               vocab_size=163,
                               # 指定模型类型。支持四种模型：unigram、bpe、char、word
                               model_type='bpe',
                               # 是否在训练前对输入的句子进行随机打乱
                               shuffle_input_sentence=True,
                               # 指定 <pad> 等特殊标记 ID。设置为 -1 时，表示该符号不在词汇表中
                               pad_id=0,
                               bos_id=1,
                               eos_id=2,
                               # 指定 <unk>（未知标记）的 ID
                               unk_id=3,
                               # 定义用户自定义的特殊符号。这些符号将被包含在词汇表中，且不会被进一步分词处理
                               user_defined_symbols=['<user>', '<system>', '<asistant>'],
                               # 指定控制符号（如 <cls> 等）。这些符号用于控制模型的行为
                               control_symbols=['|CLS|', '|SEP|'],
                               # 当模型遇到未登录词时，它将使用 |unk| 来表示这些词
                               unk_surface='|unk|',
                               # 指定文本标准化规则。支持：'nmt_nfkc'：标准 NFKC 正规化，用于去除不必要的符号。'identity'：不进行任何标准化。
                               normalization_rule_name='nmt_nfkc')

# 2. 加载
def test02():
    # 加载方法一
    tokenizer = SentencePieceProcessor()
    tokenizer.load('model/tokenizer.model')

    # 加载方法二
    tokenizer = SentencePieceProcessor(model_file='model/tokenizer.model')
    print('词表大小:', tokenizer.vocab_size())

# 3. 编码
def test03():
    tokenizer = SentencePieceProcessor(model_file='model/tokenizer.model')
    inputs = tokenizer.Encode(input=['郑钦文仍然创造僻'],
                              # 指定输出的类型。可以输出 piece 的索引（int）或文本（str）。
                              out_type=str,
                              # 是否在输出序列的开头添加 <bos>（句子开始标记）
                              add_bos=True,
                              # 是否在输出序列的末尾添加 <eos>（句子结束标记）
                              add_eos=True,
                              # 是否对输出的子词序列进行反转
                              reverse=False,
                              # 设置为 True，遇到未登录词时则使用 unk_surface 代替，否则返回 unk_id 对应的 ID。
                              emit_unk_piece=True)
    print(inputs)


# 4. 解码
def test04():
    tokenizer = SentencePieceProcessor(model_file='model/tokenizer.model')
    outputs = tokenizer.Decode([[13, 87, 43, 56, 12]],
                               # str 字符串类型
                               # bytes 字节类型
                               # 'serialized_proto' 一种高效的二进制格式，通常用于数据存储和网络传输。
                               # 'immutable_proto' 解码后得到的输出内容为不可变的协议缓冲区对象
                               out_type='serialized_proto')
    print(outputs)
    # print(outputs[0].text)
    # print(outputs[0].score)
    # for piece in outputs[0].pieces:
    #     print(piece)
    

if __name__ == '__main__':
    test04()

Google SentencePiece

取消回复