字节对编码(Byte-Pair Encoding,BPE)最初被开发为一种文本压缩算法,后来被 OpenAI 用于 GPT 模型预训练时的分词。许多 Transformer 模型都使用了该方法,包括 GPT、GPT-2、...
我们在使用 transformers 时,需要使用自己的数据来构建 tokenizer。这里我们使用 tokenizer 库,该库可以帮我们更加轻松的构建不同类型的 Tokenizer。安装命令如下: 训练一个分词器,我...
在 Character-Level Language Modeling with Deeper Self-Attention 中,作者提到 LSTM 和 RNN 变体能够在对字符级语言建模有着非常优秀的表现,这得益于它能...
我们主要实现了两个预测函数,一个用于给定第一个字,来预测上联和下联,另外一个可以输入整个上联来预测下联,这俩函数其实很类似。 1. 预测上下联 2. 只预测下联 3. 调用示例 程序预测输出: 看着挺工整,懂对联的同学可...
这部分主要包含两部分: 对联模型类编写 训练函数的实现 1. 对联模型 首先,我们将加载数据处理时得到的 tokenizer-encode-tokenizer, 主要用于获得词表大小,当然,我们在前面处理时,可以单独将词...
GPT 非常适合生成类任务,下面使用对联语料从零训练一个用于对联生成的模型。该模型: 输入一个字,自动生成上联和下联 输入上联,自动生成下联 语料文件结构如下: 语料部分截图: 导入需要的模块: 1. 语料清洗 对语料进...
我们在前面的训练过程中,共产生多个 checkpoint, 分别如下: 我们接下来,使用测试集分别在不同的 checkpoint 下去评估下模型的准确率、精度、召回率,还有 f1-score。 1. 模型评估 在我电脑上...
我们在 bert-base-chinese 中文预训练模型的基础上进行微调,以适应在新的数据集-中文酒店评论上进行文本分类。在这里我们使用 Train 类来完成中文评论分类模型的训练。我们训练时,只训练下游任务的参数部分...
数据集是中文的酒店评论,共有 50216 + 12555 条评论,前者是训练集,后者是验证集。clean_data 函数是对评论做的一些简单的处理。train_data 的数据对象为: 我们最终会将数据序列化到 data...
我们了解下如何使用 Datasets 库来加载、处理数据集。安装命令如下: 1. 加载数据集 Datasets 库可以加载在线数据集:https://huggingface.co/datasets,也可以加载本地数据集。...
分词器是我们在使用 transformers 时一个重要的核心组件,它的主要职责就是将输入的原始文本转换为模型需要的格式,例如:对输入的文本添加开始和结束符、填充、计算掩码、转换为索引等等。 1. Tokenizer 使...
我们将会研究下创建和使用模型,我们以 BERT 架构模型为例。 1. 创建模型 如果我们打算创建一个新的模型,即: 从头开始训练一个 BERT 模型,我们可以按照下面步骤来构建模型: 实例化一个用于模型配置的 BertC...