我们在使用 transformers 时,需要使用自己的数据来构建 tokenizer。这里我们使用 tokenizer 库,该库可以帮我们更加轻松的构建不同类型的 Tokenizer。安装命令如下: 训练一个分词器,我...
在 Character-Level Language Modeling with Deeper Self-Attention 中,作者提到 LSTM 和 RNN 变体能够在对字符级语言建模有着非常优秀的表现,这得益于它能...
我们主要实现了两个预测函数,一个用于给定第一个字,来预测上联和下联,另外一个可以输入整个上联来预测下联,这俩函数其实很类似。 1. 预测上下联 2. 只预测下联 3. 调用示例 程序预测输出: 看着挺工整,懂对联的同学可...
这部分主要包含两部分: 对联模型类编写 训练函数的实现 1. 对联模型 首先,我们将加载数据处理时得到的 tokenizer-encode-tokenizer, 主要用于获得词表大小,当然,我们在前面处理时,可以单独将词...
GPT 非常适合生成类任务,下面使用对联语料从零训练一个用于对联生成的模型。该模型: 输入一个字,自动生成上联和下联 输入上联,自动生成下联 语料文件结构如下: 语料部分截图: 导入需要的模块: 1. 语料清洗 对语料进...
Type Traits 是 C++11 中的一种模板元编程技术,它提供了一系列的模板类和函数,用于在编译时查询和操作类型信息。这些类型特征可以用于泛型编程中,帮助我们编写更加灵活、通用和安全的代码。 例如:判断一个类型是...
我们在前面的训练过程中,共产生多个 checkpoint, 分别如下: 我们接下来,使用测试集分别在不同的 checkpoint 下去评估下模型的准确率、精度、召回率,还有 f1-score。 1. 模型评估 在我电脑上...
我们在 bert-base-chinese 中文预训练模型的基础上进行微调,以适应在新的数据集-中文酒店评论上进行文本分类。在这里我们使用 Train 类来完成中文评论分类模型的训练。我们训练时,只训练下游任务的参数部分...
数据集是中文的酒店评论,共有 50216 + 12555 条评论,前者是训练集,后者是验证集。clean_data 函数是对评论做的一些简单的处理。train_data 的数据对象为: 我们最终会将数据序列化到 data...
auto_ptr 是 C++98 中引入的智能指针,用于自动管理动态分配的对象的生命周期。然而,它在 C++11 中已被标记为已废弃,并且在 C++17 中已被移除,因为它存在一些严重的缺陷和安全问题。 1. auto_...
在这篇文章中,我们重点学习 C++ 中用于动态内存管理的技术 – 智能指针,C++11 中智能指针包含:unique_ptr、shared_ptr、weak_ptr。这篇文章我们学习 unique_ptr 的用法。 接...
我们了解下如何使用 Datasets 库来加载、处理数据集。安装命令如下: 1. 加载数据集 Datasets 库可以加载在线数据集:https://huggingface.co/datasets,也可以加载本地数据集。...
智能指针是我们 C++ 中用于管理动态对象(堆区对象)的技术,在实际生产环境中,也有非常重要的应用。 本片文章我们学习 C++11 中的 shared_ptr 智能指针,主要从以下几个方面来学习: 1. shared...