模型评估主要做的事情,提取测试集所有的实体名称,并划分为 ORG、PER、LOC 类别。分别统计每个类别的精度、召回率,以及准确率。 1. 提取实体名称 我编写了 extract_...
我们使用 Bert 的 bert-base-chinese 为基础模型,在我们自己的数据集上进行微调来实现 NER 任务。我们这里使用的是 transformers 库中提供的 B...
我们使用的是 MSRA 中文 NER 数据集,该数据集共包含三个目录:test、valid、train,分别对应了测试集、验证集、训练集。训练集有:42000 条数据,验证集有 3...
对于命名实体识别任务,基于神经网络的方法应用非常常见。其中的 CRF 层对于刚刚接触学习的同学可能不是特别容易理解,下联链接的文章的作者对 CRF 做了非常好的讲解。我认真学习了作...
分词算法的目的就是将输入的整个序列分割为 token 序列。对于英文来说,最简单的分词方法就是以空格来分割出每一个单词(token)。对于中文而言,虽然没有像英文那样天然的分隔符,...
我们在使用 transformers 时,需要使用自己的数据来构建 tokenizer。这里我们使用 tokenizer 库,该库可以帮我们更加轻松的构建不同类型的 Tokeniz...
在 Character-Level Language Modeling with Deeper Self-Attention 中,作者提到 LSTM 和 RNN 变体能够在对字符级...
我们主要实现了两个预测函数,一个用于给定第一个字,来预测上联和下联,另外一个可以输入整个上联来预测下联,这俩函数其实很类似。 1. 预测上下联 2. 只预测下联 3. 调用示例 程...
这部分主要包含两部分: 对联模型类编写 训练函数的实现 1. 对联模型 首先,我们将加载数据处理时得到的 tokenizer-encode-tokenizer, 主要用于获得词表大...
GPT 非常适合生成类任务,下面使用对联语料从零训练一个用于对联生成的模型。该模型: 输入一个字,自动生成上联和下联 输入上联,自动生成下联 语料文件结构如下: 语料部分截图: 导...
Type Traits 是 C++11 中的一种模板元编程技术,它提供了一系列的模板类和函数,用于在编译时查询和操作类型信息。这些类型特征可以用于泛型编程中,帮助我们编写更加灵活、...
我们在前面的训练过程中,共产生多个 checkpoint, 分别如下: 我们接下来,使用测试集分别在不同的 checkpoint 下去评估下模型的准确率、精度、召回率,还有 f1-...
我们在 bert-base-chinese 中文预训练模型的基础上进行微调,以适应在新的数据集-中文酒店评论上进行文本分类。在这里我们使用 Train 类来完成中文评论分类模型的训...
数据集是中文的酒店评论,共有 50216 + 12555 条评论,前者是训练集,后者是验证集。clean_data 函数是对评论做的一些简单的处理。train_data 的数据对象...
auto_ptr 是 C++98 中引入的智能指针,用于自动管理动态分配的对象的生命周期。然而,它在 C++11 中已被标记为已废弃,并且在 C++17 中已被移除,因为它存在一些...
自动混合精度(AMP)
2024-06-07阅读(1163)
XGBoost(Extreme Gradient Boosting)
2023-03-29阅读(1497)
XLNet
2022-10-16阅读(1129)
因子分解机(Factorization Machine)
2022-09-29阅读(1041)
霍夫曼编码算法(Huffman Coding)
2022-09-22阅读(1331)
克鲁斯卡尔算法(Kruskal)
2022-09-21阅读(1008)
普利姆算法(Prim)
2022-09-21阅读(925)
迪杰斯特拉算法(Dijkstra)
2022-09-20阅读(978)
图遍历算法(DFS、BFS)
2022-09-20阅读(890)
潜在语义分析(Latent Semantic Analysis)
2022-06-28阅读(817)