如何将一个句子、段落、或者文档用一个向量表示?词袋模型,该模型将每个文档转换为固定长度的整数向量。例如,给定以下句子: 模型输出向量: 每个向量有 10 个元素,其中每个元素计算特定单词在文档中出现的次数。元素的顺序是任...
HMM 和 CRF 的概念理解不那么简单,文章简单梳理下两者的区别和原理。 1. HMM 隐马尔科夫模型的训练参数有:初始状态概率矩阵、转移概率矩阵、发射概率矩阵。如果我们进行的是有监督学习,那么就需要从训练集中通过统计...
多标签分类是指每个样本可以被分配到多个类别中,即:可以拥有多个标签。比如:某条新闻既可以是军事类新闻、也可以是政治类新闻。 在评估多标签分类模型时,我们使用的是样本平均精确率、样本平均召回率和样本平均 F1 分数。 接下...
主题模型(Topic Model) 是以非监督的方式对文档的隐含语义结构(Latent Semantic Structure)进行聚类的统计模型。它主要被用于自然语义处理中的语义分析和文本挖掘问题,例如:按主题对文本进行...
在 《Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》 中作者提到: 在小数据集上训练的文本...
很多资料表明,通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法: 马尔科夫链文本增强 百度回译数据增强 EDA 数据增强 1. 数据信息简单展示 接下来演示使用的数据为 json 格式,其共有...
很多资料表明,通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法: 马尔科夫链文本增强 百度回译数据增强 EDA 数据增强 1. 数据信息简单展示 接下来演示使用的数据为 json 格式,其共有...
提到目标检测,我们几乎都是从 R-CNN 开始,这篇文章就对 R-CNN 做一个简单的了解。要内容来自 Paper 《Rich feature hierarchies for accurate object detect...
PyTorch 中提供了 BCELoss 和 BCEWithLogitsLoss 两个用于计算二分类交叉熵损失的函数。两者的区别如下: BCELoss 要求输入的 logits 必须在 (0-1) 之间,所以需要先进行 ...
ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)是一种用于自然语言处理(NLP)的预训练模型,旨...
多分类交叉熵是我们经常使用的一种损失函数,这篇文章总结下关于多分类交叉熵的一些小点,主要有: 1. 整数标签 其中: 示例代码: 程序输出结果: 2. 浮点数标签 在 Pytorch 1.10 版本之前,CrossEnt...
PaddleNLP 库提供了非常简便的文本数据增强实现,主要包括: 并且 WordSubstitute 和 WordInsert 还支持 4 种替换和插入方法: 其中自定词典简单示例如下: 使用示例代码:
模型架构来自论文:https://arxiv.org/pdf/1905.08284.pdf,文章内容主要来自对这篇 Paper 的学习。Relation Classification 是一个重要的 NLP 任务,它主要用...