HMM 和 CRF 的概念理解不那么简单,文章简单梳理下两者的区别和原理。 1. HMM 隐马尔科夫模型的训练参数有:初始状态概率矩阵、转移概率矩阵、发射概率矩阵。如果我们进行的是有监督学习,那么就需要从训练集中通过统计...
多标签分类是指每个样本可以被分配到多个类别中,即:可以拥有多个标签。比如:某条新闻既可以是军事类新闻、也可以是政治类新闻。 在评估多标签分类模型时,我们使用的是样本平均精确率、样本平均召回率和样本平均 F1 分数。 接下...
主题模型(Topic Model) 是以非监督的方式对文档的隐含语义结构(Latent Semantic Structure)进行聚类的统计模型。它主要被用于自然语义处理中的语义分析和文本挖掘问题,例如:按主题对文本进行...
在 《Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》 中作者提到: 在小数据集上训练的文本...
很多资料表明,通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法: 马尔科夫链文本增强 百度回译数据增强 EDA 数据增强 1. 数据信息简单展示 接下来演示使用的数据为 json 格式,其共有...
我们经常使用 Bert 的预训练模型 bert-base-chinese 作为基础模型来实现下游的一些文本理解 NLP 任务。原始的 bert-base-chinese 使用 12 层的隐藏层网络,参数量巨大,本案例使用...
很多资料表明,通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法: 马尔科夫链文本增强 百度回译数据增强 EDA 数据增强 1. 数据信息简单展示 接下来演示使用的数据为 json 格式,其共有...
提到目标检测,我们几乎都是从 R-CNN 开始,这篇文章就对 R-CNN 做一个简单的了解。要内容来自 Paper 《Rich feature hierarchies for accurate object detect...
PyTorch 中提供了 BCELoss 和 BCEWithLogitsLoss 两个用于计算二分类交叉熵损失的函数。两者的区别如下: BCELoss 要求输入的 logits 必须在 (0-1) 之间,所以需要先进行 ...
多分类交叉熵是我们经常使用的一种损失函数,这篇文章总结下关于多分类交叉熵的一些小点,主要有: 多分类交叉熵对于整数标签的计算 多分类交叉熵对于浮点数标签的计算 多分类交叉熵中的标签平滑 1. 多分类交叉熵对于整数标签计算...
PaddleNLP 库提供了非常简便的文本数据增强实现,主要包括: WordSubstitute 词替换 WordDelete 词删除 WordSwap 词交换 WordInsert 词插入 并且 WordSubstit...