多标签分类是指每个样本可以被分配到多个类别中,即:可以拥有多个标签。比如:某条新闻既可以是军事类新闻、也可以是政治类新闻。 在评估多标签分类模型时,我们使用的是样本平均精确率、样本...
主题模型(Topic Model) 是以非监督的方式对文档的隐含语义结构(Latent Semantic Structure)进行聚类的统计模型。它主要被用于自然语义处理中的语义分...
我们知道 PCA 能够对信息(矩阵)进行压缩,图像数据也是矩阵形式,所以 PCA 也能够实现对图像数据压缩。 程序输出结果: 上面代码中,我们设置保留原始图像 0.8 的信息,输出...
LDA (Linear Discriminant Analysis)名称为线性判别分析,它也是一种直接、快速的分类模型。它本身也是监督算法,训练时需要提供有标注的数据。我们简要描述...
在 《Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks...
很多资料表明,通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法: 马尔科夫链文本增强 百度回译数据增强 EDA 数据增强 1. 数据信息简单展示 接下来...
我们经常使用 Bert 的预训练模型 bert-base-chinese 作为基础模型来实现下游的一些文本理解 NLP 任务。原始的 bert-base-chinese 使用 12...
很多资料表明,通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法: 马尔科夫链文本增强 百度回译数据增强 EDA 数据增强 1. 数据信息简单展示 接下来...
提到目标检测,我们几乎都是从 R-CNN 开始,这篇文章就对 R-CNN 做一个简单的了解。要内容来自 Paper 《Rich feature hierarchies for ac...
PyTorch 中提供了 BCELoss 和 BCEWithLogitsLoss 两个用于计算二分类交叉熵损失的函数。两者的区别如下: BCELoss 要求输入的 logits 必...
多分类交叉熵是我们经常使用的一种损失函数,这篇文章总结下关于多分类交叉熵的一些小点,主要有: 多分类交叉熵对于整数标签的计算 多分类交叉熵对于浮点数标签的计算 多分类交叉熵中的标签...
PaddleNLP 库提供了非常简便的文本数据增强实现,主要包括: WordSubstitute 词替换 WordDelete 词删除 WordSwap 词交换 WordInser...
在使用自回归模型做生成任务时,例如使用 GPT2 做生成任务,需要解码预测结果。会接触到以下几种解码方法: Greedy Search Beam Search Top-K Samp...
下面的是具体的训练代码和小说生成代码。 1. 训练代码 训练过程会输出一个 epoch 的总损失,以及每个 epoch 结束时使用的学习率。注意,下面代码运行时,不可以将 main...
前面使用 GPT2 实现生成对联任务,这两天想用 GPT2 实现小说生成。这两个任务看似都是文本生成任务,但还是不同的。对联任务生成的内容很短小,生成小说则内容很长。从实现过程来看...
Ignite 是一个可以帮助我们在 PyTorch 中训练和评估神经网络的高级库。简单来讲,使用该训练库可以让我们的训练代码更加简洁,灵活。工具的安装命令如下: Ignite 中主...