机器学习

机器学习基于 Doc2vec 训练 sentence 向量
孟宝亮2022-09-27104402
如何将一个句子、段落、或者文档用一个向量表示？词袋模型，该模型将每个文档转换为固定长度的整数向量。例如，给定以下句子：模型输出向量：每个向量有 10 个元素，其中每个元素计算特定单词在文档中出现的次数。元素的顺序是任...
机器学习隐马模型（HMM）和条件随机场（CRF）
孟宝亮2022-09-19152000
HMM 和 CRF 的概念理解不那么简单，文章简单梳理下两者的区别和原理。 1. HMM 隐马尔科夫模型的训练参数有：初始状态概率矩阵、转移概率矩阵、发射概率矩阵。如果我们进行的是有监督学习，那么就需要从训练集中通过统计...
机器学习多标签损失计算
孟宝亮2022-07-0499301
1. 多分类损失计算我们在计算多分类损失时，使用的是多分类交叉熵损失。其简要的计算过程如下：假设：真实的标签为 [0, 0, 1, 0, 0]，预测的分数为 [0.15, -0.34, 0.12, 0.67, 0.55...
机器学习多标签分类性能评估方法
孟宝亮2022-07-03141802
多标签分类是指每个样本可以被分配到多个类别中，即：可以拥有多个标签。比如：某条新闻既可以是军事类新闻、也可以是政治类新闻。在评估多标签分类模型时，我们使用的是样本平均精确率、样本平均召回率和样本平均 F1 分数。接下...
机器学习潜在语义分析（Latent Semantic Analysis）
孟宝亮2022-06-28119302
主题模型（Topic Model）是以非监督的方式对文档的隐含语义结构（Latent Semantic Structure）进行聚类的统计模型。它主要被用于自然语义处理中的语义分析和文本挖掘问题，例如：按主题对文本进行...
机器学习文本数据增强 – EDA
孟宝亮2022-06-2694603
在《Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》中作者提到: 在小数据集上训练的文本...
机器学习文本数据增强 – 回译
孟宝亮2022-06-26107403
很多资料表明，通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法：马尔科夫链文本增强百度回译数据增强 EDA 数据增强 1. 数据信息简单展示接下来演示使用的数据为 json 格式，其共有...
机器学习文本数据增强 – 马尔科夫链
孟宝亮2022-06-24105004
很多资料表明，通过文本数据增强也能够增强模型的分类性能。本篇文章总结几种文本数据增强的方法：马尔科夫链文本增强百度回译数据增强 EDA 数据增强 1. 数据信息简单展示接下来演示使用的数据为 json 格式，其共有...
机器学习基于候选区的卷积神经网络（R-CNN）
孟宝亮2022-06-22114501
提到目标检测，我们几乎都是从 R-CNN 开始，这篇文章就对 R-CNN 做一个简单的了解。要内容来自 Paper 《Rich feature hierarchies for accurate object detect...
机器学习二分类交叉熵损失函数（BCELoss）
孟宝亮2022-06-18261700
PyTorch 中提供了 BCELoss 和 BCEWithLogitsLoss 两个用于计算二分类交叉熵损失的函数。两者的区别如下： BCELoss 要求输入的 logits 必须在 (0-1) 之间，所以需要先进行 ...
机器学习高效的预训练 ELECTRA 语言模型
孟宝亮2022-06-15143502
ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）是一种用于自然语言处理（NLP）的预训练模型，旨...
机器学习交叉熵损失函数（Cross-Entropy Loss）
孟宝亮2022-06-14216501
多分类交叉熵是我们经常使用的一种损失函数，这篇文章总结下关于多分类交叉熵的一些小点，主要有： 1. 整数标签其中：示例代码：程序输出结果： 2. 浮点数标签在 Pytorch 1.10 版本之前，CrossEnt...
机器学习 HanLP 使用
孟宝亮2022-06-11139100
HanLP 是一个强大的自然语言处理（NLP）工具包，提供了中文处理及多语言支持，涵盖了分词、词性标注、命名实体识别、句法分析等多个 NLP 任务。它基于深度学习技术，支持多种语言，并提供了 Python、Java AP...
机器学习 PaddleNLP 数据增强函数
孟宝亮2022-06-0996803
PaddleNLP 库提供了非常简便的文本数据增强实现，主要包括：并且 WordSubstitute 和 WordInsert 还支持 4 种替换和插入方法：其中自定词典简单示例如下：使用示例代码：
机器学习 R-BERT（Relation-BERT）
孟宝亮2022-06-09121802
模型架构来自论文：https://arxiv.org/pdf/1905.08284.pdf，文章内容主要来自对这篇 Paper 的学习。Relation Classification 是一个重要的 NLP 任务，它主要用...

1 … 8 9 10 … 16

机器学习

机器学习 基于 Doc2vec 训练 sentence 向量

机器学习 隐马模型（HMM）和条件随机场（CRF）

机器学习 多标签损失计算

机器学习 多标签分类性能评估方法

机器学习 潜在语义分析（Latent Semantic Analysis）

机器学习 文本数据增强 – EDA

机器学习 文本数据增强 – 回译

机器学习 文本数据增强 – 马尔科夫链

机器学习 基于候选区的卷积神经网络（R-CNN）

机器学习 二分类交叉熵损失函数（BCELoss）

机器学习 高效的预训练 ELECTRA 语言模型

机器学习 交叉熵损失函数（Cross-Entropy Loss）

机器学习 HanLP 使用

机器学习 PaddleNLP 数据增强函数

机器学习 R-BERT（Relation-BERT）

一个视频轻松搞懂《Python 垃圾回收机制》是咋回事

基于文本向量实现零样本分类 – 再也不用调参！一文搞懂向量语义分类全流程

C++ 线程局部存储 – 创建线程私有变量的方案

Python 异步编程 – 让程序不再死等，提高效率

基于 dify + xinference + ChatTTS + SenseVoiceSmall 本地搭建语音聊天应用