机器学习

机器学习 PyTorch 叶子张量
孟宝亮2022-10-23120104
叶子张量是 PyTorch 计算图中的一个重要概念，叶子张量指的就是我们的模型参数，而模型参数一般都是我们自己创建的 requires_grad=True 的张量。它位于整个计算图的开始位置，比如下面这个例子：程序输出...
机器学习显存使用分析（PyTorch）
孟宝亮2022-10-22173300
我们一直使用 PyTorch 进行模型训练，有时会出现显存不足的情况。除了找到对应的解决办法，比如：累加梯度、使用自动混合精度，还应该了解训练时，显存究竟在哪些环节被大量占用。主要有以下四个环节： CUDA 运行内存模...
机器学习焦点损失（focal loss）
孟宝亮2022-10-19123900
在分类问题中，会碰到样本类别不均衡的情况。此时，模型为了能够降低损失，会去尽量学习多数样本，导致对少数类别样本的学习减弱。举个不太恰当的例子，我们有数学和语文两个科目，其中数学的学习资料特别多，而语文的学习资料特别少。...
机器学习协同过滤（Collaborative Filtering）
孟宝亮2022-10-17105504
协同过滤推荐（Collaborative Filtering Recommendation）：该算法的核心是分析用户的兴趣和行为，利用共同行为习惯的群体有相似喜好的原则，推荐用户感兴趣的信息。基于用户的协同过滤：找到和...
机器学习 XLNet
孟宝亮2022-10-16152702
XLNet 是 Google Brain 和 CMU（卡内基梅隆大学）联合提出的一种自回归语言模型，它结合了 Transformer-XL 结构，并在双向上下文建模方面优于 BERT。XLNet 主要用于自然语言处理...
机器学习 Unigram Tokenization
孟宝亮2022-10-1527400
Unigram 算法通常用于 SentencePiece，这是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的分词算法。它从一个较大的词汇表开始，然后逐步删除其中的 token，直到达到...
机器学习用于文本摘要 Pegasus 预训练模型
孟宝亮2022-10-14102203
Pegasus（Pre-training with Extracted Gap-sentences for Abstractive Summarization）是一个用于文本摘要的预训练模型，最初由 Google Res...
机器学习更加鲁棒的 RoBERTa 模型
孟宝亮2022-10-1491902
RoBERTa（Robustly Optimized BERT Pretraining Approach）是 Meta AI（Facebook AI）在 2019 年提出的一种优化版 BERT。它的核心目标是改进 BER...
机器学习 Sentence Transformers
孟宝亮2022-10-13231602
Sentence Transformers 是由 Hugging Face 维护的开源 Python 库，通过深度学习模型捕捉文本的语义信息，转换为数值向量表示。基于这些向量可以实现语义相似度计算、文本聚类、信息检索、情...
机器学习模型剪枝（Model Pruning）
孟宝亮2022-10-1198202
对模型进行剪枝，使得模型参数稀疏化可以降低模型的复杂度，也能够一定程度上加快模型的计算速度。我们知道决策树通过剪枝能够起到正则化，防止过拟合。在深度学习模型中，裁剪也能够起到相应的作用。模型的裁剪本质上是将部分的模型参...
机器学习从 Bert 到 BiLSTM 知识蒸馏
孟宝亮2022-10-0690503
我们使用的是 TNEWS 数据集，该数据集来自今日头条的新闻版块，共提取了15个类别的新闻，包括旅游，教育，金融，军事等。数据量：训练集(53,360)，验证集(10,000)，测试集(10,000)，例子： {R...
机器学习 Ernie 中文情感分类任务
孟宝亮2022-10-04126800
情感分析本质是一个文本分类任务。PaddleNLP 内置了 ERNIE、BERT、RoBERTa、Electra 等丰富的预训练模型，并且内置了各种预训练模型对于不同下游任务的Fine-tune网络。用户可以使用 Pad...
机器学习增量学习（Incremental Learning）
孟宝亮2022-10-01174300
我们使用的算法模型中大都是批量学习（Batch Learning）模式，即：假设在训练之前所有训练样本一次都可以得到，学习这些样本之后，学习过程就终止了，不再学习新的知识。在有些场景下，训练样本通常不可能一次全部得到，...
机器学习 DBSCAN 算法
孟宝亮2022-09-30102202
DBSCAN （Density-Based Spatial Clustering of Applications with Noise）算法是一种基于密度的聚类算法，相比 Kmeans 算法，DBSCAN 可以有效处理噪...
机器学习因子分解机（Factorization Machine）
孟宝亮2022-09-29151102
线性回归在建模的时候，只考虑到了单个特征的影响。但是有些场景下，添加组合特征（交叉特征）会给模型带来非常好的效果。 POLY2 算法（二阶多项式）在线性回归基础上添加组合特征，并为每个组合特征配备了一个学习参数，如下...

1 … 7 8 9 … 16

机器学习

机器学习 PyTorch 叶子张量

机器学习 显存使用分析（PyTorch）

机器学习 焦点损失（focal loss）

机器学习 协同过滤（Collaborative Filtering）

机器学习 XLNet

机器学习 Unigram Tokenization

机器学习 用于文本摘要 Pegasus 预训练模型

机器学习 更加鲁棒的 RoBERTa 模型

机器学习 Sentence Transformers

机器学习 模型剪枝（Model Pruning）

机器学习 从 Bert 到 BiLSTM 知识蒸馏

机器学习 Ernie 中文情感分类任务

机器学习 增量学习（Incremental Learning）

机器学习 DBSCAN 算法

机器学习 因子分解机（Factorization Machine）

一个视频轻松搞懂《Python 垃圾回收机制》是咋回事

基于文本向量实现零样本分类 – 再也不用调参！一文搞懂向量语义分类全流程

C++ 线程局部存储 – 创建线程私有变量的方案

Python 异步编程 – 让程序不再死等，提高效率

基于 dify + xinference + ChatTTS + SenseVoiceSmall 本地搭建语音聊天应用