孟宝亮的文章

有着15年的开发和教学经验，专注于分享 Python、机器学习、深度学习、大模型、以及 Linux C/C++ 等方面的技术课程！

我的文章 Transformer-XL
孟宝亮2025-07-28137004
在 Character-Level Language Modeling with Deeper Self-Attention 中，作者提到 LSTM 和 RNN...
我的文章 BERT 长度限制
孟宝亮2025-07-28219704
Bert 模型对输入有 512 的长度限制，有时我们的输入会超过 512，此时就需要一些方法来解决，这里总结了一些方法。修改模型的长度限制对输入进行长度截断...
我的文章 SGD 优化器原理
孟宝亮2025-07-28125904
我们先回顾下梯度下降法参数更新的公式：从公式，可以很清楚的看到，参数能否学习就看学习率 LR 和梯度 G 了。如果某一点的梯度是 0 的话，那么参数就无法更新...
我的文章基于 BiLSTM+CRF 实现 NER 任务 – 训练预测
孟宝亮2025-07-28113902
我们接下来编写训练函数、评估函数、预测函数。 1. 训练函数由于我们希望批次输入训练数据，在使用 RNN、GRU、LSTM 时，可以使用 pad_sequen...
我的文章基于 BiLSTM+CRF 实现 NER 任务 – 模型构建
孟宝亮2025-07-28124900
模型构建主要包括了 CRF 层的实现，以及 BiLSTM 层的实现。其中 CRF 层相对复杂一些，主要有两个较难的难点：一、要计算所有路径的损失，二、要根据发射...
我的文章基于 BiLSTM+CRF 实现 NER 任务 – 数据处理
孟宝亮2025-07-28103600
数据处理主要是加在语料、构建词典、以及将数据集转换为索引表示。我们这里会删除句子长度超过 505 的句子。由于构建词典时，是根据训练集数据构建的，所以在对测试集...
我的文章基于 Bert 实现 NER 任务
孟宝亮2025-07-28136103
命名实体识别（Named Entity Recognition，简称 NER）是自然语言处理（NLP）中的一项重要任务，旨在从非结构化文本中识别并分类具有特定意...
我的文章 CRF 层详细实现
孟宝亮2025-07-28151902
BiLSTM + CRF 中的 CRF 层重要的是两个函数的实现，一个是损失的计算，一个是维特比解码算法的实现。前者用于模型在训练过程中学习网络参数，后者用于预...
我的文章权重衰减（Weight Decay）
孟宝亮2025-07-28302202
当看到 weight decay 时，从字面意思指的是权重参数衰减，会觉得其和 L2 正则化是等价，因为 L2 正则化也能够达到权重衰减的作用，其实概念是不同的...
我的文章 Adam 优化器原理
孟宝亮2025-07-28221904
AdaGrad、RMSProp 针对学习率进行了优化，不同的参数分量在更新时能够使用各自更适合的学习率。Momentum 则是对梯度进行了优化，可以避免碰到鞍点...
我的文章 AdaGrad 和 RMSProp 优化器原理
孟宝亮2025-07-28121302
我们在使用梯度下降法时应该发现了不同参数分量在更新时使用相同的学习率。注意：不同分量使用的梯度可能是不同的。例如：我们现在有参数向量，它有 3 个分量，使用梯度...
我的文章 Neo4j 图数据库使用
孟宝亮2025-07-28102603
我们在使用 Neo4j 图数据库时，经常会接触到结点、关系、属性、标签等概念。结点是描述对象的实体，类似于面向对象中一个实例化出来的对象。对象内部的实际数据我们...
我的文章 PyTorch Ignite Concepts
孟宝亮2025-07-28106300
Ignite 是一个可以帮助我们在 PyTorch 中训练和评估神经网络的高级库。简单来讲，使用该训练库可以让我们的训练代码更加简洁，灵活。工具的安装命令如下：...
我的文章 Learning Rate Scheduler（二）
孟宝亮2025-07-28151001
书接上回，上篇文章介绍了 7 种学习率的调整策略，PyTorch 1.11 版本中共有 14 种，本篇文章接着介绍剩下的 7 种学习率调整策略。 lr_sche...
我的文章 Learning Rate Scheduler（一）
孟宝亮2025-07-28171000
torch.optim.lr_scheduler 提供了动态调整学习率的方法。在使用的时， Learning Rate Scheduler 一般在优化器的更新参...

1 … 12 13 14 … 37

孟宝亮的文章

我的文章 Transformer-XL

我的文章 BERT 长度限制

我的文章 SGD 优化器原理

我的文章 基于 BiLSTM+CRF 实现 NER 任务 – 训练预测

我的文章 基于 BiLSTM+CRF 实现 NER 任务 – 模型构建

我的文章 基于 BiLSTM+CRF 实现 NER 任务 – 数据处理

我的文章 基于 Bert 实现 NER 任务

我的文章 CRF 层详细实现

我的文章 权重衰减（Weight Decay）

我的文章 Adam 优化器原理

我的文章 AdaGrad 和 RMSProp 优化器原理

我的文章 Neo4j 图数据库使用

我的文章 PyTorch Ignite Concepts

我的文章 Learning Rate Scheduler（二）

我的文章 Learning Rate Scheduler（一）

孟宝亮 的文章

孟宝亮的文章