我的文章

我的文章 Transformer-XL
孟宝亮2025-07-28133204
在 Character-Level Language Modeling with Deeper Self-Attention 中，作者提到 LSTM 和 RNN 变体能够在对字符级语言建模有着非常优秀...
我的文章 Tokenization Pipeline
孟宝亮2025-07-28148601
我们在使用 transformers 时，需要使用自己的数据来构建 tokenizer。这里我们使用 tokenizer 库，该库可以帮我们更加轻松的构建不同类型的 Tokenizer。安装命令如下：...
我的文章 BPE Tokenization
孟宝亮2025-07-28205803
字节对编码（Byte-Pair Encoding，BPE）最初被开发为一种文本压缩算法，后来被 OpenAI 用于 GPT 模型预训练时的分词。许多 Transformer 模型都使用了该方法，包括 ...
我的文章一个轻量级的 Albert 模型
孟宝亮2025-07-28120600
Albert（A Lite Bert For Self-Supervised Learning Of Language Representations）是对 Bert 的改进，其主要思想就是用更少的参...
我的文章 BiLSTM + CRF 核心概念理解
孟宝亮2025-07-28183103
对于命名实体识别任务，基于神经网络的方法应用非常常见。其中的 CRF 层对于刚刚接触学习的同学可能不是特别容易理解，下联链接的文章的作者对 CRF 做了非常好的讲解。我认真学习了作者的相关文章，把自己...
我的文章 BERT MLM
孟宝亮2025-07-28173501
在学习 BERT 模型时，我们大家肯定知道其 MLM 的预训练任务，它会对输入中的 15% 的 Token 进行如下操作： 15% 中的 80% Token 使用 [MASK] Token 来替换； ...
我的文章 CRF 层详细实现
孟宝亮2025-07-28145202
BiLSTM + CRF 中的 CRF 层重要的是两个函数的实现，一个是损失的计算，一个是维特比解码算法的实现。前者用于模型在训练过程中学习网络参数，后者用于预测最优的解码输出。 1. 矩阵扩展 CR...
我的文章基于 Bert 实现 NER 任务
孟宝亮2025-07-28122803
命名实体识别（Named Entity Recognition，简称 NER）是自然语言处理（NLP）中的一项重要任务，旨在从非结构化文本中识别并分类具有特定意义的实体，如人名、地名、机构名、时间表达...
我的文章基于 BiLSTM+CRF 实现 NER 任务 – 数据处理
孟宝亮2025-07-28100700
数据处理主要是加在语料、构建词典、以及将数据集转换为索引表示。我们这里会删除句子长度超过 505 的句子。由于构建词典时，是根据训练集数据构建的，所以在对测试集进行编码时，可能会出现 oov 问题，我...
我的文章基于 BiLSTM+CRF 实现 NER 任务 – 模型构建
孟宝亮2025-07-28118900
模型构建主要包括了 CRF 层的实现，以及 BiLSTM 层的实现。其中 CRF 层相对复杂一些，主要有两个较难的难点：一、要计算所有路径的损失，二、要根据发射矩阵回溯最优路径。 1. CRF 层实现...
我的文章基于 BiLSTM+CRF 实现 NER 任务 – 训练预测
孟宝亮2025-07-28110902
我们接下来编写训练函数、评估函数、预测函数。 1. 训练函数由于我们希望批次输入训练数据，在使用 RNN、GRU、LSTM 时，可以使用 pad_sequence、packed_pad_sequen...
我的文章 SGD 优化器原理
孟宝亮2025-07-28121304
我们先回顾下梯度下降法参数更新的公式：从公式，可以很清楚的看到，参数能否学习就看学习率 LR 和梯度 G 了。如果某一点的梯度是 0 的话，那么参数就无法更新。什么时候会出现梯度为 0 的情况？比如...
我的文章 BERT 长度限制
孟宝亮2025-07-28210904
Bert 模型对输入有 512 的长度限制，有时我们的输入会超过 512，此时就需要一些方法来解决，这里总结了一些方法。修改模型的长度限制对输入进行长度截断通过滑动窗口重构输入通过提取关键部分...
我的文章 AdaGrad 和 RMSProp 优化器原理
孟宝亮2025-07-28118202
我们在使用梯度下降法时应该发现了不同参数分量在更新时使用相同的学习率。注意：不同分量使用的梯度可能是不同的。例如：我们现在有参数向量，它有 3 个分量，使用梯度下降法更新参数时都使用相同的学习率 lr...
我的文章 Adam 优化器原理
孟宝亮2025-07-28210304
AdaGrad、RMSProp 针对学习率进行了优化，不同的参数分量在更新时能够使用各自更适合的学习率。Momentum 则是对梯度进行了优化，可以避免碰到鞍点、局部最小值时参数无法更新的情况。我们...

1 … 11 12 13 … 28

我的文章

我的文章 Transformer-XL

我的文章 Tokenization Pipeline

我的文章 BPE Tokenization

我的文章 一个轻量级的 Albert 模型

我的文章 BiLSTM + CRF 核心概念理解

我的文章 BERT MLM

我的文章 CRF 层详细实现

我的文章 基于 Bert 实现 NER 任务

我的文章 基于 BiLSTM+CRF 实现 NER 任务 – 数据处理

我的文章 基于 BiLSTM+CRF 实现 NER 任务 – 模型构建

我的文章 基于 BiLSTM+CRF 实现 NER 任务 – 训练预测

我的文章 SGD 优化器原理

我的文章 BERT 长度限制

我的文章 AdaGrad 和 RMSProp 优化器原理

我的文章 Adam 优化器原理