函数调用绑定(Function Call Binding)指的是将一个函数调用与相应的函数定义(实现)关联起来的过程。 1. 函数绑定 对于 C++ 程序而言,将函数查找、关联的过程放在编译期完成,在运行时,避免这部分工...
当看到 weight decay 时,从字面意思指的是权重参数衰减,会觉得其和 L2 正则化是等价,因为 L2 正则化也能够达到权重衰减的作用,其实概念是不同的。L2 一般作为正则化项是添加到损失函数中,作为损失计算的一...
AdaGrad、RMSProp 针对学习率进行了优化,不同的参数分量在更新时能够使用各自更适合的学习率。Momentum 则是对梯度进行了优化,可以避免碰到鞍点、局部最小值时参数无法更新的情况。 我们经常把 Adam 理...
我们在使用梯度下降法时应该发现了不同参数分量在更新时使用相同的学习率。注意:不同分量使用的梯度可能是不同的。例如:我们现在有参数向量,它有 3 个分量,使用梯度下降法更新参数时都使用相同的学习率 lr。 AdaGrad ...
我们接下来编写训练函数、评估函数、预测函数。 1. 训练函数 由于我们希望批次输入训练数据,在使用 RNN、GRU、LSTM 时,可以使用 pad_sequence、packed_pad_sequence、pad_pac...
模型构建主要包括了 CRF 层的实现,以及 BiLSTM 层的实现。其中 CRF 层相对复杂一些,主要有两个较难的难点:一、要计算所有路径的损失,二、要根据发射矩阵回溯最优路径。 1. CRF 层实现 CRF 层实现时计...
数据处理主要是加在语料、构建词典、以及将数据集转换为索引表示。我们这里会删除句子长度超过 505 的句子。由于构建词典时,是根据训练集数据构建的,所以在对测试集进行编码时,可能会出现 oov 问题,我们直接用 UNK 来...
命名实体识别(Named Entity Recognition,简称 NER)是自然语言处理(NLP)中的一项重要任务,旨在从非结构化文本中识别并分类具有特定意义的实体,如人名、地名、机构名、时间表达、数量、货币和百分比...
对于命名实体识别任务,基于神经网络的方法应用非常常见。其中的 CRF 层对于刚刚接触学习的同学可能不是特别容易理解,下联链接的文章的作者对 CRF 做了非常好的讲解。我认真学习了作者的相关文章,把自己的理解总结下来,想看...
Albert(A Lite Bert For Self-Supervised Learning Of Language Representations)是对 Bert 的改进,其主要思想就是用更少的参数,取得更好的效果。...
字节对编码(Byte-Pair Encoding,BPE)最初被开发为一种文本压缩算法,后来被 OpenAI 用于 GPT 模型预训练时的分词。许多 Transformer 模型都使用了该方法,包括 GPT、GPT-2、...
《垃圾邮件识别器》(六)数据处理
2017-12-09阅读(5930)
Faiss 向量检索库
2023-10-06阅读(4871)
《垃圾邮件识别器》(一)准备工作
2017-12-14阅读(4854)
《垃圾邮件识别器》(四)算法理论
2017-12-11阅读(4047)
《垃圾邮件识别器》(七)训练评估
2017-12-09阅读(4041)
jieba 工具使用
2019-02-13阅读(3771)
《垃圾邮件识别器》(五)Scikit-Learn
2017-12-10阅读(3740)
Windows Protobuf 编译安装
2024-05-27阅读(3731)
《垃圾邮件识别器》内容摘要
2017-12-15阅读(3235)
《垃圾邮件识别器》(二)Tkinter
2017-12-13阅读(3118)
向量数据库 milvus 使用
2023-03-11阅读(3051)
BERT
2022-05-04阅读(3048)
C++ 运行时类型识别(RTTI)
2020-12-25阅读(2905)
权重衰减(Weight Decay)
2022-05-28阅读(2865)
《垃圾邮件识别器》(三)界面搭建
2017-12-12阅读(2856)
《垃圾邮件识别器》(八)收尾工作
2017-12-08阅读(2821)
XGBoost 解决多分类问题
2023-03-30阅读(2820)
最新评论