在很多领域需要进行向量相似度的计算。本篇文章主要介绍一些常见的方法: 曼哈顿距离 欧几里得距离 切比雪夫距离 闵可夫斯基距离 标准欧式距离 余弦相似度 点积相似度 1. 曼哈顿距离...
编写词典构建代码 编写数据加载器代码 编写模型定义代码 编写训练代码 编写测试代码 1. 编写词典构建代码 在开始训练词向量之前,需要先根据语料库构建出自己的词典,方便将文本语料内...
在 20 世纪 50 年代,弗兰克·罗森布莱特(Frank Rosenblatt)提出了感知机算法,其最初的目的是教会计算机识别图像。感知机的基本思路是简单模型神经元细胞的的运行原...
本篇文章主要简单介绍下自注意力机制。 1. Self Attention 机制图示 计算过程如下: 先将输入 Token 进行词嵌入计算; 为每个输入 Token 分别初始化注意力...
下一个质心选取概率计算公式: 由计算结果,可以看到当以 6 为第一个质心时,1、2、3、4 被选择为下一个质心的概率更高,而 5、7、8 被选择为下一个质心的概率很低。 简言之:k...
TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用技术。 通过 TF-IDF 我们...
梯度消失问题是深度神经网络训练中的一个常见问题,梯度消失会使得梯度值过小,甚至为 0,使得网络参数无法得到有效的更新。大白话理解的话,一个参数对应了一个特征,参数如果无法得到有效的...
在数据集较为复杂的场景下,数据集中容易出现一些异常数据、特征多重共线性问题,使得参数更新出现剧烈的震荡,难以快速收敛到最优解。 通过 L1 和 L2 正则化,一定程度上可以使得参数...
1. KD 树构建 KD 树的构建需要确定两个问题: 选择使用那个维度作为分裂点: 随机选择 顺序选择 方差最大的维度 确定以当前维度那个值作为分裂点: 中位数 注意:如果中位数对...
AdaBoost (Adaptive Boosting, 自适应提升)是 Boosting 算法的一种实现,是一种用于分类问题的算法,它用弱分类器的线性组合来构造强分类器。弱分类器...
我们知道 BN 通过对输入 mini batch 样本进行 normalization,能够加快网络收敛。但是,BN 不适合用在 RNN 网络。原因是:BN 是对同一个批次所有样本...
BiEncoder 将句子 A 和 句子 B 分别输入 Bert 模型,得到两个句子向量,然后使用余弦相似度比较两个输入句子。而 CrossEncoder 则将句子 A 和 B 拼...
Fasttext 和 Word2vec 都是词向量模型,用于将输入文本转换为词向量表示,但是它们在模型结构、训练速度、OOV问题处理方面有些很大的不同: 模型结构不同:word2v...
Rouge(Recall-Oriented Understudy for Gisting Evaluation)用于自动摘要的评估,简单介绍下论文中提到的几种 Rouge 评估方法...
最大期望算法是一类通过迭代进行极大似然估计的优化方法,通常用于包含因变量或缺失数据的概率模型进行参数估计。EM 算法的标准计算过程由 E 步和 M 步 交替组成,算法的收敛性可以确...
多项式回归时线性回归模型的一种,使用多项式可以逼近任意函数,因此多项式回归有着广泛的应用。 多项式回归的最大优点就是可以通过增加 x 的高次项对样本集进行逼近,直至达到目标为止。在...
GBDT 的全称是 Gradient Boosting Decision Tree,是 Boosing 算法思想的一种实现,是最速下降法与前向加法模型的结合。训练时,通过拟合损失函...