1. 安装 docker https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository 2. 安装 dify 请先访问 https...
梯度裁剪是一种有效的防止梯度爆炸的技术,特别是在训练深度神经网络和循环神经网络时。它通过限制梯度的大小,使训练过程更加稳定。虽然有时可能会影响收敛速度,但它对于防止训练失败是非常有用的。 1. 梯度爆炸 梯度爆炸是指在反...
KL 散度是一种衡量两个概率分布之间差异的度量。它描述了一个概率分布相对于另一个概率分布的 信息损失。在信息论中,KL散度也被称为相对熵。 假设:、 为随机变量 的两个概率分布,在离散和连续随机变量的情形下,KL 散度计...
高斯分布(Gaussian distribution),也叫正态分布,是数据分析和统计学中最常见的一种概率分布。它得名于德国数学家卡尔·高斯,因其呈现一个对称的“钟形”曲线,因此也被称为“钟形曲线”或“钟形分布”。 1....
在词袋模型中,由于并不考虑词序,会导致 “我爱你” 和 “你爱我” 这两个文本的向量表示相同。比如: 根据语料构建词表为:[“我”, “...
在带有注意力机制的 Encoder-Decoder 模型中存在很多注意力机制,本篇文章根据原始论文对 Bahdanau 注意力计算方法和 Luong 注意力计算方法进行总结。 Bahdanau Attention Luo...
PGN 网络可用于文本生成,文本生成任务是从序列到序列的模型,马上就想到了 Seq2Seq 架构的模型。当我们要实现一个文本摘要的文本生成任务时,基本思路是什么样的呢? 输入一串文本到编码器,提取句子的语义表示向量 由解...