PGN 网络可用于文本生成,文本生成任务是从序列到序列的模型,马上就想到了 Seq2Seq 架构的模型。当我们要实现一个文本摘要的文本生成任务时,基本思路是什么样的呢? 输入一串文本到编码器,提取句子...
在带有注意力机制的 Encoder-Decoder 模型中存在很多注意力机制,本篇文章根据原始论文对 Bahdanau 注意力计算方法和 Luong 注意力计算方法进行总结。 Bahdanau Att...
在词袋模型中,由于并不考虑词序,会导致 “我爱你” 和 “你爱我” 这两个文本的向量表示相同。比如: 根据语料构建词表为:[“我”...
高斯分布(Gaussian distribution),也叫正态分布,是数据分析和统计学中最常见的一种概率分布。它得名于德国数学家卡尔·高斯,因其呈现一个对称的“钟形”曲线,因此也被称为“钟形曲线”或...
KL 散度是一种衡量两个概率分布之间差异的度量。它描述了一个概率分布相对于另一个概率分布的 信息损失。在信息论中,KL散度也被称为相对熵。 假设:、 为随机变量 的两个概率分布,在离散和连续随机变量的...
梯度裁剪是一种有效的防止梯度爆炸的技术,特别是在训练深度神经网络和循环神经网络时。它通过限制梯度的大小,使训练过程更加稳定。虽然有时可能会影响收敛速度,但它对于防止训练失败是非常有用的。 1. 梯度爆...
Docker 是一个开源的应用容器引擎,使用 Docker 可以将我们的应用程序和其依赖环境打包到一起进行移植、发布,我们就不需要在一台新的机器上为应用程序去安装、配置所需的依赖包、环境变量等。Doc...
当对 Docker 容器执行 stop 时,我们在容器内所做的一些更改就会丢失。我们可以使用以下几种来保存对容器的一些更改: 使用 docker cp 命令,该命令比较适合将个别的一些更改的文件的手动...
1. 配置环境 首先从链接 https://nodejs.org/zh-cn/download 下载 node.js 22.14.0(LTS),安装之后进行如下配置: 在 “user...