Transformer 通常有数树百万、甚至数百亿的参数,训练和部署这些模型是一项复杂的工作。此外,由于几乎每天都会发布新模型并且每个模型都有自己的实现,使用它们并不是一件容易的事。Transformers 库提供了简单...
谷歌团队在 2017年6月提出了 Transformer 架构,目标是翻译任务。接着又出现了一些有影响力的模型: 2018 年 6 月:GPT 模型,第一个预训练的 Transformer 模型,被用于微调适应各种 NL...
下联模型采用 Seq2Seq + Attention 结构。其计算过程如下: 首先,将上联送入编码器得到对上联的语义理解; 然后,将下联送入解码器得到对下联的语义理解; 接着,计算解码器每一个时间步的输出和编码器各个时间...
上联生成模型比较简单,使用词嵌入层 + GRU + 线性层即可,其训练数据的构造如下: 输入的数据和目标数据相差一个位置,即:输入前一个词预测后一个词。我们每个迭代就向网络中送入一条数据,并计算损失。 1. 词表类 2....
这次的对联生成任务需要两个模型来完成,第一个模型根据首字来生成上联,例如:输入 “月” 预测出 “月似高人明大道”, 第二个模型则根据输入的上联预测出下联,例如:输入 ...
1. KL 散度 KL 散度又叫相对熵(relative entropy)、信息散度(information divergence),指的是两个概率分布间差异的非对称性度量。 设 P(x)、Q(x) 为随机变量 X 上的...
高斯分布(Gaussian distribution),也叫正态分布,是数据分析和统计学中最常见的一种概率分布。它得名于德国数学家卡尔·高斯,因其呈现一个对称的“钟形”曲线,因此也被称为“钟形曲线”或“钟形分布”。 1....
在词袋模型中,由于并不考虑词序,会导致 “我爱你” 和 “你爱我” 这两个文本的向量表示相同。比如: 根据语料构建词表为:[“我”, “...