Tansformer-based 的模型都是基于自注意力机制,我们知道自注意力机制擅长捕捉输入 Token 内部相关性,并以此能够建立对 Token 的表征。但是自注意力机制随着输...
创建 autograd.Function 的子类,需要实现两个静态的方法 forward 和 backward。应用该 op 时,调用 apply 方法,不要直接调用 forwar...
叶子张量是 PyTorch 计算图中的一个重要概念,叶子张量指的就是我们的模型参数,而模型参数一般都是我们自己创建的 requires_grad=True 的张量。它位于整个计算图...
我们一直使用 PyTorch 进行模型训练,有时会出现显存不足的情况。除了找到对应的解决办法,比如:累加梯度、使用自动混合精度,还应该了解训练时,显存究竟在哪些环节被大量占用。主要...
Gradient Checkpoint 是一种能够节省内存的技术。什么时候需要节省内存呢?比如:模型太大,无法放到西有限的显存中训练。或者模型能够放到显存中,但是只能使用较小的 b...
在分类问题中,会碰到样本类别不均衡的情况。此时,模型为了能够降低损失,会去尽量学习多数样本,导致对少数类别样本的学习减弱。 举个不太恰当的例子,我们有数学和语文两个科目,其中数学的...
协同过滤推荐(Collaborative Filtering Recommendation):该算法的核心是分析用户的兴趣和行为,利用共同行为习惯的群体有相似喜好的原则,推荐用户感...
SentenceTransformers is a Python framework for state-of-the-art sentence, text and image e...
对模型进行剪枝,使得模型参数稀疏化可以降低模型的复杂度,也能够一定程度上加快模型的计算速度。我们知道决策树通过剪枝能够起到正则化,防止过拟合。在深度学习模型中,裁剪也能够起到相应的...
我们使用的是 TNEWS 数据集,该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。数据量:训练集(53,360),验证集(10,000),测...
情感分析本质是一个文本分类任务。PaddleNLP 内置了 ERNIE、BERT、RoBERTa、Electra 等丰富的预训练模型,并且内置了各种预训练模型对于不同下游任务的Fi...
我们使用的算法模型中大都是批量学习(Batch Learning)模式,即:假设在训练之前所有训练样本一次都可以得到,学习这些样本之后,学习过程就终止了,不再学习新的知识。 在有些...
线性回归在建模的时候,只考虑到了单个特征的影响。但是有些场景下,添加组合特征(交叉特征)会给模型带来非常好的效果。 POLY2 算法(二阶多项式)在线性回归基础上添加组合特征 ,并...
如何将一个句子、段落、或者文档用一个向量表示?词袋模型,该模型将每个文档转换为固定长度的整数向量。例如,给定以下句子: 模型输出向量: 每个向量有 10 个元素,其中每个元素计算特...
HMM 和 CRF 的概念理解不那么简单,文章简单梳理下两者的区别和原理。 1. HMM 隐马尔科夫模型的训练参数有:初始状态概率矩阵、转移概率矩阵、发射概率矩阵。如果我们进行的是...
使用样本进行模型训练时,特征个数太多会增加模型训练的复杂性。所以,我们希望数据集既能特征个数较少,又蕴含信息较多的信息。 虽然我们已经拿到数据集,并且数据集的维度可能较大,我们也可...