我们一直使用 PyTorch 进行模型训练,有时会出现显存不足的情况。除了找到对应的解决办法,比如:累加梯度、使用自动混合精度,还应该了解训练时,显存究竟在哪些...
在分类问题中,会碰到样本类别不均衡的情况。此时,模型为了能够降低损失,会去尽量学习多数样本,导致对少数类别样本的学习减弱。 举个不太恰当的例子,我们有数学和语文...
协同过滤推荐(Collaborative Filtering Recommendation):该算法的核心是分析用户的兴趣和行为,利用共同行为习惯的群体有相似喜...
时序卷积网络(TCN)是一种用于处理时序数据的神经网络架构。它在许多任务(如时间序列预测、自然语言处理等)中被认为是替代循环神经网络(RNN)的一个强大模型。 ...
在文本处理中,Conv1D 可以处理序列数据。假设我们有一段文本序列,首先会通过词嵌入将每个单词转换成固定维度的向量,然后使用 Conv1D 对这些向量进行卷积...
PaddleNLP 中封装了一些 Encoder,可以帮助我们 sequence 中的多 token 向量转换为 sequence vector,主要方法有: ...
PaddleNLP 提供多个开源的预训练词向量模型,使用非常便捷。接下来结合官方给出的详细文档总结下主要的内容。 https://paddlenlp.readt...
Longformer(Long Document Transformer)是由 Allen Institute for AI(AI2)在 2020 年提出的一种...
Oat++ 是一个开源的 C++ Web 开发框架,接下来通过几篇文章了解下该框架的工作过程以及使用方法。文章主要内容包括: Oat++ 安装过程 Oat++ ...
传统的 CNN 通常要求输入图像的尺寸是固定的(例如224×224,这是因为全连接层(Fully Connected Layer)需要固定长度的输入向...