时序卷积网络(Temporal Convolutional Networks)是一种简单的卷积结构。它在许多任务中,性能比循环神经网络例(例如:LSTM)要表现的更好。 因果卷积(...
Conv2D 主要用在图像特征提取,而对于文本数据我们一般用 Conv1D。怎么去理解 1D 和 2D? 首先,我们可以把 Conv2D 中的 channel 理解为 Conv1D...
PaddleNLP 中封装了一些 Encoder,可以帮助我们 sequence 中的多 token 向量转换为 sequence vector,主要方法有: BoWEncoder...
PaddleNLP 提供多个开源的预训练词向量模型,使用非常便捷。接下来结合官方给出的详细文档总结下主要的内容。 https://paddlenlp.readthedocs.io/...
我们通常用模型包含的参数量和计算量来衡量一个模型的复杂度。参数量指的是模型学习参数数量,它决定了模型的大小,以及内存资源的占用,当然,在训练过程中,模型的实际内存使用量并不仅仅由参...
Tansformer-based 的模型都是基于自注意力机制,我们知道自注意力机制擅长捕捉输入 Token 内部相关性,并以此能够建立对 Token 的表征。但是自注意力机制随着输...
创建 autograd.Function 的子类,需要实现两个静态的方法 forward 和 backward。应用该 op 时,调用 apply 方法,不要直接调用 forwar...
叶子张量是 PyTorch 计算图中的一个重要概念,叶子张量指的就是我们的模型参数,而模型参数一般都是我们自己创建的 requires_grad=True 的张量。它位于整个计算图...
我们一直使用 PyTorch 进行模型训练,有时会出现显存不足的情况。除了找到对应的解决办法,比如:累加梯度、使用自动混合精度,还应该了解训练时,显存究竟在哪些环节被大量占用。主要...
Gradient Checkpoint 是一种能够节省内存的技术。什么时候需要节省内存呢?比如:模型太大,无法放到西有限的显存中训练。或者模型能够放到显存中,但是只能使用较小的 b...
在分类问题中,会碰到样本类别不均衡的情况。此时,模型为了能够降低损失,会去尽量学习多数样本,导致对少数类别样本的学习减弱。 举个不太恰当的例子,我们有数学和语文两个科目,其中数学的...
协同过滤推荐(Collaborative Filtering Recommendation):该算法的核心是分析用户的兴趣和行为,利用共同行为习惯的群体有相似喜好的原则,推荐用户感...
SentenceTransformers is a Python framework for state-of-the-art sentence, text and image e...
ANNOY(Approximate Nearest Neighbors Oh Yeah)算法能够帮助我们高效的查找近邻的 N 个向量。其基本原理:就是将所有向量按照空间进行划分,直...
对模型进行剪枝,使得模型参数稀疏化可以降低模型的复杂度,也能够一定程度上加快模型的计算速度。我们知道决策树通过剪枝能够起到正则化,防止过拟合。在深度学习模型中,裁剪也能够起到相应的...
自动混合精度(AMP)
2024-06-07阅读(1159)
XGBoost(Extreme Gradient Boosting)
2023-03-29阅读(1494)
XLNet
2022-10-16阅读(1127)
因子分解机(Factorization Machine)
2022-09-29阅读(1036)
霍夫曼编码算法(Huffman Coding)
2022-09-22阅读(1328)
克鲁斯卡尔算法(Kruskal)
2022-09-21阅读(1003)
普利姆算法(Prim)
2022-09-21阅读(925)
迪杰斯特拉算法(Dijkstra)
2022-09-20阅读(977)
图遍历算法(DFS、BFS)
2022-09-20阅读(889)
潜在语义分析(Latent Semantic Analysis)
2022-06-28阅读(816)