Sentence Transformers 是由 Hugging Face 维护的开源 Python 库,通过深度学习模型捕捉文本的语义信息,转换为数值向量表示。基于这些向量可以实现语义相似度计算、文本聚类、信息检索、情...
ANNOY(Approximate Nearest Neighbors Oh Yeah)算法能够帮助我们高效的查找近邻的 N 个向量。其基本原理:就是将所有向量按照空间进行划分,直到子空间小于等于 K 个向量位置。如下图...
对模型进行剪枝,使得模型参数稀疏化可以降低模型的复杂度,也能够一定程度上加快模型的计算速度。我们知道决策树通过剪枝能够起到正则化,防止过拟合。在深度学习模型中,裁剪也能够起到相应的作用。 模型的裁剪本质上是将部分的模型参...
我们使用的是 TNEWS 数据集,该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。数据量:训练集(53,360),验证集(10,000),测试集(10,000),例子: {R...
情感分析本质是一个文本分类任务。PaddleNLP 内置了 ERNIE、BERT、RoBERTa、Electra 等丰富的预训练模型,并且内置了各种预训练模型对于不同下游任务的Fine-tune网络。用户可以使用 Pad...
我们使用的算法模型中大都是批量学习(Batch Learning)模式,即:假设在训练之前所有训练样本一次都可以得到,学习这些样本之后,学习过程就终止了,不再学习新的知识。 在有些场景下,训练样本通常不可能一次全部得到,...
线性回归在建模的时候,只考虑到了单个特征的影响。但是有些场景下,添加组合特征(交叉特征)会给模型带来非常好的效果。 POLY2 算法(二阶多项式)在线性回归基础上添加组合特征 ,并为每个组合特征配备了一个学习参数 ,如下...
如何将一个句子、段落、或者文档用一个向量表示?词袋模型,该模型将每个文档转换为固定长度的整数向量。例如,给定以下句子: 模型输出向量: 每个向量有 10 个元素,其中每个元素计算特定单词在文档中出现的次数。元素的顺序是任...
最长公共子序列是一个非常实用的问题,它可以描述两段文本之间的 “相似程度”。所谓的子序列就是从原来的序列中取出一部分做成新的序列,新的序列并不要求是连续的。这和子串有些区别,子串也是原始序列中的一...
20世纪50年代初,美国数学家贝尔曼(R.Bellman)等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理,从而创立了动态规划。 在现实生活中,有类问题可将过程划分成多个互相联系的子阶段,我们需要对每一个子阶...
霍夫曼编码(英语:Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。由大卫·霍夫曼在1952年发明。熵用于信息量度量,其本质是信息的平均编码长度,所以也叫熵编码。...
平衡二叉树(Balanced Binary Tree)是二叉查找树的一个进化体,也是第一个引入平衡概念的二叉树。1962年,G.M. Adelson-Velsky 和 E.M. Landis发明了这棵树,所以它又叫AVL...
克鲁斯卡尔算法和普利姆算法一样,用于构建最小生成树。普利姆算法基本思想就是寻找每个顶点权值最小的边,而克鲁斯卡尔算法则是依据边来寻找权值最小的边。 1. 算法过程 上图的邻接矩阵表示如下: 由于克鲁斯卡尔算法是基于边来构...
生成树:如果对于图 G 中任意两个顶点 vi,vj 都是连通的,则称G是连通图。生成树是对连通图而言的,是连同图的极小连通子图,包含图中的所有顶点,有且仅有n-1条边。 最小生成树:在图论中,常常将树定义为一个无回路连通...