在做检索时,我们可以通过关键字召回可能的结果。这里就是两个简单的方法: 基于 Inverted Index 进行召回 基于 TF-IDF 进行召回 1. 基于 Inverted Index 进行召回 这个思路较为简单,比...
图像的归一化是将不同量纲的特征归一化到指定的范围内,可以消除不同特征量纲的影响。图像规范化则是将图像规范化到相同的分布。两者都有利于加快模型训练、收敛。 1. 归一化 图像的每个像素值的范围是 [0, 255],我们在将...
贝叶斯公式是概率论中的一个重要公式,它以18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)的名字命名。它用于计算在给定一些先验信息的情况下,估计某一事件的概率。 贝叶斯公式在许多领域中都有广泛的应用,包括统计学...
我们经常在编写程序时,碰到网络问题、或者其他问题导致异常抛出,使得我们当前的任务中断。 此时,我们可能并不想直接中断任务,而是想重新尝试去执行异常抛出的部门代码。Tenacity 就是一个可以解决此问题的用 Python...
基于 word2vec + kmeans 实现文本摘要的思路如下: 文本处理:对文本内容进行一些必须的预处理; 分割句子:将文档分割成多个子句; 句子编码:使用 word2vec 或者 bert 对句子进行编码; 文本聚...
二进制向量之间的距离或相似度可以使用以下度量方法: Jaccard 距离 Hanming 距离 Tanimoto 距离 1. Jaccard 相似度 x ∪ y 表示 x 和 y 集合的并集 x ∩ y 表示 x 和 y...
Sympy 是 Python 的一个代数计算库。简单来说,可以通过该库进行一些代数计算,比如构建方程,求解方程组,求解导数等等… 下面是使用 Sympy 的简单例子:
PageRank 算法是谷歌根据网页重要程度给网页排名的算法,该值越高说明网页越重要,当用户进行相关搜索时,越有可能优先展现给用户。 我们通过一个例子来理解 PageRank 的算法计算过程,我们现在有 3 个网页,网页...
依存句法分析是自然语言处理中的一种技术,它可以用来分析句子中心词与词之间的依存关系。在依存句法分析中,每个词都被看作是句子的一个节点,而它们之间的关系则是由边来表示的。这些边描述了不同词之间的依存关系,比如一个词是另一个...
飞机大战是一种经典的 2D 射击游戏,通常初学者学习 Python 编程的一个很好的项目。通过这个课程帮助大家扎实 Python 基础知识和技能。 1. 效果展示 操作:W 前、S 后、A 左、D 右、J 发射1个子弹、...
STL 中的 vector 容器就是一个基于模板泛型的动态数组,它和原生数组不同的之处在于:原生数组在定义时需要指定长度,无法随着需要自动增长,而动态数组则可以根据元素个数自动扩展内存。动态数组可以使用 C 来实现,但是...
根据词的特点将词主要划分为实词和虚词两大类。 实词指的是意义具体的词,包括名词、动词、形容词、数词、量词、代词六大类。 虚词指的是一般不能单独成句,意义比较抽象,有帮助造句作用的词。汉语虚词包括副词、介词、连词、助词、叹...