在做检索时,我们可以通过关键字召回可能的结果。这里就是两个简单的方法: 基于 Inverted Index 进行召回 基于 TF-IDF 进行召回 1. 基于 Inverted I...
图像的归一化是将不同量纲的特征归一化到指定的范围内,可以消除不同特征量纲的影响。图像规范化则是将图像规范化到相同的分布。两者都有利于加快模型训练、收敛。 1. 归一化 图像的每个像...
贝叶斯公式是概率论中的一个重要公式,它以18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)的名字命名。它用于计算在给定一些先验信息的情况下,估计某一事件的概率。 贝叶斯公...
1. Nginx 配置内容如下: 2. MySQL 3. PHP 修改文件所有者 允许指定用户远程登录
我们经常在编写程序时,碰到网络问题、或者其他问题导致异常抛出,使得我们当前的任务中断。 此时,我们可能并不想直接中断任务,而是想重新尝试去执行异常抛出的部门代码。Tenacity ...
基于 word2vec + kmeans 实现文本摘要的思路如下: 文本处理:对文本内容进行一些必须的预处理; 分割句子:将文档分割成多个子句; 句子编码:使用 word2vec ...
二进制向量之间的距离或相似度可以使用以下度量方法: Jaccard 距离 Hanming 距离 Tanimoto 距离 1. Jaccard 相似度 x ∪ y 表示 x 和 y ...
Sympy 是 Python 的一个代数计算库。简单来说,可以通过该库进行一些代数计算,比如构建方程,求解方程组,求解导数等等… 下面是使用 Sympy 的简单例子:
PageRank 算法是谷歌根据网页重要程度给网页排名的算法,该值越高说明网页越重要,当用户进行相关搜索时,越有可能优先展现给用户。 我们通过一个例子来理解 PageRank 的算...
依存句法分析是自然语言处理中的一种技术,它可以用来分析句子中心词与词之间的依存关系。在依存句法分析中,每个词都被看作是句子的一个节点,而它们之间的关系则是由边来表示的。这些边描述了...
STL 中的 vector 容器就是一个基于模板泛型的动态数组,它和原生数组不同的之处在于:原生数组在定义时需要指定长度,无法随着需要自动增长,而动态数组则可以根据元素个数自动扩展...
根据词的特点将词主要划分为实词和虚词两大类。 实词指的是意义具体的词,包括名词、动词、形容词、数词、量词、代词六大类。 虚词指的是一般不能单独成句,意义比较抽象,有帮助造句作用的词...
jieba(结巴)分词是一款基于 Python 的中文分词工具,以其高性能和简单易用的特点而著称。该工具在自然语言处理、信息检索以及文本挖掘等领域得到广泛应用,成为中文文本处理领域...
K-means 算法中,如何去度量聚类结果的优劣?以及 K 值究竟如何设定更加合适呢?下面我们通过几个方面来介绍下: 误差平方和(SSE )和 “肘” 方法...
如何让个人微信公众号能够访问到个人的网站的内容,当输入任意内容就返回一个菜单,输入对应的编号返回个人网站相关的内容链接。
第二种链表的实现方式利用了 C99 中可伸缩数组成员这个特性,该特性使得我们在进行链表内存管理时,减少内存的申请和释次数。 第一种实现方式,我们在创建结点时如下图所示: 结点内存需...
C 实现链表的方式有多种,这篇文章我们将实现一种简单的单向链表。C 语言中由于没有模板技术,实现能够存储不同类型的数据就需要根据实际需求来设计链表。 一种方法是链表可以只存储用户数...
日志能够记录程序中问题信息,用户通过它来检查错误发生的原因。Python logging 模块是一个日志记录的模块。logging 模块的工作流程为: 记录器产生日志信息,并将日志...
自动混合精度(AMP)
2024-06-07阅读(1158)
XGBoost(Extreme Gradient Boosting)
2023-03-29阅读(1493)
XLNet
2022-10-16阅读(1125)
因子分解机(Factorization Machine)
2022-09-29阅读(1036)
霍夫曼编码算法(Huffman Coding)
2022-09-22阅读(1325)
克鲁斯卡尔算法(Kruskal)
2022-09-21阅读(1002)
普利姆算法(Prim)
2022-09-21阅读(924)
迪杰斯特拉算法(Dijkstra)
2022-09-20阅读(975)
图遍历算法(DFS、BFS)
2022-09-20阅读(889)
潜在语义分析(Latent Semantic Analysis)
2022-06-28阅读(816)