在做检索时,我们可以通过关键字召回可能的结果。这里就是两个简单的方法: 基于 Inverted Index 进行召回 基于 TF-IDF 进行召回 1. 基于 Inverted Index 进行召回 这个思路较为简单,比...
贝叶斯公式是概率论中的一个重要公式,它以18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)的名字命名。它用于计算在给定一些先验信息的情况下,估计某一事件的概率。 贝叶斯公式在许多领域中都有广泛的应用,包括统计学...
基于 word2vec + kmeans 实现文本摘要的思路如下: 文本处理:对文本内容进行一些必须的预处理; 分割句子:将文档分割成多个子句; 句子编码:使用 word2vec 或者 bert 对句子进行编码; 文本聚...
二进制向量之间的距离或相似度可以使用以下度量方法: Jaccard 距离 Hanming 距离 Tanimoto 距离 1. Jaccard 相似度 x ∪ y 表示 x 和 y 集合的并集 x ∩ y 表示 x 和 y...
K-means 算法中,如何去度量聚类结果的优劣?以及 K 值究竟如何设定更加合适呢?下面我们通过几个方面来介绍下: 1. 误差平方和 假设:我们现在有 3 个簇,累加每个簇的所属样本减去其质心的平方和,即为该聚类结果的...
线性回归(Linear Regression)是最基础的机器学习算法之一,用于建模因变量(目标变量)与一个或多个自变量(特征)之间的线性关系。它广泛应用于预测分析、统计建模和数据挖掘领域。 1. 决策函数 线性回归的核心...
Boosing 是一族可以将弱学习器提升为强学习器的算法。这族算法的工作机制是:先从初始化训练集训练处一个基学习器,再根据学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调...
Teacher Forcing 是一种在训练序列生成模型(如循环神经网络 RNN、长短期记忆网络 LSTM、Transformer 等)时使用的技术。 1. 问题场景 Teacher Forcing 是一种用于训练序列...
在机器学习中,岭回归(Ridge Regression)是一种常用的回归分析方法,它是线性回归的一种变体,通过引入正则化来减小模型的复杂度,防止过拟合,尤其在特征数多且存在多重共线性问题时,岭回归能有效提高预测精度。 1...
词袋模型(Bag-of-Words,BoW)是一种表示和处理文本数据的模型或框架,它提供了一种简单的思想,使得我们能够实现文本转换为数值形式,以便进行进一步的分析,例如:进行新闻分类、文档检索、情感分析等任务。 1. 文...
视频课程地址:https://space.bilibili.com/429380437 《垃圾邮件识别器》项目旨在开发一个能够支持邮件输入、并自动识别垃圾邮件的窗口应用程序。该项目主要包含以下方面的内容: 相信通过本项目...
我们的开发环境:Win11 + PyCharm 2021.1.3 + Python 3.8.5 1. 虚拟环境 https://mengbaoliang.cn/archives/tag/py-env 接下来,创建 spa...