AdaBoost(Adaptive Boosting,自适应提升)算法由 Yoav Freund 和 Robert Schapire 于 1995 年提出,是一种能自动找出薄弱环节并不断改进的集体学习...
XGBoost(Extreme Gradient Boosting)2014 年由陈天奇开发,旨在对传统梯度提升算法(GBDT)进行高效实现和优化。2015 年,XGBoost 在 Kaggle 竞赛...
梯度提升树(Gradient Boosting Decision Tree,简称 GBDT)由 Friedman 提出,是集成学习领域的经典算法。 因此,GBDT 依旧具有极高的学习价值,是每一位数据...
在数据分析中,K-means 聚类是一种非常常用的聚类方法。它的核心思想是:将相似的数据点归为同一簇,并为每个簇计算一个质心,然后把每个点分配到距离最近的质心所属簇中。 这种方法简单高效,但也存在一些...
词袋模型(Bag-of-Words,BoW)是一种表示和处理文本数据的模型或框架,它提供了一种简单的思想,使得我们能够实现文本转换为数值形式,以便进行进一步的分析,例如:进行新闻分类、文档检索、情感分...
在构建和训练分类模型之后,我们需要了解它的预测能力。简单地说,我们需要知道模型在处理新的未见过的数据时,是否能够准确地进行分类。通过性能评估,我们可以确定模型的优点和缺陷,进而指导我们对模型的改进和优...
线性判别分析(Linear Discriminant Analysis,简称 LDA)是一种经典的统计学方法,主要用于 特征降维 和 分类问题。 它的核心思想是:寻找一个最佳的线性投影,使得投影后的数...
主成分分析(PCA,Principal Component Analysis)是一种常用的数据降维技术。数据降维是指将高维数据转换为低维数据的过程,同时尽可能保留原始数据的重要信息。通过降维可以: 1...
高斯混合模型(Gaussian Mixture Model,GMM)是一种基于概率的无监督学习模型,通过假设数据由多个高斯分布组成来进行数据建模,在机器学习、统计学和信号处理等领域有广泛的应用。 1....
在本节课程中,我们将探讨高斯混合模型(GMM)如何对新数据进行聚类。即:当我们输入一条新的数据时,模型会基于先前学习到的各个高斯分布的参数来估计该数据属于每个类别的概率。接下来,我们将详细了解这一过程...
GMM 假设数据是由多个高斯分布混合而成,接下来,我们将会探讨 GMM 是如何根据训练数据得到这些不同的高斯分布参数: 估计高斯混合模型的参数,我们并不知道数据属于哪个分布,这是典型的包含隐藏变量的参...
冀公网安备13050302001966号