
在学习决策树原理之前,我们先感性的了解下决策树的构建和推理过程、以及 API 的使用。 1. 分类决策树 分类决策树基于训练数据构建一个树状结构,每个节点代表一...

构建决策树时,需要根据训练数据计算所有特征的最佳分裂点,来实现分类决策树构建。在 scikit-learn 的分类决策树实现中,主要用到了两种方法: 接下来,我...

在构建回归决策树时,我们需要找到最优的分裂点,以最小化子集的均方误差。回归决策树也有自己的一些分裂准则,我们将详细探讨这些分裂准则的计算方法,并介绍如何应用它们...

过拟合(Overfitting)是指模型在训练数据上表现得很好,但在未见过的测试数据上表现较差的现象。无论是传统机器学习算法、还是深度学习算法都会出现过拟合问题...

Scikit-Learn(sklearn)是一个用于机器学习的Python库,其中包含了大量用于分类、回归、聚类和其他机器学习任务的算法和工具。在sklearn...

Word2Vec 是 Google 在 2013 年推出的一种用于生成词向量的模型,它通过无监督学习的方式从大量文本数据中学习单词的语义关系。即:通过训练一个浅...


joblib 是一个Python库,用于在Python中高效地保存和加载对象,特别是那些包含大型数据数组的对象。它在机器学习领域中非常有用,因为经常需要保存训练...

SoftMax 函数是深度学习和机器学习中一个非常重要的概念,主要用于处理多分类问题。Softmax 函数能够将一个实数向量映射为一个概率分布,使得输出向量的所...

聚类(Clustering)指的是将一组数据点按照某种规则或者方法分成多个组或簇,使得同一组内的数据点在某种意义上更相似,而不同组之间的数据点相对较不相似。 聚...

Product Quantization 是一种有效的近似最近邻搜索方法,具有较高的搜索效率和较低的内存消耗。该方法已被广泛应用于图像检索、文本检索和机器学习等...

Faiss(Facebook AI Similarity Search)是由 Facebook AI 团队开发的一个开源库,用于高效相似性搜索的库,特别适用于大...

随机森林(Random Forest)是一种基于集成学习思想的监督学习算法,广泛用于分类和回归任务。随机森林在很多不同的领域表现出色,如金融市场预测、客户流失预...

随机森林(Random Forest)能够用于分类和回归任务。通过两个应用案例来学习如何使用随机森林来解决分类和回归问题,以及算法的基本原理。 1. 算法使用 ...

对于随机森林算法而言,预测过程非常简单,易于理解。理解的重点是其如何训练多个基学习器来构建强学习器。 1. 有放回采样 随机森林基于原始训练集通过有放回的采样(...

终身学习者 | 知识桥接者
我是一名 80 后,写过多年代码,讲过很多年课,积累了丰富经验。如今,想把这些经验整理,通过我的博客分享给大家。


冀公网安备13050302001966号
最新评论