一亩三分地

C/C++Google Protobuf 编码
孟宝亮2024-05-2376301
Protocol Buffer 会将对象序列化为二进制数据。在本文中，我们简单了解下它是如何对数据进行编码的，即：了解下底层的编码格式。当然并非必须的，日常使用 Protocol Buffer 不需要...
《Google Protobuf》
人工智能基尼指数（Gini Index）
孟宝亮2024-04-18112601
基尼指数是决策树算法中用于评估特征分裂质量的一个关键指标，分裂后子节点的基尼指数越低，表示子节点的纯净度越高。 1. 基尼不纯度基尼不纯度（Gini impurity）是衡量变量不纯度的一个指标。基...
人工智能代价复杂度剪枝（Cost-Complexity Pruning）
孟宝亮2024-04-15180900
在 scikit-learn 的决策树实现中，使用 CCP（Cost-Complexity Pruning）代价复杂度剪枝，用于避免过拟合并提高决策树的泛化能力。 1. 剪枝原理决策树中包含了很多子...
人工智能信息增益（Shannon Information Gain）
孟宝亮2024-04-15162320
信息增益是决策树算法中用于特征选择的一个重要指标。在构建决策树时，我们需要确定哪个特征最能有效地分割数据，使得子节点的纯度最高。信息增益就是衡量这种分割能力的指标。信息增益的计算基于信息熵（或熵）的...
人工智能《决策树》（一）准备工作
孟宝亮2024-03-3152601
决策树（Decision Tree）是一种直观且易于理解的机器学习算法，它可以处理分类和回归问题。课程学习目标：授课环境：win11 + pycharm 2021.1.3 + python 3.8...
《决策树》
人工智能《决策树》（二）初识决策树
孟宝亮2024-03-3073300
在学习决策树原理之前，我们先感性的了解下决策树的构建和推理过程、以及 API 的使用。 1. 分类决策树分类决策树基于训练数据构建一个树状结构，每个节点代表一个特征，每个分支代表一个可能的答案，最终...
《决策树》
人工智能《决策树》（三）分类决策树
孟宝亮2024-03-2982802
构建决策树时，需要根据训练数据计算所有特征的最佳分裂点，来实现分类决策树构建。在 scikit-learn 的分类决策树实现中，主要用到了两种方法：接下来，我们就要去学习和掌握这两种分裂增益原理和计...
《决策树》
人工智能《决策树》（四）回归决策树
孟宝亮2024-03-2862203
在构建回归决策树时，我们需要找到最优的分裂点，以最小化子集的均方误差。回归决策树也有自己的一些分裂准则，我们将详细探讨这些分裂准则的计算方法，并介绍如何应用它们来构建回归决策树。回归决策树（Deci...
《决策树》
人工智能《决策树》（五）过拟合问题
孟宝亮2024-03-2774304
过拟合（Overfitting）是指模型在训练数据上表现得很好，但在未见过的测试数据上表现较差的现象。无论是传统机器学习算法、还是深度学习算法都会出现过拟合问题。 1. 过拟合方法我们前面构建的分类...
《决策树》
人工智能《决策树》（六）决策树 API
孟宝亮2024-03-2663700
Scikit-Learn（sklearn）是一个用于机器学习的Python库，其中包含了大量用于分类、回归、聚类和其他机器学习任务的算法和工具。在sklearn中，决策树是其中的一个常用算法。下面，将...
《决策树》
人工智能词嵌入 word2vec 模型
孟宝亮2024-03-21221005
Word2Vec 是 Google 在 2013 年推出的一种用于生成词向量的模型，它通过无监督学习的方式从大量文本数据中学习单词的语义关系。即：通过训练一个浅层的神经网络模型来学习如何将每个词转换为...
C/C++计算机小数存储原理
孟宝亮2024-03-16159700
在写程序时，我们经常会处理小数这种数据。这节课，将会给同学们讲解下，在计算机中小数存储的两种方式：浮点小数和定点小数。学习目标：最后，我们来总结下这两种存储方式：
PYTHON Python Joblib 工具使用
孟宝亮2024-03-09163002
joblib 是一个Python库，用于在Python中高效地保存和加载对象，特别是那些包含大型数据数组的对象。它在机器学习领域中非常有用，因为经常需要保存训练好的模型或中间数据。除了提供对象序列化...
人工智能层次 Softmax（Hierarchical Softmax）
孟宝亮2024-03-07220800
SoftMax 函数是深度学习和机器学习中一个非常重要的概念，主要用于处理多分类问题。Softmax 函数能够将一个实数向量映射为一个概率分布，使得输出向量的所有元素都在 0 到 1 之间，并且它们的...
人工智能 K 均值聚类（K-means）
孟宝亮2024-02-14138900
聚类（Clustering）指的是将一组数据点按照某种规则或者方法分成多个组或簇，使得同一组内的数据点在某种意义上更相似，而不同组之间的数据点相对较不相似。聚类时，可以基于数据分布、基于数据密度、基...