Google Protocol Buffers(简称 Protobuf)是一种由 Google 开发的,用于定义结构化数据并在不同的系统或编程语言之间高效地传输和存储数据。它可以看作是一种更轻量且更高...
Protocol Buffers(protobuf)主要用于在不同系统、不同语言之间进行高效的数据序列化和反序列化。从而实现跨平台、跨语言的数据交互、网络通信、持久化存储等问题的工具。 在 C++ 中...
Protocol Buffers 使用了一种中立、平台无关的语言来定义数据结构,使得不同编程语言、不同平台之间能够进行数据交互。Protocol Buffers 目前主要有 Proto2 和 Prot...
Google Protocol Buffers(简称 Protobuf)是一种由 Google 开发的数据序列化格式,用于定义结构化数据并在不同的系统或编程语言之间高效地传输和存储数据。它可以看作是一...
Protobuf 中的类型会对应到 CPP 中的对象,我们需要了解如何操作这些对象,以及如何序列化和反序列化这些对象。 1. 定义数据 创建 sample.proto 文件,定义数据如下: 接下来,使...
虚函数(virtual function)指的是 C++ 中使用 virtual 关键字声明的函数。从表面看起来仅仅是一个函数的声明,但是其背后有着一套较为复杂的机制,通过这套机制能为 C++ 引入一...
Protocol Buffer 会将对象序列化为二进制数据。在本文中,我们简单了解下它是如何对数据进行编码的,即:了解下底层的编码格式。当然并非必须的,日常使用 Protocol Buffer 不需要...
基尼指数是决策树算法中用于评估特征分裂质量的一个关键指标,分裂后子节点的基尼指数越低,表示子节点的纯净度越高。 1. 基尼不纯度 基尼不纯度(Gini impurity)是衡量变量不纯度的一个指标。基...
在 scikit-learn 的决策树实现中,使用 CCP(Cost-Complexity Pruning)代价复杂度剪枝,用于避免过拟合并提高决策树的泛化能力。 1. 剪枝原理 决策树中包含了很多子...
信息增益是决策树算法中用于特征选择的一个重要指标。在构建决策树时,我们需要确定哪个特征最能有效地分割数据,使得子节点的纯度最高。信息增益就是衡量这种分割能力的指标。 信息增益的计算基于信息熵(或熵)的...
决策树(Decision Tree)是一种直观且易于理解的机器学习算法,它可以处理分类和回归问题。 课程学习目标: 授课环境:win11 + pycharm 2021.1.3 + python 3.8...
在学习决策树原理之前,我们先感性的了解下决策树的构建和推理过程、以及 API 的使用。 1. 分类决策树 分类决策树基于训练数据构建一个树状结构,每个节点代表一个特征,每个分支代表一个可能的答案,最终...
构建决策树时,需要根据训练数据计算所有特征的最佳分裂点,来实现分类决策树构建。在 scikit-learn 的分类决策树实现中,主要用到了两种方法: 接下来,我们就要去学习和掌握这两种分裂增益原理和计...
在构建回归决策树时,我们需要找到最优的分裂点,以最小化子集的均方误差。回归决策树也有自己的一些分裂准则,我们将详细探讨这些分裂准则的计算方法,并介绍如何应用它们来构建回归决策树。 回归决策树(Deci...
过拟合(Overfitting)是指模型在训练数据上表现得很好,但在未见过的测试数据上表现较差的现象。无论是传统机器学习算法、还是深度学习算法都会出现过拟合问题。 1. 过拟合方法 我们前面构建的分类...
Scikit-Learn(sklearn)是一个用于机器学习的Python库,其中包含了大量用于分类、回归、聚类和其他机器学习任务的算法和工具。在sklearn中,决策树是其中的一个常用算法。下面,将...
Word2Vec 是 Google 在 2013 年推出的一种用于生成词向量的模型,它通过无监督学习的方式从大量文本数据中学习单词的语义关系。即:通过训练一个浅层的神经网络模型来学习如何将每个词转换为...
joblib 是一个Python库,用于在Python中高效地保存和加载对象,特别是那些包含大型数据数组的对象。它在机器学习领域中非常有用,因为经常需要保存训练好的模型或中间数据。 除了提供对象序列化...
SoftMax 函数是深度学习和机器学习中一个非常重要的概念,主要用于处理多分类问题。Softmax 函数能够将一个实数向量映射为一个概率分布,使得输出向量的所有元素都在 0 到 1 之间,并且它们的...
聚类(Clustering)指的是将一组数据点按照某种规则或者方法分成多个组或簇,使得同一组内的数据点在某种意义上更相似,而不同组之间的数据点相对较不相似。 聚类时,可以基于数据分布、基于数据密度、基...
Product Quantization 是一种有效的近似最近邻搜索方法,具有较高的搜索效率和较低的内存消耗。该方法已被广泛应用于图像检索、文本检索和机器学习等领域。 PQ 将高维数据点分成多个子空间...
Faiss(Facebook AI Similarity Search)是由 Facebook AI 团队开发的一个开源库,用于高效相似性搜索的库,特别适用于大规模向量数据集的存储与检索。 https...
随机森林(Random Forest)是一种基于集成学习思想的监督学习算法,广泛用于分类和回归任务。随机森林在很多不同的领域表现出色,如金融市场预测、客户流失预测、医疗诊断等。它不仅在结构化数据集上表...
随机森林(Random Forest)能够用于分类和回归任务。通过两个应用案例来学习如何使用随机森林来解决分类和回归问题,以及算法的基本原理。 1. 算法使用 2. 基本原理 随机森林通过构建多个决策...
对于随机森林算法而言,预测过程非常简单,易于理解。理解的重点是其如何训练多个基学习器来构建强学习器。 1. 有放回采样 随机森林基于原始训练集通过有放回的采样(Bootstrap Sampling)产...
scikit-learn 提供了 RandomForestClassifier 和 RandomForestRegressor 两个随机森林的实现,用于分类和回归任务。为了能够更好的使用随机森林,我们...
在 Python 中存在 int、str、float、bool 等基本数据类型,也存在 list、tuple、set、dict 这样的容器数据类型。这些数据类型被划分为可变(mutable)和不可变(...
Complement Naive Bayes (CNB) 是对多项式朴素贝叶斯 (Multinomial Naive Bayes, MNB) 的一种改进。它主要针对多项式朴素贝叶斯在处理类别不平衡问题...
Google gRPC(Google Remote Procedure Call)是一个高性能、开源的远程过程调用框架,它允许客户端直接调用远程服务器上的方法,就像调用本地方法一样,屏蔽了网络通信的复...