scikit-learn 中 GaussianMixture 类是对高斯混合模型算法的实现,它包含了一些用于控制混合高斯模型(GMM)的初始化、训练方式和模型的其他设置。 1. 参数 1.1 基本参数 1.2 covar...
多头自注意力机制(Multi-Head Self-Attention)是深度学习中一种用于处理序列数据的重要机制,广泛应用于自然语言处理(NLP)和计算机视觉等领域。它最早出现在 Transformer 模型中。 1. ...
梯度下降算法是一种用于寻找函数最小值的优化方法。在机器学习中,常用于训练模型,帮助我们找到模型参数(比如权重和偏置)的最佳值,以使模型的预测误差(损失函数)最小。 想象你站在一个山顶上,目标是找到最低的山谷(最小值)。你...
SentencePiece 是一种用于文本处理的工具,特别适用于基于神经网络的文本生成系统。它的主要功能是将文本分割成更小的单位(称为子词单元),这些子词单元可以是完整的单词、部分单词,甚至是单个字符。 Sentence...
ChatGLM3-6B 是一个 ChatGLM 系列的开源对话模型,是由清华大学 KEG 实验室和智谱 AI 共同开发。该模型具备出色的中文和英文理解和生成能力,特别适合多轮对话、文本生成、问答等自然语言处理任务。 模型...
自动混合精度是一种能够提升训练效率的方法。它通过减少训练过程中的显存使用,从而提高 batch_size 大小,加快模型训练。在 PyTorch 中张量默认使用的是 float32 类型,如果我们能够使用 float16...
门控循环单元(Gated Recurrent Unit, GRU)是一种改进的循环神经网络(RNN)架构,旨在解决传统 RNN 在处理长序列时面临的梯度消失问题。GRU 由 KyungHyun Cho 等人在2014年提...
长短期记忆网络(Long Short-Term Memory,LSTM)是一种特殊的循环神经网络(RNN),与传统的 RNN 相比,在处理涉及较长距离时间依赖的任务中表现出更强的能力。 1. 算法原理 LSTM 为了解决...
循环神经网络(Recurrent Neural Network, RNN)是一类用于处理序列数据的神经网络。 什么是序列数据?序列数据是指按照一定顺序排列的数据集合,其中的每个元素被称为序列的一个项。序列数据可以是有限的...
AUC(Area Under the Curve)是一种常用二分类评估方法,它指的是 ROC 曲线(Receiver Operating Characteristic Curve)下的面积。 1. ROC ROC(Rec...
回归决策树(Decision Tree Regression)是一种使用决策树进行回归分析的方法。与分类决策树不同,回归决策树用于预测连续型的目标变量,而不是离散的类别。 1. 构建决策树 我们使用 MSE(平均平方误差...
基尼指数是决策树算法中用于评估特征分裂质量的一个关键指标,分裂后子节点的基尼指数越低,表示子节点的纯净度越高。 1. 基尼不纯度 基尼不纯度(Gini impurity)是衡量变量不纯度的一个指标。基尼不纯度越高,表示数...
在 scikit-learn 的决策树实现中,使用 CCP(Cost-Complexity Pruning)代价复杂度剪枝,用于避免过拟合并提高决策树的泛化能力。 1. 剪枝原理 决策树中包含了很多子树,一棵子树是否应该...