GPT-2(Generative Pre-trained Transformer 2)是 OpenAI 开发的一种基于 Transformer 结构的自回归语言模型。它以无监督学习的方式在大规模文本数据上进行训练,能够生...
近年来,随着大型语言模型(LLM)的发展,基于文本语义的图像检索技术取得了显著进步。这些模型通过理解复杂的自然语言描述,能够更准确地捕捉文本的语义,从而提高检索的精度和效率。 基于文本语义的图像检索是一种利用自然语言描述...
在传统的文本分类任务中,我们通常依赖监督学习方法,比如朴素贝叶斯、支持向量机,或者 BERT 这样的深度学习模型。但这些方法存在三个关键限制: 这种传统方法的不足之处: 简言之:基于传统的方法,一旦标签发生变化,就需要收...
对抗生成网络(Generative Adversarial Network)是一种深度学习模型,它通过两个神经网络生成器(Generator)和判别器(Discriminator)之间的对抗过程进行训练。通过这种对抗过程...
本文将从零开始,详细讲解如何使用递归神经网络(RNN/GRU/LSTM)实现文本情感分类。我们将基于 PyTorch 从头构建一个模型,并应用于情感分析任务。内容涵盖数据预处理、构建词汇表、分词器、模型搭建与训练,最终完...
直接微调(全量微调)会更新模型的所有参数,根据特定数据集对模型的权重进行全面优化。这种方式能够充分利用模型的全部参数来适应新任务,理论上可以获得最佳性能,但需要大量的计算资源和时间。 LoRA(Low-Rank Adap...
Qwen2.5-0.5B-Instruct 是阿里云 Qwen 团队开发的 Qwen2.5 系列语言模型中的一个指令微调模型,参数规模为 0.5B,类型为因果语言模型,经过了预训练(Pretraining)和后续训练(P...
AutoAWQ(Automatic Aware Quantization)是一个基于 AWQ(Activation-aware Weight Quantization for LLM) 算法的自动化量化工具,通过智能选择...
Ollama 是一个开源的人工智能平台,它主要用于提供强大的 AI 模型接口,并帮助开发者和团队快速构建、集成和管理 AI 应用。Ollama 通过提供本地化的 AI 模型,可以帮助用户在不依赖外部 API 的情况下运行...
逻辑回归(Logistic Regression)是一种用于分类问题的统计方法,适用于二分类问题。其核心是通过Sigmoid 函数将线性回归的结果映射到概率区间 [0,1],通常用于预测某事件是否发生。逻辑回归...
在训练深度模型(如 RNN、Transformer)时,由于网络层数较深,随着训练进行,网络各层的输入分布不断变化,这会导致训练变慢,甚至无法收敛。为了解决这个问题,层归一化(LN)应运而生。它通过标准化每一层的输出,减...
Batch Normalization(BN)主要解决的是内部协变量偏移(Internal Covariate Shift)问题。该问题指的是深度神经网络在训练过程中,每一层的输入分布会随着前面层参数的更新而变化,从而导...
梯度提升树(GBDT,Gradient Boosting Decision Tree)回归是一种集成学习方法,它通过逐步构建多个决策树来优化预测结果,尤其适用于回归问题。GBDT 通过“加法模型”逐步提高模型的预测能力,...
GBDT 是一种强大的集成学习方法,广泛用于分类和回归问题。它属于提升(Boosting)算法的一种,通过多个弱学习器(通常是决策树)结合起来提高模型的准确性。 1. 二分类 对于 GBDT 应用到二分类的场景,其预测过...
在 sklearn 中,LinearSVC 线性支持向量机(SVM)的原始形式支持的两种目标函数类型,分别是 : squared_hinge 是目标函数中的损失项,它是标准的 hinge loss 的平方形式。它可以提供...