分类问题主要分为二分类、多分类。我们先推导一下 XGB 是如何解决二分类问题,再去理解 XGB 如何解决多分类问题。 二分类问题时,我们一般会使用 Simoid 函数,将模型的输出值映射到 0-1 范围内,得到模型预测 ...
XGBoost 是对 GBDT 算法的改进。其改进主要如下: 损失函数求解使用了泰勒二阶展开; 损失函数中添加了正则化项; XGBoost 损失函数如下: 第一部分真实值和预测值之间的经验损失,第二部分是正则化项。一般来...
SimCSE 提出一种基于 Dropout,把 Dropout 作为一种数据增强方法的无监督训练 sentence embedding 的方法。 Paper:https://aclanthology.org/2021.e...
构建知识图谱最重要的工作就是从非结构化的文本中抽取关系三元组 (subject,relation,object), 原来的方法我们都是组装一个 pipeline 来完成这项工作,比如:先训练一个 NER 模型进行实体抽取...
我们在使用 Bert 模型时,对每一个 token 的表征计算都是通过其内部的自注意力机制来完成的,具体就是由 Bert 模型的 BertAttention 来负责自注意力计算,分析的实现代码是 transformers...
WordPiece 也是一种子词构建算法,我们在中文语料中使用的 BertTokenizer 就是使用这种分词算法,从这一点来看,WordPiece 算法要比 BPE 算法更加适合中文语料的分词场景。 BPE 和 Wor...
SBert 模型基于孪生网络来训练 sentence 向量,这篇文章参考了其实现,在 tiny albert 中文预训练模型基础上进行微调,使之能够生成 sentence 向量。SBert 是一个有监督的 sentenc...
SKEP 通过情感知识增强型而得到的预训练的 transformer 模型,能够更好的用于情感分类场景。该模型如下图所示: SKEP 模型掩码策略称为 Hybrid Sentiment Masking,它将输入序列中的 ...
目标是构建一个基于向量的问答检索系统,即:问题和答案是固定的数据集,通过将用户输入的问题编码为向量,在向量数据库中匹配最相似的问题,并返回问题对应的答案。 实现时,希望能够对输入的问题进行类别判别。例如:我们做法律的问答...
图像对比度越高,我们的眼睛对图像细节就更容易识别,此时,图像直方图则在整个像素值范围内(0-255)分布比较均匀,也表明了图像使用了更多的灰度级别,图像的细节表现的更好。对比度较低时,图像的直方图往往集中分布在一个较小的...
face_recognition 是一个基于 dlib 库的人脸识别工具包。主要包括: 标注人脸位置 计算人脸特征 人脸信息编码 人脸信息匹配 该 Python 工具包使用起来也比较简单,我们就通过几个例子来了解下使用方...
图像形态学是根据图像的形状进行的操作,它可以从图像中提取出用于表示图像形状最基本的信息,使得计算机能够更好的理解和识别图像信息。 形态学操作一般针对的是二值图像进行操作。这里简单说下二值图、灰度图、彩色图的区别: 二值图...