SKEP 通过情感知识增强型而得到的预训练的 transformer 模型,能够更好的用于情感分类场景。该模型如下图所示: SKEP 模型掩码策略称为 Hybr...
Milvus 是一款开源的向量数据库,支持针对 TB 级向量的增删改操作和近实时查询,具有高度灵活、稳定可靠以及高速查询等特点。。Milvus 集成了 Fais...
在自然语言处理(NLP)中,语言模型的评估是衡量模型表现的重要步骤之一。评估指标多种多样,而其中困惑度(Perplexity)是最常用的评估方法之一。 简单来说...
基于类别均值的分类方法(Nearest Mean Classification,NMC)是一种简单的监督学习分类算法。它的核心思想是通过计算每个类别的样本均值向...
PEGASUS 是一种编码器-解码器模型,接下来我们基于开源的 PEGASUS 预训练模型来微调自己的生成式文本摘要模型。感谢 https://huggingf...
我们在使用 Bert 模型时,对每一个 token 的表征计算都是通过其内部的自注意力机制来完成的,具体就是由 Bert 模型的 BertAttention 来...
Bertsum 是一个基于 Bert 模型实现抽取式文本摘要的模型,并且该模型达到了一个不错的效果。下图为该模型的架构: Paper:https://arxiv...
构建知识图谱最重要的工作就是从非结构化的文本中抽取关系三元组 (subject,relation,object), 原来的方法我们都是组装一个 pipeline...
STL-10 是一个用于图像识别和生成任务的数据集,训练集共计 5000 张图片,测试集共计 8000 张,另外包含 100000 张无标签图像,适用于无监督和...
SimCSE 提出一种基于 Dropout,把 Dropout 作为一种数据增强方法的无监督训练 sentence embedding 的方法。 Paper:h...
我们知道 C++代码的执行效率大多数情况下都会优于 Python 代码。当我们开发一个 Python 工具,分享时,使用者就可以通过 pip install x...
分类问题主要分为二分类、多分类。我们先推导一下 XGB 是如何解决二分类问题,再去理解 XGB 如何解决多分类问题。 二分类问题时,我们一般会使用 Simoid...

TextRank 是一种将 PageRank 算法应用于自然语言处理领域的算法实现。PageRank 算法将网页作为图的顶点,网页之间的链接作为边。TextRa...
Completions 是指GPT模型接收一个输入字符串,然后自动生成一个完成的输出字符串。这种功能通常用于生成文本,例如自动生成文章、电子邮件回复或聊天记录等...
基于 OpenAI 的模型进行分类任务微调,大致需要以下几个步骤: Doc:https://platform.openai.com/docs/api-refer...

终身学习者 | 知识桥接者
我是一名 80 后,写过多年代码,讲过很多年课,积累了丰富经验。如今,想把这些经验整理,通过我的博客分享给大家。
冀公网安备13050302001966号