SimCSE 提出一种基于 Dropout,把 Dropout 作为一种数据增强方法的无监督训练 sentence embedding 的方法。 Paper:https://aclanthology....
我们知道 C++代码的执行效率大多数情况下都会优于 Python 代码。当我们开发一个 Python 工具,分享时,使用者就可以通过 pip install xxx 的方式安装我们的工具,我们将该工具...
分类问题主要分为二分类、多分类。我们先推导一下 XGB 是如何解决二分类问题,再去理解 XGB 如何解决多分类问题。 二分类问题时,我们一般会使用 Simoid 函数,将模型的输出值映射到 0-1 范...
TextRank 是一种将 PageRank 算法应用于自然语言处理领域的算法实现。PageRank 算法将网页作为图的顶点,网页之间的链接作为边。TextRank 则是将词或者句子作为定点,当以词作...
Completions 是指GPT模型接收一个输入字符串,然后自动生成一个完成的输出字符串。这种功能通常用于生成文本,例如自动生成文章、电子邮件回复或聊天记录等。用户可以指定输入字符串的前缀,然后让模...
基于 OpenAI 的模型进行分类任务微调,大致需要以下几个步骤: Doc:https://platform.openai.com/docs/api-reference/fine-tunes 1. 准...
使用 embeddings 可以实现如下的一些 NLP 任务: 搜索(根据与查询字符串的相关性对结果进行排名) 聚类(文本字符串按相似度分组) 推荐(推荐具有相关文本字符串的项) 异常检测(识别相关性...
内容审核(Moderation)是指对在线内容,如评论、消息和帖子进行审核和监控,以确保它们符合特定平台或社区的规则和政策。内容审核可以通过人工审核或自动化系统来执行,其目的是防止有害或不适当的内容被...
OpenAI 提供了 text-embedding-ada-002 模型用于计算输入 sentence 的向量表示。该模型包括一个多层双向 Transformer 编码器和一个平均池化层,用于将编码器...
人工智能标记语言(Artificial Intelligence Markup Language,AIML)是由 Richard Wallace 和世界各地的自由软件社区在 1995 年至 2002 ...
我们构建一个《水浒传》中 108 好汉的知识图谱,问答系统的设置问题围绕该知识图谱设计。这一步主要包含两部分: 爬取数据 构建图谱 1. 爬取数据 数据中一部分从百度百科爬取,一部分则手动构建。 2....
状态机用于描述系统或对象在不同状态之间的转换和行为。它由一组状态(States)、一组可能的事件(Events)和一组状态转换规则(Transitions)组成。 在状态机中,系统或对象可以处于不同的...
高斯朴素贝叶斯(Gaussian Naive Bayes)是一种基于贝叶斯定理的分类算法,它假设数据的特征遵循高斯(正态)分布,属于朴素贝叶斯分类器的一种。 我们可以基于词频、TF-IDF、Word2...
在 Python 中,函数是一种重要的程序结构,用于组织和封装可重复使用的代码块。函数允许开发者将一段特定的逻辑或功能封装成一个独立的单元,并通过函数名和参数列表进行调用。 Python 作为一种语法...