状态机用于描述系统或对象在不同状态之间的转换和行为。它由一组状态(States)、一组可能的事件(Events)和一组状态转换规则(Transitions)组成。 在状态机中,系统...
我们构建一个《水浒传》中 108 好汉的知识图谱,问答系统的设置问题围绕该知识图谱设计。这一步主要包含两部分: 爬取数据 构建图谱 1. 爬取数据 数据中一部分从百度百科爬取,一部...
支持向量机(SVM)强大的学习能力有很大程度上来源于高斯核函数的引入,并且 sklearn 中支持向量机默认的实现使用的就是高斯核函数。 我们看下支持向量机通过对偶问题转换后得到的...
人工智能标记语言(Artificial Intelligence Markup Language,AIML)是由 Richard Wallace 和世界各地的自由软件社区在 199...
OpenAI 提供了 text-embedding-ada-002 模型用于计算输入 sentence 的向量表示。该模型包括一个多层双向 Transformer 编码器和一个平均...
基于 OpenAI 的模型进行分类任务微调,大致需要以下几个步骤: 准备数据:这一步先自行对文本进行预处理,然后使用 OpenAI 工具对文本内容进行二次处理 微调模型:将准备好的...
内容审核(Moderation)是指对在线内容,如评论、消息和帖子进行审核和监控,以确保它们符合特定平台或社区的规则和政策。内容审核可以通过人工审核或自动化系统来执行,其目的是防止...
使用 embeddings 可以实现如下的一些 NLP 任务: 搜索(根据与查询字符串的相关性对结果进行排名) 聚类(文本字符串按相似度分组) 推荐(推荐具有相关文本字符串的项) ...
Completions 是指GPT模型接收一个输入字符串,然后自动生成一个完成的输出字符串。这种功能通常用于生成文本,例如自动生成文章、电子邮件回复或聊天记录等。用户可以指定输入字...
原型网络是一种能够解决小样本学习问题。其主要思想是将样本映射到一个低维空间中,并在该空间中计算每个类别的原型,然后通过计算测试样本和每个原型之间的距离来进行分类。 Paper:ht...
分类问题主要分为二分类、多分类。我们先推导一下 XGB 是如何解决二分类问题,再去理解 XGB 如何解决多分类问题。 二分类问题时,我们一般会使用 Simoid 函数,将模型的输出...
XGBoost 是对 GBDT 算法的改进。其改进主要如下: 损失函数求解使用了泰勒二阶展开; 损失函数中添加了正则化项; XGBoost 损失函数如下: 第一部分真实值和预测值之...
我们知道 C++代码的执行效率大多数情况下都会优于 Python 代码。当我们开发一个 Python 工具,分享时,使用者就可以通过 pip install xxx 的方式安装我们...
SimCSE 提出一种基于 Dropout,把 Dropout 作为一种数据增强方法的无监督训练 sentence embedding 的方法。 Paper:https://acl...
构建知识图谱最重要的工作就是从非结构化的文本中抽取关系三元组 (subject,relation,object), 原来的方法我们都是组装一个 pipeline 来完成这项工作,比...
我们在使用 Bert 模型时,对每一个 token 的表征计算都是通过其内部的自注意力机制来完成的,具体就是由 Bert 模型的 BertAttention 来负责自注意力计算,分...
WordPiece 也是一种子词构建算法,我们在中文语料中使用的 BertTokenizer 就是使用这种分词算法,从这一点来看,WordPiece 算法要比 BPE 算法更加适合...
SBert 模型基于孪生网络来训练 sentence 向量,这篇文章参考了其实现,在 tiny albert 中文预训练模型基础上进行微调,使之能够生成 sentence 向量。S...
Milvus 是一款开源的向量数据库,支持针对 TB 级向量的增删改操作和近实时查询,具有高度灵活、稳定可靠以及高速查询等特点。。Milvus 集成了 Faiss、NMSLIB、A...
自动混合精度(AMP)
2024-06-07阅读(1158)
XGBoost(Extreme Gradient Boosting)
2023-03-29阅读(1493)
XLNet
2022-10-16阅读(1125)
因子分解机(Factorization Machine)
2022-09-29阅读(1036)
霍夫曼编码算法(Huffman Coding)
2022-09-22阅读(1325)
克鲁斯卡尔算法(Kruskal)
2022-09-21阅读(1002)
普利姆算法(Prim)
2022-09-21阅读(924)
迪杰斯特拉算法(Dijkstra)
2022-09-20阅读(975)
图遍历算法(DFS、BFS)
2022-09-20阅读(889)
潜在语义分析(Latent Semantic Analysis)
2022-06-28阅读(816)