WordPiece 也是一种子词构建算法,我们在中文语料中使用的 BertTokenizer 就是使用这种分词算法,从这一点来看,WordPiece 算法要比 BPE 算法更加适合中文语料的分词场景。 BPE 和 Wor...
SBert 模型基于孪生网络来训练 sentence 向量,这篇文章参考了其实现,在 tiny albert 中文预训练模型基础上进行微调,使之能够生成 sentence 向量。SBert 是一个有监督的 sentenc...
Milvus 是一款开源的向量数据库,支持针对 TB 级向量的增删改操作和近实时查询,具有高度灵活、稳定可靠以及高速查询等特点。。Milvus 集成了 Faiss、NMSLIB、Annoy 等广泛应用的向量索引库,提供了...
SKEP 通过情感知识增强型而得到的预训练的 transformer 模型,能够更好的用于情感分类场景。该模型如下图所示: SKEP 模型掩码策略称为 Hybrid Sentiment Masking,它将输入序列中的 ...
目标是构建一个基于向量的问答检索系统,即:问题和答案是固定的数据集,通过将用户输入的问题编码为向量,在向量数据库中匹配最相似的问题,并返回问题对应的答案。 实现时,希望能够对输入的问题进行类别判别。例如:我们做法律的问答...
Epoll IO 模型是 Linux 中用于 I/O 多路复用的机制,可以用于监听多个文件描述符上的事件,以及非阻塞地等待这些事件的发生。其工作机制大致如下: 首先,初始化一个 Epoll 实例,这个实例主要在内核中维护...
linux 在进行网络应用程序开发时,常用到以下的 linux 网络 API: socket():用于初始化一个新的套接字 bind():用于将套接字与一个本地地址绑定 listen():用于将套接字标记为被动套接字,接...
在 Linux 下,select 函数通常用于多路复用 I/O,可以同时监视多个文件描述符的状态,当其中任何一个文件描述符准备就绪时,select 函数就会返回。 通过同时监控多个 I/O 流的状态来实现对多个 I/O ...
本篇简单介绍下,如何从输入多媒体中读取或者写入一帧数据。由于我们并没有进行编解码操作,这里的读写操作都是编码后的数据。在 FFmpeg 中每一帧数据是由 AVPacket 来表示。读操作需要用到的函数有: avforma...
当我们打开一个多媒体文件时,FFmpeg 会用 AVCodecContext 结构体来存储文件的一些信息和参数,用于后续对文件的一系列操作。本篇就简单介绍下,如何使用 FFmpeg 打开和关闭一个多媒体文件。我们的操作步...
FFmpeg 是一个功能强大、开源的音视频处理工具,可以满足用户在音视频处理方面的各种需求。可以用于录制、转换、编辑、播放和流媒体处理等。它是一个跨平台的工具,支持 Windows、Mac、Linux 等操作系统。 FF...
图像对比度越高,我们的眼睛对图像细节就更容易识别,此时,图像直方图则在整个像素值范围内(0-255)分布比较均匀,也表明了图像使用了更多的灰度级别,图像的细节表现的更好。对比度较低时,图像的直方图往往集中分布在一个较小的...
face_recognition 是一个基于 dlib 库的人脸识别工具包。主要包括: 标注人脸位置 计算人脸特征 人脸信息编码 人脸信息匹配 该 Python 工具包使用起来也比较简单,我们就通过几个例子来了解下使用方...