我的文章

我的文章 FFmpeg AVPacket
孟宝亮2025-07-2897604
本篇简单介绍下，如何从输入多媒体中读取或者写入一帧数据。由于我们并没有进行编解码操作，这里的读写操作都是编码后的数据。在 FFmpeg 中每一帧数据是由 AVPacket 来表示。读操作需要用到的函数...
我的文章 Linux Select IO 模型
孟宝亮2025-07-2892900
在 Linux 下，select 函数通常用于多路复用 I/O，可以同时监视多个文件描述符的状态，当其中任何一个文件描述符准备就绪时，select 函数就会返回。通过同时监控多个 I/O 流的状态来...
我的文章 Linux Socket API 用法详解
孟宝亮2025-07-2896001
linux 在进行网络应用程序开发时，常用到以下的 linux 网络 API： socket()：用于初始化一个新的套接字 bind()：用于将套接字与一个本地地址绑定 listen()：用于将套接字...
我的文章 Linux Epoll IO 模型
孟宝亮2025-07-28102600
Epoll IO 模型是 Linux 中用于 I/O 多路复用的机制，可以用于监听多个文件描述符上的事件，以及非阻塞地等待这些事件的发生。其工作机制大致如下：首先，初始化一个 Epoll 实例，这个...
我的文章 SpanBERT
孟宝亮2025-07-28108403
SpanBERT 是由 Facebook AI 在 2019 年提出的一种改进版本的 BERT。它的核心改进点在于增强对 span（文本片段）的表示能力，从而在涉及实体识别、关系抽取等任务时比 ...
我的文章基于 SKEP 模型实现观点抽取
孟宝亮2025-07-28104302
SKEP 通过情感知识增强型而得到的预训练的 transformer 模型，能够更好的用于情感分类场景。该模型如下图所示： SKEP 模型掩码策略称为 Hybrid Sentiment Masking...
我的文章向量数据库 milvus 使用
孟宝亮2025-07-28305903
Milvus 是一款开源的向量数据库，支持针对 TB 级向量的增删改操作和近实时查询，具有高度灵活、稳定可靠以及高速查询等特点。。Milvus 集成了 Faiss、NMSLIB、Annoy 等广泛应用...
我的文章困惑度（Perplexity）
孟宝亮2025-07-2811700
在自然语言处理（NLP）中，语言模型的评估是衡量模型表现的重要步骤之一。评估指标多种多样，而其中困惑度（Perplexity）是最常用的评估方法之一。简单来说，困惑度（Perplexity）是衡量语...
我的文章基于类别均值的分类方法
孟宝亮2025-07-289300
基于类别均值的分类方法（Nearest Mean Classification，NMC）是一种简单的监督学习分类算法。它的核心思想是通过计算每个类别的样本均值向量，然后将新样本归类到与其均值向量最相似...
我的文章基于 PEGASUS 生成中文文本摘要
孟宝亮2025-07-2817504
PEGASUS 是一种编码器-解码器模型，接下来我们基于开源的 PEGASUS 预训练模型来微调自己的生成式文本摘要模型。感谢 https://huggingface.co/IDEA-CCNL 给开源...
我的文章 Bert MHA 源码分析
孟宝亮2025-07-28109600
我们在使用 Bert 模型时，对每一个 token 的表征计算都是通过其内部的自注意力机制来完成的，具体就是由 Bert 模型的 BertAttention 来负责自注意力计算，分析的实现代码是 tr...
我的文章 Bertsum 抽取式文本摘要模型
孟宝亮2025-07-2832900
Bertsum 是一个基于 Bert 模型实现抽取式文本摘要的模型，并且该模型达到了一个不错的效果。下图为该模型的架构： Paper：https://arxiv.org/pdf/1903.10318....
我的文章 CasRel 关系三元组抽取网络
孟宝亮2025-07-28113302
构建知识图谱最重要的工作就是从非结构化的文本中抽取关系三元组 (subject，relation，object), 原来的方法我们都是组装一个 pipeline 来完成这项工作，比如：先训练一个 NE...
我的文章基于 GAN 网络 STL10 生成图像
孟宝亮2025-07-288700
STL-10 是一个用于图像识别和生成任务的数据集，训练集共计 5000 张图片，测试集共计 8000 张，另外包含 100000 张无标签图像，适用于无监督和半监督学习。图像尺寸为 96×96，适合...
我的文章 XGBoost（Extreme Gradient Boosting）
孟宝亮2025-07-28198602
XGBoost 是对 GBDT 算法的改进。其改进主要如下：损失函数求解使用了泰勒二阶展开; 损失函数中添加了正则化项; XGBoost 损失函数如下：第一部分真实值和预测值之间的经验损失，第二部...

1 … 17 18 19 … 28

我的文章

我的文章 FFmpeg AVPacket

我的文章 Linux Select IO 模型

我的文章 Linux Socket API 用法详解

我的文章 Linux Epoll IO 模型

我的文章 SpanBERT

我的文章 基于 SKEP 模型实现观点抽取

我的文章 向量数据库 milvus 使用

我的文章 困惑度（Perplexity）

我的文章 基于类别均值的分类方法

我的文章 基于 PEGASUS 生成中文文本摘要

我的文章 Bert MHA 源码分析

我的文章 Bertsum 抽取式文本摘要模型

我的文章 CasRel 关系三元组抽取网络

我的文章 基于 GAN 网络 STL10 生成图像

我的文章 XGBoost（Extreme Gradient Boosting）