机器学习

机器学习 BERT MLM
孟宝亮2022-05-15172701
在学习 BERT 模型时，我们大家肯定知道其 MLM 的预训练任务，它会对输入中的 15% 的 Token 进行如下操作： 15% 中的 80% Token 使用 [MASK] Token 来替换； 15% 中的 10%...
机器学习 BPE Tokenization
孟宝亮2022-05-15204603
字节对编码（Byte-Pair Encoding，BPE）最初被开发为一种文本压缩算法，后来被 OpenAI 用于 GPT 模型预训练时的分词。许多 Transformer 模型都使用了该方法，包括 GPT、GPT-2、...
机器学习 Tokenization Pipeline
孟宝亮2022-05-15148001
我们在使用 transformers 时，需要使用自己的数据来构建 tokenizer。这里我们使用 tokenizer 库，该库可以帮我们更加轻松的构建不同类型的 Tokenizer。安装命令如下：训练一个分词器，我...
机器学习 Transformer-XL
孟宝亮2022-05-11133104
在 Character-Level Language Modeling with Deeper Self-Attention 中，作者提到 LSTM 和 RNN 变体能够在对字符级语言建模有着非常优秀的表现，这得益于它能...
机器学习直接训练 Llama 生成对联
孟宝亮2022-05-10101903
对联生成作为一种文本生成任务，通常要求生成内容具有对称性和韵律。过去，我们多采用基于预训练模型的微调方法来完成这一任务。这一次，我们尝试使用较小尺寸的 Llama 模型，从零开始进行训练，即：把 Llama 当做 GRU...
机器学习 GPT2 （Generative Pre-trained Transformer）
孟宝亮2022-05-08232701
GPT-2 是 OpenAI 于 2019 年推出的一个基于 Transformer 的解码器（Decoder）架构的自然语言处理模型。它通过无监督学习大规模文本数据进行预训练，并可用于多种自然语言任务，如文本生成、翻...
机器学习微调 Bert 实现评论分类
孟宝亮2022-05-07134002
数据集是中文的酒店评论，共有 50216 + 12555 条评论，前者是训练集，后者是验证集。clean_data 函数是对评论做的一些简单的处理。train_data 的数据对象为：我们最终会将数据序列化到 data...
机器学习 Using Transformers – Dataset
孟宝亮2022-05-0592602
我们了解下如何使用 Datasets 库来加载、处理数据集。安装命令如下： 1. 加载数据集 Datasets 库可以加载在线数据集：https://huggingface.co/datasets，也可以加载本地数据集。...
机器学习 BERT
孟宝亮2022-05-04305703
Bert（Pre-training of Deep Bidirectional Transformers for Language Understanding）模型采用的是 Transformer 的 Encoder 部...
机器学习 HuggingFace Tokenizers
孟宝亮2022-05-01127400
HuggingFace Tokenizers 是一个高效的文本分词库，用于将自然语言文本分割成单个的标记（tokens），以便用于自然语言处理任务中，如文本分类、命名实体识别、机器翻译等。它支持多种语言，并提供了多种分词...
机器学习 Using Transformers – Models
孟宝亮2022-05-0197803
我们将会研究下创建和使用模型，我们以 BERT 架构模型为例。 1. 创建模型如果我们打算创建一个新的模型，即: 从头开始训练一个 BERT 模型，我们可以按照下面步骤来构建模型：实例化一个用于模型配置的 BertC...
机器学习 Using Transformers – pipeline
孟宝亮2022-05-01114902
Transformer 通常有数树百万、甚至数百亿的参数，训练和部署这些模型是一项复杂的工作。此外，由于几乎每天都会发布新模型并且每个模型都有自己的实现，使用它们并不是一件容易的事。Transformers 库提供了简单...
机器学习 Transformer Models
孟宝亮2022-05-01158400
谷歌团队在 2017年6月提出了 Transformer 架构，目标是翻译任务。接着又出现了一些有影响力的模型： 2018 年 6 月：GPT 模型，第一个预训练的 Transformer 模型，被用于微调适应各种 NL...
机器学习 OneClassSVM 使用方法
孟宝亮2022-04-2624100
机器学习 BiLSTM 情感分析（2）
孟宝亮2022-04-26109400

1 … 10 11 12 … 16

机器学习

机器学习 BERT MLM

机器学习 BPE Tokenization

机器学习 Tokenization Pipeline

机器学习 Transformer-XL

机器学习 直接训练 Llama 生成对联

机器学习 GPT2 （Generative Pre-trained Transformer）

机器学习 微调 Bert 实现评论分类

机器学习 Using Transformers – Dataset

机器学习 BERT

机器学习 HuggingFace Tokenizers

机器学习 Using Transformers – Models

机器学习 Using Transformers – pipeline

机器学习 Transformer Models

机器学习 OneClassSVM 使用方法

机器学习 BiLSTM 情感分析（2）

一个视频轻松搞懂《Python 垃圾回收机制》是咋回事

基于文本向量实现零样本分类 – 再也不用调参！一文搞懂向量语义分类全流程

C++ 线程局部存储 – 创建线程私有变量的方案

Python 异步编程 – 让程序不再死等，提高效率

基于 dify + xinference + ChatTTS + SenseVoiceSmall 本地搭建语音聊天应用