我们在使用 transformers 时,需要使用自己的数据来构建 tokenizer。这里我们使用 tokenizer 库,该库可以帮我们更加轻松的构建不同类型的 Tokenizer。安装命令如下: 训练一个分词器,我...
在 Character-Level Language Modeling with Deeper Self-Attention 中,作者提到 LSTM 和 RNN 变体能够在对字符级语言建模有着非常优秀的表现,这得益于它能...
对联生成作为一种文本生成任务,通常要求生成内容具有对称性和韵律。过去,我们多采用基于预训练模型的微调方法来完成这一任务。这一次,我们尝试使用较小尺寸的 Llama 模型,从零开始进行训练,即:把 Llama 当做 GRU...
Type Traits 是 C++11 中的一种模板元编程技术,它提供了一系列的模板类和函数,用于在编译时查询和操作类型信息。这些类型特征可以用于泛型编程中,帮助我们编写更加灵活、通用和安全的代码。 例如:判断一个类型是...
GPT-2 是 OpenAI 于 2019 年推出的一个基于 Transformer 的 解码器(Decoder)架构的自然语言处理模型。它通过无监督学习大规模文本数据进行预训练,并可用于多种自然语言任务,如文本生成、翻...
数据集是中文的酒店评论,共有 50216 + 12555 条评论,前者是训练集,后者是验证集。clean_data 函数是对评论做的一些简单的处理。train_data 的数据对象为: 我们最终会将数据序列化到 data...
auto_ptr 是 C++98 中引入的智能指针,用于自动管理动态分配的对象的生命周期。然而,它在 C++11 中已被标记为已废弃,并且在 C++17 中已被移除,因为它存在一些严重的缺陷和安全问题。 1. auto_...
在这篇文章中,我们重点学习 C++ 中用于动态内存管理的技术 – 智能指针,C++11 中智能指针包含:unique_ptr、shared_ptr、weak_ptr。这篇文章我们学习 unique_ptr 的用法。 接...
我们了解下如何使用 Datasets 库来加载、处理数据集。安装命令如下: 1. 加载数据集 Datasets 库可以加载在线数据集:https://huggingface.co/datasets,也可以加载本地数据集。...
智能指针是我们 C++ 中用于管理动态对象(堆区对象)的技术,在实际生产环境中,也有非常重要的应用。 本片文章我们学习 C++11 中的 shared_ptr 智能指针,主要从以下几个方面来学习: 1. shared...
C++11 中存在 3 个智能指针,分别是 unique_ptr、shared_ptr、weak_ptr,其他文章中已经讲解前 2 个智能指针的用法,本篇文章从以下3 个方面来讲解 weak_ptr 的使用: 1. w...
智能指针的工厂函数是一个创建智能指针的函数,用于方便地创建特定类型的智能指针对象,这些函数通常都是以 make 开头的函数。比如 1. make_unique std::make_unique 是一个 C++14 中引入...
HuggingFace Tokenizers 是一个高效的文本分词库,用于将自然语言文本分割成单个的标记(tokens),以便用于自然语言处理任务中,如文本分类、命名实体识别、机器翻译等。它支持多种语言,并提供了多种分词...
我们将会研究下创建和使用模型,我们以 BERT 架构模型为例。 1. 创建模型 如果我们打算创建一个新的模型,即: 从头开始训练一个 BERT 模型,我们可以按照下面步骤来构建模型: 实例化一个用于模型配置的 BertC...
《垃圾邮件识别器》(六)数据处理
2017-12-09阅读(5930)
Faiss 向量检索库
2023-10-06阅读(4871)
《垃圾邮件识别器》(一)准备工作
2017-12-14阅读(4854)
《垃圾邮件识别器》(四)算法理论
2017-12-11阅读(4047)
《垃圾邮件识别器》(七)训练评估
2017-12-09阅读(4041)
jieba 工具使用
2019-02-13阅读(3771)
《垃圾邮件识别器》(五)Scikit-Learn
2017-12-10阅读(3740)
Windows Protobuf 编译安装
2024-05-27阅读(3731)
《垃圾邮件识别器》内容摘要
2017-12-15阅读(3235)
《垃圾邮件识别器》(二)Tkinter
2017-12-13阅读(3118)
向量数据库 milvus 使用
2023-03-11阅读(3051)
BERT
2022-05-04阅读(3048)
C++ 运行时类型识别(RTTI)
2020-12-25阅读(2905)
权重衰减(Weight Decay)
2022-05-28阅读(2865)
《垃圾邮件识别器》(三)界面搭建
2017-12-12阅读(2856)
《垃圾邮件识别器》(八)收尾工作
2017-12-08阅读(2821)
XGBoost 解决多分类问题
2023-03-30阅读(2820)
最新评论