前置要求:了解 Word2Vec 中的 Skip-Gram 和 CBOW 模型,以及负采样、层次 SoftMax 知识。 FastText 在 2016 年发布时,是当时最先进的词嵌入模型之一。 它具...
词向量就是将自然语言中的词使用数值向量表示,例如我们将每个词使用 5 维向量表示: 词向量可以是任意的维度,32、64、512、768、1024… 等等。将文本表示为数值向量之后,就可以使...
FastText 的预训练模型通常是使用大规模文本语料库进行训练得到的,因此可以捕获单词的语义和语法信息。这些预训练模型的优势在于它们可以为各种语言和领域提供通用的语义表示,从而在具有限制的数据情况下...
文本分类是一种自然语言处理(NLP)任务,旨在将文本数据分配到预定义的类别或标签中。在文本分类任务中,算法接收输入的文本数据,并根据其内容或语义特征将其分配到一个或多个类别中。 文本分类在许多现实世界...
FastText 提供了预训练的文本分类模型,它是在大规模文本数据上进行训练得到的,并且通常具有良好的泛化能力。这些预训练的分类模型可用于快速搭建文本分类系统,无需从头开始训练模型,省去了大量数据收集...
在 C++ 多线程编程中,线程局部存储(Thread Local Storage)是一项非常重要且值得深入理解的技术。它在提升线程安全性、简化并发设计中发挥着关键作用,是每一位 C++ 开发者都应...
函数调用绑定(Function Call Binding)指的是将一个函数调用与相应的函数定义(实现)关联起来的过程。 1. 函数绑定 对于 C++ 程序而言,将函数查找、关联的过程放在编译期完成,在...
auto_ptr 是 C++98 中引入的智能指针,用于自动管理动态分配的对象的生命周期。然而,它在 C++11 中已被标记为已废弃,并且在 C++17 中已被移除,因为它存在一些严重的缺陷和安全问题...
在这篇文章中,我们重点学习 C++ 中用于动态内存管理的技术 – 智能指针,C++11 中智能指针包含:unique_ptr、shared_ptr、weak_ptr。这篇文章我们学习 unique_p...
智能指针是我们 C++ 中用于管理动态对象(堆区对象)的技术,在实际生产环境中,也有非常重要的应用。 本片文章我们学习 C++11 中的 shared_ptr 智能指针,主要从以下几个方面来学习: ...
C++11 中存在 3 个智能指针,分别是 unique_ptr、shared_ptr、weak_ptr,其他文章中已经讲解前 2 个智能指针的用法,本篇文章从以下3 个方面来讲解 weak_ptr ...
智能指针的工厂函数是一个创建智能指针的函数,用于方便地创建特定类型的智能指针对象,这些函数通常都是以 make 开头的函数。比如 1. make_unique std::make_unique 是一个...
定点小数是一种用固定位数表示小数部分的数值表示方法。在定点小数中,小数点的位置是固定的,不像浮点数那样可以在数字中的不同位置浮动。 1. 存储原理 使用定点数存储小数,我们首先得先确定: 假设:使用单...
TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用技术。 通过 TF-IDF 我们可以实现: 1. 算...
有时,躺在床上懒得起来,或者出门在外,忘记电脑关机,这时,我们希望能实现通过手机实现远程关机。这一节,给大家介绍一种简单的方案,只需要简单、少许编码就可以实现。 1. 实现思路 我们这里需要借助一个物...
期望最大化算法(Expectation Maximization,EM) 是一种基于不完整、包含隐变量观测数据进行统计模型参数估计的方法。 我们知道,统计模型中的参数都需要根据观测数据集(训练数据)来...
浮点小数是程序中经常使用的一种数据类型,其使用非常广泛,特别是在科学计算、工程领域以及计算机图形学、人工智能等领域。 1. 原理 在计算机中,浮点数常常采用 IEEE 754 标准来表示。这个标准定义...
C++ 是一种静态类型语言,数据类型在编译时确定。但在有些场景下,编译时无法确定数据类型,需要在运行时才能确定。RTTI(Run Time Type Identification,运行时类型识 别)就...
完美转发在 C++ 标准库中得到很多应用,那么,什么是完美转发呢?完美转发有什么用?如何实现完美转发呢? 接下来,我们从以下几个方面来讲解这部分知识: 1. 完美转发概念 2. 实现完美转发 &n...
学习和使用 Python 编码的前提就是要搭建相应的开发环境。虽然搭建过程并不难,但是对于很多初学者而言,搭建过程还是会感觉很凌乱。本专题将从零开始,演示环境的搭建的过程。课程主要内容如下: 本专题包...
Python 是一种强大而灵活的编程语言,广泛应用于软件开发、数据科学和人工智能等领域。在学习和使用 Python 的过程中,了解和熟悉开发环境的关键概念是非常重要的。本文将介绍一些关于 Python...
这一章节,给同学演示下,在 Windows 11 上如何安装多个版本的 Python 解释器,以及如何使用不同版本的解释器。 1. python 使用 首先,下载对应版本的解释器,我们这里下载 3.7...
1. 虚拟环境安装 安装 virtualenv 需要使用 pip 命令,我们的全局存在两个版本的 pip,任意选择一个安装即可(我们这里选择使用 pip3.8 来安装 virutalenv 虚拟环境工...
前面课程中,我们都是手动安装、配置多个版本的 Python 解释器以及 virtualenv 虚拟环境工具。pyenv-win 则是一种更加方便的工具,能够自动下载安装不同版本的解释器、以及虚拟环境的...
Anaconda 是一个开源的软件包管理和环境管理系统,用于科学计算、数据科学和机器学习。它使用户能够轻松地安装、管理和协调这些工具的版本。Anaconda 还提供了一个名为 Conda 的包管理器,...
PyCharm是由JetBrains开发的一款专业的Python集成开发环境(IDE)。它提供了丰富的功能,包括代码编辑、调试、测试、版本控制等工具,旨在帮助开发者更高效地进行Python应用程序的开...
Jupyter Lab是一种开源的交互式计算环境,支持多种编程语言,最为常用的是 Python。它的名字来源于三种核心编程语言:Julia、Python 和 R。 1. Jupyter Lab 安装 ...
贝叶斯公式是概率论中的一个重要公式,它以18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)的名字命名。它用于计算在给定一些先验信息的情况下,估计某一事件的概率。 贝叶斯公式在许多领域中都有广...
jieba(结巴)分词是一款基于 Python 的中文分词工具,以其高性能和简单易用的特点而著称。该工具在自然语言处理、信息检索以及文本挖掘等领域得到广泛应用,成为中文文本处理领域的关键工具。在接下来...