词向量就是将自然语言中的词使用数值向量表示,例如我们将每个词使用 5 维向量表示: 词向量可以是任意的维度,32、64、512、768、1024… 等等。将文本表示为数值向量之后,就可以使...
FastText 的预训练模型通常是使用大规模文本语料库进行训练得到的,因此可以捕获单词的语义和语法信息。这些预训练模型的优势在于它们可以为各种语言和领域提供通用的语义表示,从而在具有限制的数据情况下...
文本分类是一种自然语言处理(NLP)任务,旨在将文本数据分配到预定义的类别或标签中。在文本分类任务中,算法接收输入的文本数据,并根据其内容或语义特征将其分配到一个或多个类别中。 文本分类在许多现实世界...
FastText 提供了预训练的文本分类模型,它是在大规模文本数据上进行训练得到的,并且通常具有良好的泛化能力。这些预训练的分类模型可用于快速搭建文本分类系统,无需从头开始训练模型,省去了大量数据收集...
TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用技术。 通过 TF-IDF 我们可以实现: 1. 算...
期望最大化算法(Expectation Maximization,EM) 是一种基于不完整、包含隐变量观测数据进行统计模型参数估计的方法。 我们知道,统计模型中的参数都需要根据观测数据集(训练数据)来...
贝叶斯公式是概率论中的一个重要公式,它以18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)的名字命名。它用于计算在给定一些先验信息的情况下,估计某一事件的概率。 贝叶斯公式在许多领域中都有广...
手写数字识别是计算机视觉领域的经典问题之一,具有广泛的应用。本课程将深入介绍使用支持向量机(SVM)技术来构建一个高效的手写数字识别系统。学生将学习如何使用SVM进行分类,以及如何提取和使用 HOG ...
我们的开发环境:Win11 + PyCharm 2021.1.3 + Python 3.8.5 使用下面的命令创建虚拟环境 digit-env: 在虚拟环境中,安装以下项目所需要的工具包:
在我们的《手写数字识别》项目中,需要提供一个用于手写数字的绘图板作为用户界面,便于获得用户手写的数字输入算法模型以便能够进行识别。这一章节,我们主要介绍关于绘图板开发过程中用到的相关技术。主要包括: ...
前面我们已经学习了 Tkinter Canvas 控件相关的技术,现在我们将会使用前面学习的内容来实现用于手写数字的绘画板。绘画板主要包括四个部分,分别是: 主窗口界面 顶部工具栏 中心绘画区 底部状...
《手写数字识别》项目基于支持向量机算法的,该算法的背后有着坚实的数学理论作为支撑,为算法的有效性和可靠性提供了坚实的基础。接下来,我们将会从以下第五个方面来讲解: 算法思想初探 算法训练内容 算法推理...
《手写数字识别器》中会应用支持向量机算法、以及相关的参数搜索方法。这两个在 Scikit-Learn 中都有实现。这一节,我们将会学习两个相关的 API 的使用。 数据介绍 算法使用 网格搜索 1. ...
这一节,我们主要给大家讲解图像相关的基础知识,以及操作方法。 1. 图像知识 图像可以被视为一系列像素的集合,每个像素分别对应 0 到 255 之间的整数,0 表示黑色,255 表示白色。图像可以根据...