《手写数字识别器》中会应用支持向量机算法、以及相关的参数搜索方法。这两个在 Scikit-Learn 中都有实现。这一节,我们将会学习两个相关的 API 的使用。 数据介绍 算法使用 网格搜索 1. 数据介绍 鸢尾花数据...
这一节,我们主要给大家讲解图像相关的基础知识,以及操作方法。 1. 图像知识 图像可以被视为一系列像素的集合,每个像素分别对应 0 到 255 之间的整数,0 表示黑色,255 表示白色。图像可以根据其颜色模式分为灰度图...
经过前面的准备,我们将会进行初次的算法模型训练以及封装,并测试效果。从中去分析不足,然后在后续内容中针对不足进行优化。 1. 数据处理 首先,我们先对训练数据进行读取,并提取图像特征。需要说明一点,由于图像本身就是由一系...
在先前的训练阶段,我们发现算法模型在训练集上达到了1.0的准确率,然而,其在测试集上的表现却不尽如人意,这暗示着模型可能出现了过拟合现象。 我们的算法模型是直接依据每个数字图像的像素数据进行学习的。因此,当遇到新的数字图...
经过第八章节的特征优化,我们的手写数字识别准确率有着明显的提升。但是仍然存在一个显而易见的问题,即:我们绘制的数字是对位置很敏感的。接下来,我们将会去探讨解决这一问题的方法。 1. 图像数据增强 数据增强是一种通过对训练...
1. Windows 打包步骤 首先,进入到项目根目录下然后,在项目根目录下执行命令:接着,拷贝 source、data、model 目录到 dist 目录下,保证和 exe 同级目录最后,可以分发给没有 Python ...
课程是为对 Linux 操作系统完全没有经验或仅有基础知识的初学者设计的课程。这个课程旨在帮助学生从零开始建立对 Linux 的基本理解和技能,使他们能够熟练地使用 Linu x进行日常任务和基本的系统管理。 1. 课程...
通过学习,希望大家能够理解以下几个问题: 1. Python GIL 影响 在讲解之前,我们需要先理解一点,Python 解释器本身是一个 C 程序,Python 代码是由这个 C 程序来解释执行。 在 Python 解...
词袋模型(Bag-of-Words,BoW)是一种表示和处理文本数据的模型或框架,它提供了一种简单的思想,使得我们能够实现文本转换为数值形式,以便进行进一步的分析,例如:进行新闻分类、文档检索、情感分析等任务。 1. 文...
项目的第一步就是编写需要的界面,我们使用 Python 标准的 GUI 库 Tkinter 来实现。这一节就快速学习该库中将会用到的控件,为搭建图形界面做准备。 主窗口 主菜单 文本控件 其他控件 1. 主窗口 tk.T...
通过前面学习的 Tkinter 知识,这一节我们将《垃圾邮件识别器》所需要的界面搭建起来,界面主要包括: 主窗口 顶部菜单 中心文本框 底部状态栏 1. 主窗口 创建 MainFrame.py 文件,创建 MainFra...
这一节我们将通过学习贝叶斯公式、朴素贝叶斯、文本分类案例三部分来了解垃圾邮件识别的算法原理。 首先,我们将理解贝叶斯公式,这是垃圾邮件识别中关键的数学基础; 接着,我们将介绍朴素贝叶斯算法,它建立在贝叶斯公式的基础上; ...
Scikit-Learn 是一个用于机器学习和数据分析的 Python 库,它提供了各种用于数据预处理、特征工程、模型选择、模型训练和模型评估的工具和算法。我们使用到的朴素贝叶斯算法实现,以及文本特征提取等操作都可以使用...
垃圾邮件分类是一种具有广泛应用场景的二分类问题,可以利用机器学习进行解决,市场上已经有很成熟的垃圾邮件分类软件或集成在 Outlook上 的垃圾邮件过滤插件。接下来,我们使用朴素贝叶斯算法训练一个《垃圾邮件分类器》。 邮...