过拟合(Overfitting)是指模型在训练数据上表现得很好,但在未见过的测试数据上表现较差的现象。无论是传统机器学习算法、还是深度学习算法都会出现过拟合问题。 1. 过拟合方法 我们前面构建的分类或者回归决策树都是完...
Scikit-Learn(sklearn)是一个用于机器学习的Python库,其中包含了大量用于分类、回归、聚类和其他机器学习任务的算法和工具。在sklearn中,决策树是其中的一个常用算法。下面,将会对决策树在 skl...
词袋模型一种表示和处理文本数据的模型或框架,它提供了一种简单的思想,使得我们能够实现文本转换为数值形式,以便进行进一步的分析,例如:进行新闻分类、文档检索、情感分析等任务。
Word2Vec 是 Google 在 2013 年推出的一种用于生成词向量的模型,它通过无监督学习的方式从大量文本数据中学习单词的语义关系。即:通过训练一个浅层的神经网络模型来学习如何将每个词转换为一个固定长度的向量。...
在写程序时,我们经常会处理小数这种数据。这节课,将会给同学们讲解下,在计算机中小数存储的两种方式:浮点小数和定点小数。学习目标: 最后,我们来总结下这两种存储方式:
字节序(Byte Order)是指在多字节数据类型(如整数和浮点数)在内存中存储时,字节的排列顺序。常见的字节序有大端序(Big Endian)和小端序(Little Endian)。 例如,对于一个四字节的整数值 0x...
joblib 是一个Python库,用于在Python中高效地保存和加载对象,特别是那些包含大型数据数组的对象。它在机器学习领域中非常有用,因为经常需要保存训练好的模型或中间数据。 除了提供对象序列化的功能外,还有一个重...
SoftMax 函数是深度学习和机器学习中一个非常重要的概念,主要用于处理多分类问题。Softmax 函数能够将一个实数向量映射为一个概率分布,使得输出向量的所有元素都在 0 到 1 之间,并且它们的和为 1。 层次 S...
聚类(Clustering)指的是将一组数据点按照某种规则或者方法分成多个组或簇,使得同一组内的数据点在某种意义上更相似,而不同组之间的数据点相对较不相似。 聚类时,可以基于数据分布、基于数据密度、基于数据相似度、基于图...
TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用技术,是进行文本任务的重要算法。