目前业界公认的最好的激活函数是 swish 和 mish 函数,在保持原结构不变的基础上,直接将模型的激活函数换成 HardSwish 或 Mish 函数,都会使得模型的性能有所提升。 下图为 HardSwish 和 M...
ReLU(Linear rectification function,修正线性单元)在图像处理任务中使用最广泛的激活函数,它虽然具有一定的优势,但是也存在一些不足,由此出现了一些变种函数,例如:SoftPlus、Leak...
激活函数主要用来向神经网络中加入非线性因素,以解决线性模型表达能力不足的问题,它对神经网络有着极其重要的作用。我们的网络参数在更新时,使用的反向传播算法(BP),这就要求我们的激活函数必须可微。sigmoid 激活函数在...
激活函数用于对每层的输出数据进行变换, 进而为整个网络结构结构注入了非线性因素。此时, 神经网络具备逼近任意函数的能力。 如果不使用激活函数,整个网络虽然看起来复杂,其本质还相当于一种线性模型,如下公式所示: 上述简单网...
我们通过手动实现线性回归的假设函数、平方损失、SGD优化方法、以及训练函数来实现对 sklearn make_regression 函数产生的数据集进行拟合,最后通过拟合直线、训练损失变化进行可视化。 输出结果:
自动微分(Autograd)模块对张量做了进一步的封装,具有自动求导功能。自动微分模块是构成神经网络训练的必要模块,在神经网络的反向传播过程中,Autograd 模块基于正向计算的结果对当前的参数进行微分计算,从而实现网...
在很多领域需要进行向量相似度的计算。本篇文章主要介绍一些常见的方法: 曼哈顿距离 欧几里得距离 切比雪夫距离 闵可夫斯基距离 标准欧式距离 余弦相似度 点积相似度 1. 曼哈顿距离 曼哈顿距离指的是两个向量在各个维度上的...
编写词典构建代码 编写数据加载器代码 编写模型定义代码 编写训练代码 编写测试代码 1. 编写词典构建代码 在开始训练词向量之前,需要先根据语料库构建出自己的词典,方便将文本语料内容转换为索引表示。在下面代码中,buil...
在 20 世纪 50 年代,弗兰克·罗森布莱特(Frank Rosenblatt)提出了感知机算法,其最初的目的是教会计算机识别图像。感知机的基本思路是简单模型神经元细胞的的运行原理。 1. 感知机原理 f(x) > 0...
下一个质心选取概率计算公式: 由计算结果,可以看到当以 6 为第一个质心时,1、2、3、4 被选择为下一个质心的概率更高,而 5、7、8 被选择为下一个质心的概率很低。 简言之:kmeans++ 算法有很高的概率选择距离...
TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用技术。 通过 TF-IDF 我们可以实现: 1. 算法公式 TF-IDF...
梯度消失问题是深度神经网络训练中的一个常见问题,梯度消失会使得梯度值过小,甚至为 0,使得网络参数无法得到有效的更新。大白话理解的话,一个参数对应了一个特征,参数如果无法得到有效的更新,意味着模型对该特征没有进行充分的学...
在数据集较为复杂的场景下,数据集中容易出现一些异常数据、特征多重共线性问题,使得参数更新出现剧烈的震荡,难以快速收敛到最优解。 通过 L1 和 L2 正则化,一定程度上可以使得参数的更新更加平滑,减少异常数据、共线性问题...