逻辑回归(Logistic Regression)

逻辑回归是一种广义的线性回归分析模型,常用于疾病自动诊断,经济预测等领域。本文从以下几个方面介绍逻辑回归:

  1. Sigmoid 函数
  2. 逻辑回归损失函数
  3. 逻辑回归 API 介绍

1. Sigmoid 函数

Sigmoid 函数也叫 Logistic 函数,取值范围为 (0,1),它可以将一个实数映射到 (0,1) 的区间,可以用来做二分类。函数公式及其图像如下:

此图像的alt属性为空;文件名为01d9103526ecf9e.jpeg
sigmoid 图像

逻辑回归用于二分类问题,即:将线性线性回归的输出值送入 Sigmoid 函数得到 1 类别的概率。如果输出概率值大于 0.5,则将样本输出为 1 类别,否则输出为 0 类别。逻辑回归数学表示如下:

2. 负对数损失推导

假设:逻辑回归输出 0、1 两个类别,则某个样本被分为 1 类的概率为: p, 则分为 0 类的概率为 1-p,则每一个样本分类正确的概率为:

上述公式表示样本类别 y = 1 的概率为 p, y = 0 的概率为 1 – p. 为了方便计算,该式子可以变成下面的形式:

如果样本的真实类别为 y=1, 则 p(yi|xi)=p, p 值越大说明预测的越准确。如果样本的这是类别为 y=0, p 越小说明预测越准确,即:(1-p) 越大越好。

假设,我们现在有样本:[(x1, y1), (x2, y2) … (xn, yn)],那么,这些样本全部预测正确的概率可以用下面的公式表示:

我们希望 P 值尽可能大。其中 P 是关于 w 的一个函数。如下公式所示:

为了 P 的值能够达到最大化,我们需要获得一个合适 w 参数。我们将上述最大化的问题,可以转换为最小化的问题:

先对 p 求导数。根据复合函数的链式求导法则,我们分为以下几步进行求导:

第一步求导
第二步求导
第三步求导
第四步求导
第五步求导

接下来,我们计算 arg max P 的导数,由于其是连乘形式,为了简化可以将其转换为加法形式,即对等式两边求导,即:

接下来,我们就对上述公式求导,其过程如下:

上述梯度计算公式中,只有 w 是未知。接下来,我们就可以使用梯度上升法来求解 w 的值,即:

未经允许不得转载:一亩三分地 » 逻辑回归(Logistic Regression)
评论 (0)

2 + 6 =