回归分析常量_【模型】逻辑回归(Logistic Regression)

 2024-03-20 04:08:53  阅读 0

概述

逻辑回归是一种二分类模型,假设样本服从伯努利分布,并使用最大似然估计和梯度下降来求解。 它广泛应用于分类和CTR预测领域。

公式推导

逻辑回归用于解决分类问题。 与线性回归不同,逻辑回归输出的不是特定值,而是概率。 逻辑回归和线性回归在没有函数的情况下几乎是一样的。

有人说逻辑回归不是回归,因为输出不是回归值。 也可以理解,逻辑回归就是先求回归函数,然后将结果通过逻辑函数进行变换,得到最终的结果。

基本步骤

构造损失函数并通过最小化损失函数来找到目标函数的参数。

1. 结构

逻辑回归的H可以看作是线性回归方程通过函数的结果。 线性回归方程可以表示如下。

该函数如下,也称为逻辑函数:

通过逻辑函数对方程(1)进行变换得到的概率就是我们的,

功能

表示样本被预测为正例1的概率。我们可以很容易得到样本被预测为正例和负例的概率如下;

上述公式可以合并为一个公式

2.构建损失函数

我们用似然函数来表示预测结果的概率(式(2))。 得到似然函数就是将样本的概率预测值乘以模型。得到如下似然函数

由于这个公式比较麻烦,并且涉及到连续乘法,所以我们对其进行对数运算,得到对数似然函数。

上面用到了最大似然估计的原理:最大似然估计就是利用已知的样本分布来寻找最有可能(即最大概率)引起这种分布的参数值; 或者换句话说,什么样的参数能够使我们观察到当前这组数据的概率是最高的。

当似然函数取得最大值时,模型最能满足当前样本。 为了获得最大值,可以使用梯度向上的方法。 我们可以给似然函数加上负号,通过求等价问题的最小值来求出原始值。 问题的最大值,这样我们就可以使用最大似然估计方法。

制作:

这样我们就可以得到损失函数的最终形式

这相当于

3.通过梯度下降法求参数

更新的

下图为推导方法。 面试时做推导时不需要写下标(假设我们使用随机梯度下降法),这样可以让推导更加简洁。

求梯度:

这里需要提到的是,该函数具有以下属性,可以在上面的第三行看到:

最终更新的公式:

是学习率

确定模型的形式后,LR利用最大似然估计方法实现最小散度来获得模型参数。

为什么LR模型使用函数

首先要说明的是,它不是选择的,而是导出后签名的。

逻辑回归模型是广义线性模型,逻辑回归满足伯努利分布。 伯努利分布是指数分布族的一员,指数族分布具有以下形式:

伯努利分布具有以下形式:

根据伯努利分布的结果,逻辑回归的广义线性模型的形式可以写为:

我们当前的目标是寻求

表达式为:

写成下面的形式

令逻辑回归的表达式满足伯努利分布的指数分布族表达式,即公式(1),即令:

所以:

由式(1)可以推导出

即函数的形式。

因此,LR使用一个函数并不是因为LR选择它作为跨阶函数,而是因为它是根据线性模型和指数分布族的性质推导出来的。

为什么LR模型损失函数使用交叉熵而不是均方误差?

LR的基本形式如下

如果使用单变量逻辑回归,则预测值

是一个函数

如果使用均方误差作为损失函数

是模型的预测值,

,利用梯度下降法

要更新,您需要区分这两个参数的损失函数:

看得到

更新率与当前预测值函数的导数有关,形象如下

因此,如果当前模型的输出接近0或1,

会很小,接近于0,使得得到的梯度很小,损失函数收敛得很慢。

如果使用交叉熵作为损失函数

对于二分类问题,交叉熵的形式是通过最大似然估计下的概率相乘,然后取对数得到:

对w求导,我们得到

看得到,

的梯度与当前预测值与实际值的差值有关,不受函数导数的影响。 实际值与预测值的差异越大,梯度越大,更新速度越快。 这正是我们想要的需要。 如果使用均方误差作为损失函数,得到的梯度会受到函数导数的影响。

逻辑回归与线性模型的关系

先说结论:是线性模型,但是属于广义线性模型。 下面解释普通线性模型和广义线性模型。

普通线性模型

普通线性模型具有以下表达式:

是未知参数,

是截距项

普通线性模型具有以下特点:

广义线性模型

由此可见,逻辑回归是一种响应变量服从伯努利分布的广义线性模型。

逻辑回归与线性回归的区别与联系

区别

连接

与 LR 中的功能相关的问题

为什么要进行特征离散化

下面的一些答案并不是LR离散化的具体原因,而是离散化本身比较的原因。

离散特征可以是one-hot的,稀疏向量内积运算速度快,结果易于存储。 离散化后的数据具有很高的鲁棒性,不会因为数据的微小变化而表现出完全不同的性质,使得离散化后的模型更加稳定。 可以进行特征交叉,引入非线性特征来增强模型的表达能力。 离散化后,原来的一个特征变成了N个特征,增加了模型的拟合能力。 特征离散化后,相当于对特征进行了简化,一定程度上缓解了问题。 过拟合

共线特征对LR模型的影响

LR模型中特征的共线性不会影响模型的最优解,但是会影响系数的稳定性。比如现在有两个特征

,

,分别代表米和厘米,这两个​​长度是高度共线的。

,也可以表示为

系数发生了质的翻转,但表达能力没有改变。

因此,LR模型中特征的共线性不会影响模型的最优解,但会使系数不稳定,从而使可解释性变差。

如果存在重复的特征,比如一个特征重复100次,就相当于把原来的唯一特征分成了一百份。 这一百个特征的效果和原来的单个特征是一样的。

为什么我们要删除共线特征?

可以用特征权重的绝对值来衡量特征的重要性吗?

不一定,首先特征可能没有归一化,系数受量级影响,(1m=1cm * 100)

其次,特征之间可能存在共线性,导致特征系数不稳定,可解释性差。

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码