逻辑回归（LR）、损失函数

2024-03-21 00:18:57 阅读 0

1.什么是逻辑回归？

逻辑回归用作分类算法。每个人都熟悉线性回归。一般形式为Y=aX+b，y的取值范围为[-∞,+∞]。值这么多，如何分类呢？别担心，伟大的数学家已经为我们找到了方法。

也就是说，通过将Y的结果带入非线性变换函数，我们可以得到[0,1]之间取值范围内的数S。 S可以看作是一个概率值。如果我们将概率阈值设置为0.5，那么如果S大于0.5，则可以认为是正样本，如果S小于0.5，则可以认为是负样本，可以进行分类。

2.什么是函数

函数公式如下：

逻辑回归损失函数是什么_逻辑回归损失函数_逻辑回归损失函数公式

无论函数中 t 取什么值，结果都将在区间 [0,-1] 内。回想一下，一道分类问题有两个答案，一个是“是”，一个是“否”，那么 0 对应“否”，1 对应“是”，然后有人又问了，这不是区间吗[0,1] 的？怎么可能只有0和1呢？这是一个很好的问题。我们假设分类阈值是0.5，那么超过0.5的都被分类为1，低于0.5的都被分类为0。阈值可以自己设置。

好的，接下来我们将 aX+b 带入 t 以获得逻辑回归的一般模型方程：

逻辑回归损失函数_逻辑回归损失函数公式_逻辑回归损失函数是什么

结果P也可以理解为概率。也就是说，如果概率大于0.5，则属于类别1，如果概率小于0.5，则属于类别0。这样就达到了分类的目的。

3.什么是损失函数？

逻辑回归的损失函数是log loss，即对数似然函数。函数公式如下：

逻辑回归损失函数_逻辑回归损失函数公式_逻辑回归损失函数是什么

公式中y=1表示当真实值为1时，使用第一个公式，当真实y=0时，使用第二个公式来计算损失。为什么要添加日志功能？可以想象，当真实样本为1，但h=0概率时，则log0=∞，即为模型的最大惩罚；当h=1时，则log1=0，相当于没有惩罚，即没有损失，达到最优结果。于是数学家们就想到了用log函数来表示损失函数的想法。

最后根据梯度下降法求解最小值点，得到理想的模型效果。

4. 是否可以进行多重分类？

是的，事实上我们可以从二分类问题过渡到多分类问题（一分类与其余分类）。步骤如下：

1.将该类型视为正样本，将所有其他类型视为负样本。那么我们就可以得到样本标签类型为该类型的概率p1。

2.然后将其他类型视为正样本，将其他类型全部视为负样本。同理，得到p2。

3. 通过这个循环，我们可以得到待预测样本的标签类型为类型类别i时的概率pi。最后，我们将pi中最大概率对应的样本标签类型作为我们要预测的样本类型。

逻辑回归损失函数是什么_逻辑回归损失函数_逻辑回归损失函数公式

总之还是分为两类，得到概率最大的结果。

5.逻辑回归有哪些优点？ 6. 逻辑回归有哪些应用？ 7. 逻辑回归常用的优化方法有哪些？ 7.1 一阶方法

梯度下降、随机梯度下降、迷你随机梯度下降。随机梯度下降不仅比原始梯度下降速度更快，而且在处理局部优化问题时，还能在一定程度上抑制局部最优解的出现。

7.2 二阶方法：牛顿法、拟牛顿法：

这里我们将详细讲解牛顿法的基本原理以及牛顿法的应用。牛顿法实际上就是通过切线与x轴的交点不断更新切线的位置，直到到达曲线与x轴的交点，从而得到方程的解。在实际应用中，我们经常需要解决凸优化问题，即需要求解函数一阶导数为0的位置，而牛顿法可以为这个问题提供解决方案。在实际应用中，牛顿法首先选择一个点作为起点，进行二阶泰勒展开，得到导数为0的点并进行更新，直到满足要求。这时牛顿法就变成了二阶解问题，比一阶解要好。方法比较快。我们经常看到的x通常是一个多维向量，这也就引出了矩阵的概念（即x的二阶导数矩阵）。

缺点：牛顿法是定长迭代，没有步长因子，因此不能保证函数值稳定下降，严重时甚至可能失败。此外，牛顿方法要求函数必须是二阶可微的。而且，计算矩阵的逆复杂度非常大。

拟牛顿法：不使用二阶偏导数构造矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛顿法的思想是用特殊的表达式形式来模拟矩阵或其逆矩阵，使表达式满足拟牛顿条件。主要有DFP法（近似逆）、BFGS（直接近似矩阵）、L-BFGS（可以减少BFGS所需的存储空间）。

8.逻辑回归为什么需要对特征进行离散化。非线性！非线性！非线性！逻辑回归是一种广义线性模型，表达能力有限；将单个变量离散化为N个后，每个变量都有独立的权重，相当于在模型中引入了非线性，可以提高模型的表达能力，增加拟合度；离散易于添加和减少特征，并且易于快速迭代模型；它很快！高速！高速！稀疏向量内积乘法运算速度快，计算结果易于存储，且易于扩展；强壮的！鲁棒性！鲁棒性！离散化后的特征对异常数据具有很强的鲁棒性：例如某个特征年龄>30则为1，否则为0。如果特征不离散化，一条异常数据“年龄300岁”就会造成很大的干扰到模型；方便交叉和特征组合：离散化后，可以进行特征交叉，从M+N变量到M*N变量，进一步引入非线性，提高表达能力；稳定性：特征离散化后，模型会更加稳定。例如，如果对用户年龄进行离散化，则以20-30作为区间，不会因为用户大一岁而改变。成为一个完全不同的人。当然，与区间相邻的样本会正好相反，所以如何划分区间是一个学问；简化模型：特征离散化后，简化了逻辑回归模型，降低了模型过拟合的风险。 9. 在逻辑回归的目标函数中增加 L1 正则化会产生什么后果。

所有参数w都将变为0。

10. 代码实现

逻辑回归损失函数公式_逻辑回归损失函数_逻辑回归损失函数是什么