机器学习中L1正则化和L2正则化的区别是什么?

发布网友发布时间：2022-04-23 13:43

共3个回答

懂视网时间：2022-05-04 05:55

Sparsity 的最重要的客户大概要属 high dimensional data 了吧。现在的机器学习问题中，具有非常高维度的数据随处可见。例如，在文档或图片分类中常用的 bag of words 模型里，如果词典的大小是一百万，那么每个文档将由一百万维的向量来表示。高维度带来的的一个问题就是计算量：在一百万维的空间中，即使计算向量的内积这样的基本操作也会是非常费力的。不过，如果向量是稀疏的的话（事实上在 bag of words 模型中文档向量通常都是非常稀疏的），例如两个向量分别只有 L1 和 L2 个非零元素，那么计算内积可以只使用 min(L1,L2)次乘法完成。因此稀疏性对于解决高维度数据的计算量问题是非常有效的。

当然高维度带来的问题不止是在计算量上。例如在许多生物相关的问题中，数据的维度非常高，但是由于收集数据需要昂贵的实验，因此可用的训练数据却相当少，这样的问题通常称为small n, large p problem——我们一般用 n 表示数据点的个数，用 p 表示变量的个数，即数据维度。当 p?n 的时候，不做任何其他假设或者的话，学习问题基本上是没法进行的。因为如果用上所有变量的话，p 越大，通常会导致模型越复杂，但是反过来 n 有很小，于是就会出现很严重的 overfitting 问题。例如，最简单的线性回归模型：

f(x)=∑j=1pwjxj=wTx

使用 square loss 来进行学习的话，就变成最小化如下的问题

J(w)=1n∑i=1n(yi?f(xi))2=1n∥y?Xw∥2

这里 X=(x1,…,xn)T∈Rn×p 是数据矩阵，而 y=(y1,…,yn)T

eq: 1 ?

w?=(XTX)?1XTy

然而，如果 p>n 的话，矩阵 XTX 将会不是满秩的，而这个解也没法算出来。或者更确切地说，将会有无穷多个解。也就是说，我们的数据不足以确定一个解，如果我们从所有可行解里随机选一个的话，很可能并不是真正好的解，总而言之，我们 overfitting 了。

解决 overfitting 最常用的办法就是 regularization ，例如著名的 ridge regression 就是添加一个 ?2 regularizer ：

JR(w)=1n∥y?Xw∥2+λ∥w∥2

直观地来看，添加这个 regularizer 会使得模型的解偏向于 norm 较小的 w 。从凸优化的角度来说，最小化上面这个 J(w) 等价于如下问题：

minw1n∥y?Xw∥2,s.t.∥w∥≤C

其中 C 是和 λ 一一对应的是个常数。也就是说，我们通过 w 的 norm 的大小实现了对模型空间的，从而在一定程度上（取决于 λ 的大小）避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力，得到的系数 w 仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。

不过，特别是在像生物或者医学等通常需要和人交互的领域，稀疏的解除了计算量上的好处之外，更重要的是更具有可解释性。比如说，一个病如果依赖于 5 个变量的话，将会更易于医生理解、描述和总结规律，但是如果依赖于 5000 个变量的话，基本上就超出人肉可处理的范围了。

在这里引入稀疏性的方法是用 ?1 regularization 代替 ?2 regularization，得到如下的目标函数

eq: 2 ?

JL(w)=1n∥y?Xw∥2+λ∥w∥1

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题，不过不再具有解解析解。它的优良性质是能产生稀疏性，导致 w中许多项变成零。

可是，为什么它能产生稀疏性呢？这也是一直让我挺感兴趣的一个问题，事实上在之前申请学校的时候一次电话面试中我也被问到了这个问题。我当时的回答是背后的理论我并不是很清楚，但是我知道一个直观上的理解。下面我们就先来看一下这个直观上的理解。

首先，很 ridge regression 类似，上面形式的 LASSO 问题也等价于如下形式：

minw1n∥y?Xw∥2,s.t.∥w∥1≤C

也就是说，我们将模型空间在 w 的一个 ?1-ball 中。为了便于可视化，我们考虑两维的情况，在 (w1,w2) 平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为 C 的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解。如图 (fig: 1) 所示：

fig: 1 ?

?1-ball meets quadratic function. ?1-ball has corners. It’s very likely that the meet-point is at one of the corners.

?2-ball meets quadratic function. ?2-ball has no corner. It is very unlikely that the meet-point is on any of axes."

可以看到，?1-ball 与 ?2-ball 的不同就在于他在和每个坐标轴相交的地方都有角出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置为产生稀疏性，例如图中的相交点就有 w1=0 ，而更高维的时候（想象一下三维的 ?1-ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

相比之下，?2-ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么 ?1 regularization 能产生稀疏性，而 ?2 regularization 不行的原因了。

不过，如果只限于 intuitive 的解释的话，就不那么好玩了，但是背后完整的理论又不是那么容易能够搞清楚的，既然这次的标题是 Basics ，我们就先来看一个简单的特殊情况好了。

接下来我们考虑 orthonormal design 的情况：(1/n)XTX=I 。然后看看 LASSO 的解具体是什么样子。注意 orthonormal design 实际上是要求特征之间相互正交。这可以通过对数据进行 PCA 以及模长 normalize 来实现。

注意到 LASSO 的目标函数 (eq: 2) 是 convex 的，根据 KKT 条件，在最优解的地方要求 gradient?JL(w)=0 。不过这里有一点小问题： ?1-norm 不是光滑的，不存在 gradient ，所以我们需要用一点 subgradient 的东西。

def: 1 ?

定义 subgradient; subdifferential

对于在 p 维欧氏空间中的凸开子集 U 上定义的实值函数 f:U→R ，一个向量 p 维向量 v 称为 f 在一点 x0∈U 处的 subgradient ，如果对于任意 x∈U ，满足

f(x)?f(x0)≥v?(x?x0)

由在点 x0 处的所有 subgradient 所组成的集合称为 x0 处的 subdifferential ，记为 ?f(x0) 。

注意 subgradient 和 subdifferential 只是对凸函数定义的。例如一维的情况， f(x)=|x| ，在 x=0 处的 subdifferential 就是 [?1,+1] 这个区间（集合）。注意在 f 的 gradient 存在的点，subdifferential 将是由 gradient 构成的一个单点集合。这样就将 gradient 的概念加以推广了。这个推广有一个很好的性质。

性质 condition for global minimizer

点 x0 是凸函数 f 的一个全局最小值点，当且仅当 0∈?f(x0) 。

证明很简单，将 0∈?f(x0) 带入定义 (def: 1) 中的那个式子立即就可以得到。有了这个工具之后，就可以对 LASSO 的最优解进行分析了。在此之前，我们先看一下原始的 least square 问题的最优解 (eq: 1) 现在变成了什么样子，由于 orthonormal design ，我们有

eq: 3 ?

w?=1nXTy

然后我们再来看 LASSO ，假设 wˉ=(wˉ1,…,wˉp)T 是 JL(w) 的全局最优值点。考虑第 j个变量 wˉj ，有两种情况。

gradient 存在，此时 wˉj≠0

由于 gradient 在最小值点必须要等于零，我们有

?JL(w)?wj∣∣∣wˉj=0

亦即

?2n(XTy?XTXwˉ)j+λsign(wˉj)=0

根据 orthonormal design 性质以及 least square 问题在 orthonormal design 时的解 (eq: 3) 化简得到

wˉj=w?j?λ2sign(wˉj)

从这个式子也可以明显看出 wˉj 和 w?j 是同号的，于是 sign(wˉj) 等于 sign(w?j) ，所以上面的式子变为

wˉj=w?j?λ2sign(w?j)=sign(w?j)(∣∣w?j∣∣?λ2)

再用一次 sign(w?j)=sign(wˉj) ，两边同时乘以 sign(wˉj) ，可以得到

∣∣w?j∣∣?λ2=∣∣wˉj∣∣≥0

于是刚才的式子可以进一步写为

eq: 4 ?

wˉj=sign(w?j)(∣∣w?j∣∣?λ2)+

这里 (x)+=max{x,0} 表示 x 的正部。

gradient 不存在，此时 wˉj=0

根据 subgradient 在最小值点处的性质的性质，此时比有

0=wˉj∈?JL(wˉ)={?2n(XTy?XTXwˉ)j+λe:e∈[?1,1]}={2wˉj?2w?j+λe:e∈[?1,1]}

亦即存在 e0∈[?1,1] 使得

0=2wˉj?2w?j+λe0=2w?j+λe0

于是

|w?j|=λ2|e0|≤λ2

又因为 wˉj=0 ，所以这个时候式子也可以统一为 (eq: 4) 的形式。如此一来，在 orthonormal design 的情况下，LASSO 的最优解就可以写为 (eq: 4) ，可以用图 (fig: 2) 形象地表达出来。

fig: 2 ?

图上画了原始的 least square 解，LASSO 的解以及 ridge regression 的解，用上面同样的方法（不过由于 ridge regularizer 是 smooth 的，所以过程却简单得多）可以得知 ridge regression 的解是如下形式

21+2λw?j

可以 ridge regression 只是做了一个全局缩放，而 LASSO 则是做了一个 soft thresholding ：将绝对值小于 λ/2 的那些系数直接变成零了，这也就更加令人信服地解释了 LASSO 为何能够产生稀疏解了。

上面的文字，前半段看懂了，后半段功力不够，还没有看懂

下面就讲下个人的直观理解：

l2正则可以防止参数估计的过拟合，但是选择合适lambda比较困难，需要交叉验证。如果有个特征与输出结果不相关，则L2会给一个特别小的值，但是不会为0.

l1正则会产生稀疏解，即不相关的的特征对应的权重为0，就相当于降低了维度。但是l1的求解复杂度要高于l2,并且l1更为流行

热心网友时间：2022-05-04 03:03

L1正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；

L2正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些*。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归。下图是Python中Lasso回归的损失函数，式中加号后面一项α||w||1即为L1正则化项。

热心网友时间：2022-05-04 04:21

正则化(regularization)，是指在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去*近原问题的解,这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov 正则化、各种迭代方法以及其它的一些改进方法,这些方法都是求解不适定问题的有效方法,在各类反问题的研究中被广泛采用,并得到深入研究。
正则化:Normalization，代数几何中的一个概念。
通俗来说
就是给平面不可约代数曲线以某种形式的全纯参数表示。
即对于PC^2中的不可约代数曲线C，寻找一个紧Riemann面C*和一个全纯映射σ:C*→PC^2,使得σ(C*)=C
严格的定义如下
设C是不可约平面代数曲线，S是C的奇点的集合。如果存在紧Riemann面C*及全纯映射σ:C*→PC^2,使得
(1) σ(C*)=C (2) σ^(-1)(S)是有限点集 (3) σ:C*\σ^(-1)(S)→C\S是一对一的映射
则称(C*,σ)为C的正则化。不至于混淆的时候，也可以称C*为C的正则化。
正则化的做法，实际上是在不可约平面代数曲线的奇点处，把具有不同切线的曲线分支分开，从而消除这种奇异性。

主要解决的问题
1.正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识(如一般的l-norm先验，表示原问题更可能是比较简单的，这样的优化倾向于产生参数值量级小的解，一般对应于稀疏参数的平滑解)。
2.同时，正则化解决了逆问题的不适定性，产生的解是存在，唯一同时也依赖于数据的，噪声对不适定的影响就弱，解就不会过拟合，而且如果先验(正则化)合适，则解就倾向于是符合真解(更不会过拟合了)，即使训练集中彼此间不相关的样本数很少。

全部栏目

机器学习中L1正则化和L2正则化的区别是什么?

定义 subgradient; subdifferential

性质 condition for global minimizer

gradient 存在，此时 wˉj≠0

gradient 不存在，此时 wˉj=0