发布网友 发布时间:2022-04-23 13:43
共3个回答
懂视网 时间:2022-05-04 05:55
Sparsity 的最重要的客户
大概要属 high dimensional data 了吧。现在的机器学习问题中,具有非常高维度的数据随处可见。例如,在文档或图片分类中常用的 bag of words 模型里,如果词典的大小是一百万,那么每个文档将由一百万维的向量来表示。高维度带来的的一个问题就是计算量:在一百万维的空间中,即使计算向量的内积这样的基本操作也会是非常费力的。不过,如果向量是稀疏的的话(事实上在
bag of words 模型中文档向量通常都是非常稀疏的),例如两个向量分别只有
当然高维度带来的问题不止是在计算量上。例如在许多生物相关的问题中,数据的维度非常高,但是由于收集数据需要昂贵的实验,因此可用的训练数据却相当少,这样的问题通常称为small
——我们一般用
使用 square loss 来进行学习的话,就变成最小化如下的问题
这里
eq: 1 ?
然而,如果
解决 overfitting 最常用的办法就是 regularization ,例如著名的 ridge regression 就是添加一个
直观地来看,添加这个 regularizer 会使得模型的解偏向于 norm 较小的
其中
不过,特别是在像生物或者医学等通常需要和人交互的领域,稀疏的解除了计算量上的好处之外,更重要的是更具有可解释性
。比如说,一个病如果依赖于 5 个变量的话,将会更易于医生理解、描述和总结规律,但是如果依赖于 5000 个变量的话,基本上就超出人肉可处理的范围了。
在这里引入稀疏性的方法是用
eq: 2 ?
该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题,不过不再具有解解析解。它的优良性质是能产生稀疏性,导致
可是,为什么它能产生稀疏性呢?这也是一直让我挺感兴趣的一个问题,事实上在之前申请学校的时候一次电话面试中我也被问到了这个问题。我当时的回答是背后的理论我并不是很清楚,但是我知道一个直观上的理解。下面我们就先来看一下这个直观上的理解。
首先,很 ridge regression 类似,上面形式的 LASSO 问题也等价于如下形式:
也就是说,我们将模型空间在
fig: 1 ?
可以看到,角
出现,而目标函数的测地线除非位置摆得非常好,大部分时候都会在角的地方相交。注意到在角的位置为产生稀疏性,例如图中的相交点就有
相比之下,
不过,如果只限于 intuitive 的解释的话,就不那么好玩了,但是背后完整的理论又不是那么容易能够搞清楚的,既然这次的标题是 Basics ,我们就先来看一个简单的特殊情况好了。
接下来我们考虑 orthonormal design 的情况:
注意到 LASSO 的目标函数 (eq:
2) 是 convex 的,根据 KKT 条件,在最优解的地方要求 gradient
def: 1 ?
对于在
注意 subgradient 和 subdifferential 只是对凸函数定义的。例如一维的情况,
证明很简单,将
eq: 3 ?
然后我们再来看 LASSO ,假设
由于 gradient 在最小值点必须要等于零,我们有
亦即
根据 orthonormal design 性质以及 least square 问题在 orthonormal design 时的解 (eq: 3) 化简得到
从这个式子也可以明显看出
再用一次
于是刚才的式子可以进一步写为
eq: 4 ?
这里
根据 subgradient 在最小值点处的性质的性质,此时比有
亦即存在
于是
又因为
fig: 2 ?
图上画了原始的 least square 解,LASSO 的解以及 ridge regression 的解,用上面同样的方法(不过由于 ridge regularizer 是 smooth 的,所以过程却简单得多)可以得知 ridge regression 的解是如下形式
可以 ridge regression 只是做了一个全局缩放,而 LASSO 则是做了一个 soft thresholding :将绝对值小于
上面的文字,前半段看懂了,后半段功力不够,还没有看懂
下面就讲下个人的直观理解:
l2正则可以防止参数估计的过拟合,但是选择合适lambda比较困难,需要交叉验证。如果有个特征与输出结果不相关,则L2会给一个特别小的值,但是不会为0.
l1正则会产生稀疏解,即不相关的的特征对应的权重为0,就相当于降低了维度。但是l1的求解复杂度要高于l2,并且l1更为流行
热心网友 时间:2022-05-04 03:03
L1正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;
L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小
L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些*。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归。下图是Python中Lasso回归的损失函数,式中加号后面一项α||w||1即为L1正则化项。
热心网友 时间:2022-05-04 04:21
正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去*近原问题的解,这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov 正则化、各种迭代方法以及其它的一些改进方法,这些方法都是求解不适定问题的有效方法,在各类反问题的研究中被广泛采用,并得到深入研究。
正则化:Normalization,代数几何中的一个概念。
通俗来说
就是给平面不可约代数曲线以某种形式的全纯参数表示。
即对于PC^2中的不可约代数曲线C,寻找一个紧Riemann面C*和一个全纯映射σ:C*→PC^2,使得σ(C*)=C
严格的定义如下
设C是不可约平面代数曲线,S是C的奇点的集合。如果存在紧Riemann面C*及全纯映射σ:C*→PC^2,使得
(1) σ(C*)=C (2) σ^(-1)(S)是有限点集 (3) σ:C*\σ^(-1)(S)→C\S是一对一的映射
则称(C*,σ)为C的正则化。不至于混淆的时候,也可以称C*为C的正则化。
正则化的做法,实际上是在不可约平面代数曲线的奇点处,把具有不同切线的曲线分支分开,从而消除这种奇异性。
主要解决的问题
1.正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
2.同时,正则化解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。