1.3.1. 理解范数惩罚正则化
本文着重于参数范数惩罚正则化方法的直观理解,而非严谨推导
1.3.1.1. 罗列一下正则化方法
- 参数范数惩罚
- 作为约束的范数惩罚
- 正则化和欠约束问题
- 数据集增强
- 噪声鲁棒性
- 半监督学习
- 多任务学习
- 提前终止
- 参数绑定和参数共享
- 稀疏表
- Bagging 和其它集成方法
- Dropout
- 对抗训练
- 切面距离、正切传播和流形正切分类器
1.3.1.2. L1,L2正则的概率分布
频率派认为参数是一个常量,优化方法为最大似然MLE,优化目标为:
argmaxθP(Y,X∣θ)
如果误差服从高斯分布,则:
P(Y,X∣θ)=∏i=1n√2πσ1exp{−2σ21(y−f(x;θ))2}
取负对数之后,等价于一般的最小二乘法:
argminθ∑i=1n(yi−f(xi;θ))2
贝叶斯派认为参数不是一个常量,而是一个分布:
θ∼f(θ)
此时进行最大似然:
argmaxθP(Y,X∣θ)f(θ)
此时取负对数:
argmin[−log(P(Y,X∣θ))−log(f(θ))]
等价于:
argmin∑i=1n(yi−f(xi;θ))2−log(f(θ))
相比之前多了一项,而这一项就是正则项
- 假设参数符合拉普拉斯分布,则对应了L1正则(Lasso回归)
- 假设参数符合高斯分布,则对应了L2正则(Ridge回归)
限制了参数的分布空间,即控制了模型的空间,可有效控制模型的过拟合。
1.3.1.3. 为什么L1更容易稀疏解
1.3.1.3.1. 先验概率角度

如图所示,拉普拉斯分布相比高斯分布更多的集中在0点附近,而高斯分布更加平滑。
1.3.1.3.2. 图形解释角度

最小二乘法[y−x(w1+w2)]2 如果应用于二维,从图形上看是椭圆
(椭圆的一般方程Ax2+By2+Cxy+Dx+Ey+F=0)
如果参数是二维的[w1,w2],那么它的L1范数是∣w1∣+∣w2∣。设∣w1∣+∣w2∣=c 则可以画出菱形
同理L2范数为w12+w22=c ,即画出圆心为原点的圆
所以此优化问题可以可视化为上图,由图形可知$L1$更容易产生0解
1.3.1.3.3. 导数角度
定义损失函数为L(w),假设只有一个参数w,则加上L1正则的损失函数为:
JL1(w)=L(w)+λ∣w∣
加上$L2$正则的损失函数为:
JL2(w)=L(w)+λw2
此刻设L(w)在w=0时,导数为d,则加上JL1(w)导数当w>0时等于: d+λ ,当w>0 时等于: d−λ
而加入JL2(w)导数为d+2λw ,由于w=0,所以导数为d
所以JL2(w) 在经过点0前后,导数是不变的,而JL1(w)是骤然变小的,更容易产生0值。
1.3.1.4. 引用
- 《Deep Learning》
- 《PRML》
关注本公众号,下期更精彩
