1.3.1. 理解范数惩罚正则化

本文着重于参数范数惩罚正则化方法的直观理解,而非严谨推导

1.3.1.1. 罗列一下正则化方法

  • 参数范数惩罚
    • L2 参数正则化
    • L1 参数正则化
  • 作为约束的范数惩罚
  • 正则化和欠约束问题
  • 数据集增强
  • 噪声鲁棒性
  • 半监督学习
  • 多任务学习
  • 提前终止
  • 参数绑定和参数共享
  • 稀疏表
  • Bagging 和其它集成方法
  • Dropout
  • 对抗训练
  • 切面距离、正切传播和流形正切分类器

1.3.1.2. L1,L2正则的概率分布

频率派认为参数是一个常量,优化方法为最大似然MLE,优化目标为:

argmaxθP(Y,Xθ) { argmax }_ { \theta } P ( Y , X | \theta )

如果误差服从高斯分布,则:


P(Y,Xθ)=i=1n12πσexp{12σ2(yf(x;θ))2} P(Y,X| \theta)= \prod _{i=1}^{n}\frac{1}{\sqrt{2 \pi}\sigma}exp \left\{ - \frac{1}{2 \sigma ^{2}}(y-f(x; \theta))^{2}\right\}

取负对数之后,等价于一般的最小二乘法:

argminθi=1n(yif(xi;θ))2 argmin_\theta \sum _{i=1}^{n}(y_{i}-f(x_{i}; \theta))^{2}

贝叶斯派认为参数不是一个常量,而是一个分布:


θf(θ) \theta \sim f ( \theta )

此时进行最大似然:

argmaxθP(Y,Xθ)f(θ) argmax_\theta P(Y,X| \theta)f(\theta)

此时取负对数:

argmin[log(P(Y,Xθ))log(f(θ))] { argmin }[ - \log ( P ( Y , X | \theta )) - \log ( f ( \theta ) )]

等价于:

argmini=1n(yif(xi;θ))2log(f(θ)) { a r g m i n } \sum _ { i = 1 } ^ { n } ( y _ { i } - f ( x _ { i } ; \theta ) ) ^ { 2 } - \log ( f ( \theta ) )

相比之前多了一项,而这一项就是正则项

  1. 假设参数符合拉普拉斯分布,则对应了L1正则(Lasso回归)
  2. 假设参数符合高斯分布,则对应了L2正则(Ridge回归)

限制了参数的分布空间,即控制了模型的空间,可有效控制模型的过拟合。

1.3.1.3. 为什么L1更容易稀疏解

1.3.1.3.1. 先验概率角度

Snipaste_2022-09-19_16-07-44

如图所示,拉普拉斯分布相比高斯分布更多的集中在0点附近,而高斯分布更加平滑。

1.3.1.3.2. 图形解释角度

最小二乘法[yx(w1+w2)]2[y-x(w_1+w_2)]^2 如果应用于二维,从图形上看是椭圆

(椭圆的一般方程Ax2+By2+Cxy+Dx+Ey+F=0 Ax^2 + By^2 + Cxy + Dx + Ey + F = 0

如果参数是二维的[w1,w2][w_1,w_2],那么它的L1L1范数是w1+w2| w_1 | + | w_2 |。设w1+w2=c| w_1 | + | w_2 |=c 则可以画出菱形

同理L2L2范数为w12+w22=cw_1^2 + w_2^2=c ,即画出圆心为原点的圆

所以此优化问题可以可视化为上图,由图形可知$L1$更容易产生0解

1.3.1.3.3. 导数角度

定义损失函数为L(w)L(w),假设只有一个参数ww,则加上L1L1正则的损失函数为:

JL1(w)=L(w)+λw J _ { L 1 } ( w ) = L ( w ) + \lambda | w |

加上$L2$正则的损失函数为:

JL2(w)=L(w)+λw2 J_{L2}(w)=L(w)+ \lambda w^{2}

此刻设L(w)L(w)w=0w=0时,导数为dd,则加上JL1(w)J_{L1}(w)导数当w>0w>0时等于: d+λd+\lambda ,当w>0w>0 时等于: dλd-\lambda

而加入JL2(w)J_{L2}(w)导数为d+2λwd+2\lambda w ,由于w=0w=0,所以导数为dd

所以JL2(w)J_{L2}(w) 在经过点0前后,导数是不变的,而JL1(w)J_{L1}(w)是骤然变小的,更容易产生0值。

1.3.1.4. 引用

  1. 《Deep Learning》
  2. 《PRML》
关注本公众号,下期更精彩

image-20220930221129484

results matching ""

    No results matching ""