加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 湛江站长网（https://www.0759zz.com/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 建站 > 正文

机器学习的正则化是什么意思？

发布时间：2019-10-16 11:01:59 所属栏目：建站来源：佚名

导读：副标题#e# 经常在各种文章或资料中看到正则化，比如说，一般的目标函数都包含下面两项其中，误差/损失函数鼓励我们的模型尽量去拟合训练数据，使得最后的模型会有比较少的 bias。而正则化项则鼓励更加简单的模型。因为当模型简单之后，有限数据拟合出来结

在图中，当J0等值线与LL图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L函数有很多『突出的角』（二维情况下四个，多维情况下更多），J0与这些角接触的机率会远大于与L其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

而正则化前面的系数α，可以控制L图形的大小。α越小，L的图形越大（上图中的黑色方框）；α越大，L的图形就越小，可以小到黑色方框只超出原点范围一点点，这是最优点的值(w1,w2)=(0,w)中的w可以取到很小的值。

类似，假设有如下带L2正则化的损失函数：

机器学习的正则化是什么意思？

同样可以画出他们在二维平面上的图形，如下：

机器学习的正则化是什么意思？

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

PRML一书对这两个图是这么解释的

机器学习的正则化是什么意思？

上图中的模型是线性回归，有两个特征，要优化的参数分别是w1和w2，左图的正则化是L2，右图是L1。蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是红色边界（就是正则化那部分），二者相交处，才是最优参数。

可见右边的最优参数只可能在坐标轴上，所以就会出现0权重参数，使得模型稀疏。

L2正则化和过拟合

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。

可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

那为什么L2正则化可以获得值很小的参数？

以线性回归中的梯度下降法为例。假设要求的参数为θ，hθ(x)是我们的假设函数，那么线性回归的代价函数如下：

机器学习的正则化是什么意思？

那么在梯度下降法中，最终用于迭代计算参数θ的迭代式为：

机器学习的正则化是什么意思？

其中α是learning rate. 上式是没有添加L2正则化项的迭代公式，如果在原始代价函数之后添加L2正则化，则迭代公式会变成下面的样子：

机器学习的正则化是什么意思？

其中λ就是正则化参数。从上式可以看到，与未添加L2正则化的迭代公式相比，每一次迭代，θj都要先乘以一个小于1的因子，从而使得θj不断减小，因此总得来看，θ是不断减小的。

最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释，当L1的正则化系数很小时，得到的最优解会很小，可以达到和L2正则化类似的效果。

最后再补充一个角度：正则化其实就是对模型的参数设定一个先验，这是贝叶斯学派的观点。L1正则是laplace先验，l2是高斯先验，分别由参数sigma确定。在数据少的时候，先验知识可以防止过拟合。

举两个最简单的例子。

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3

相关内容

推荐文章

针对移动端转码问题给	选择短网址的好处是可
千万不要因为盲目追求	SEO的职业生涯从seo初

站长推荐

热点阅读