正则化

问题1：L1正则化和L2正则化？

参考资料：https://blog.csdn.net/jinping_shi/article/details/52433975

L1-norm和L2-norm都是针对于机器学习中的常见处理方式：

对应线性回归模型：

L1正则化的模型建模叫做Lasso回归
$\mathop{min}_w \frac{1}{2n_{sample}}||X_w-y||^2_2+\alpha||w||_1$
L2正则化的模型建模叫做Ridge回归（岭回归）
$\mathop{min}_w \frac{1}{2n_{sample}}||X_w-y||^2_2+\alpha||w||^2_2$

（待补充）

参考资料：https://blog.csdn.net/Taiyang625/article/details/89245907

是对于Mini-Batch进行的，作用是将每一个Batch的输入值的分布拉回到N(0,1)的正态分布上

\hat{x}^{(k)} = \frac{x^{(k)}-E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}

BN的位置：一般是BN在激活函数前，在卷积之后。

缺点是：

是对于同一层的神经元进行的，将统计值归到相同的均值方差上

\begin{align} \mu^l &= \frac{1}{H} \sum^H_{i=1}\alpha_i^l \\\\ \sigma^l &= \sqrt{\frac{1}{H}\sum^H_{i=1}(\alpha_i^l - \mu^l)^2} \end{align}

同时，LN用于RNN的效果比较明显，但在CNN上表现不如BN。

PS：在Transformer的FFN中加入的就是LN，而且激活函数用的是gelu。

最后更新于5年前

这有帮助吗？