正则化
最后更新于
最后更新于
参考资料:https://blog.csdn.net/jinping_shi/article/details/52433975
L1-norm和L2-norm都是针对于机器学习中的常见处理方式:
L1正则化是指权值向量w中各个元素的绝对值之和
L2正则化是指权值向量w中各个元素的平方和然后再求平方根
对应线性回归模型:
L1正则化的模型建模叫做Lasso回归
L2正则化的模型建模叫做Ridge回归(岭回归)
(待补充)
参考资料:https://blog.csdn.net/Taiyang625/article/details/89245907
是对于Mini-Batch进行的,作用是将每一个Batch的输入值的分布拉回到N(0,1)的正态分布上
BN的位置:一般是BN在激活函数前,在卷积之后。
缺点是:
对于Batch-size过于敏感,目的就是尽量让每一个batch的分布于训练样本的整个分布近乎相同,而batch太小的话,则可能不具有统计意义了
对于DNN、CNN这种深度固定的还好,但是对于RNN深度不固定的,处理起来会很麻烦(待补充原理分析)
是对于同一层的神经元进行的,将统计值归到相同的均值方差上
同时,LN用于RNN的效果比较明显,但在CNN上表现不如BN。
PS:在Transformer的FFN中加入的就是LN,而且激活函数用的是gelu。