nlp-keypoints
  • 前言
  • 中文NER掠影
    • overview
    • LatticeLSTM
    • WC-LSTM
    • SoftLexicon
    • FLAT
    • LEBERT
    • 中文NER总结
  • Embedding知识板块
    • Word2Vec
    • Transformer
    • Bert
    • XLNet
    • Albert
    • Roberta
  • ML/DL基础板块
    • 特征工程
    • 初始化
    • 激活函数
    • 正则化
    • Dropout
    • 损失函数
    • 优化方法
    • Attention
    • CNN
    • LSTM
    • CRF
    • Jieba分词原理
    • 其他统计学习
  • 知识图谱板块
    • Brat标注
    • NER
    • NRE
    • 远程监督
    • 事件图谱/事理图谱
  • 文本分类知识板块
    • FastText
    • TextCNN
    • DPCNN
  • 相似匹配板块
    • Ranking Loss
    • 匹配模型
  • 树模型知识板块
    • 决策树考点
    • Bagging vs Boosting
    • GBDT考点
    • Xgboost
  • 面试复盘整理
    • MM科技
    • V哥面的知识图谱
    • HS
    • HSJY
    • HM医疗
    • 平安科技
    • M科技
由 GitBook 提供支持
在本页
  • 问题1:L1正则化和L2正则化?
  • 1.1 处理方式
  • 1.2 直观理解与区别
  • 问题2:Batch Normalization
  • 问题3:Layer Normalization

这有帮助吗?

  1. ML/DL基础板块

正则化

上一页激活函数下一页Dropout

最后更新于5年前

这有帮助吗?

问题1:L1正则化和L2正则化?

参考资料:

1.1 处理方式

L1-norm和L2-norm都是针对于机器学习中的常见处理方式:

  • L1正则化是指权值向量w中各个元素的绝对值之和

  • L2正则化是指权值向量w中各个元素的平方和然后再求平方根

对应线性回归模型:

  • L1正则化的模型建模叫做Lasso回归

    minw12nsample∣∣Xw−y∣∣22+α∣∣w∣∣1\mathop{min}_w \frac{1}{2n_{sample}}||X_w-y||^2_2+\alpha||w||_1minw​2nsample​1​∣∣Xw​−y∣∣22​+α∣∣w∣∣1​
  • L2正则化的模型建模叫做Ridge回归(岭回归)

    minw12nsample∣∣Xw−y∣∣22+α∣∣w∣∣22\mathop{min}_w \frac{1}{2n_{sample}}||X_w-y||^2_2+\alpha||w||^2_2minw​2nsample​1​∣∣Xw​−y∣∣22​+α∣∣w∣∣22​

1.2 直观理解与区别

(待补充)

问题2:Batch Normalization

是对于Mini-Batch进行的,作用是将每一个Batch的输入值的分布拉回到N(0,1)的正态分布上

x^(k)=x(k)−E[x(k)]Var[x(k)]\hat{x}^{(k)} = \frac{x^{(k)}-E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}x^(k)=Var[x(k)]​x(k)−E[x(k)]​

BN的位置:一般是BN在激活函数前,在卷积之后。

缺点是:

  • 对于Batch-size过于敏感,目的就是尽量让每一个batch的分布于训练样本的整个分布近乎相同,而batch太小的话,则可能不具有统计意义了

  • 对于DNN、CNN这种深度固定的还好,但是对于RNN深度不固定的,处理起来会很麻烦(待补充原理分析)

问题3:Layer Normalization

是对于同一层的神经元进行的,将统计值归到相同的均值方差上

μl=1H∑i=1Hαilσl=1H∑i=1H(αil−μl)2\begin{align} \mu^l &= \frac{1}{H} \sum^H_{i=1}\alpha_i^l \\\\ \sigma^l &= \sqrt{\frac{1}{H}\sum^H_{i=1}(\alpha_i^l - \mu^l)^2} \end{align}μlσl​=H1​i=1∑H​αil​=H1​i=1∑H​(αil​−μl)2​​​

同时,LN用于RNN的效果比较明显,但在CNN上表现不如BN。

PS:在Transformer的FFN中加入的就是LN,而且激活函数用的是gelu。

参考资料:

https://blog.csdn.net/jinping_shi/article/details/52433975
https://blog.csdn.net/Taiyang625/article/details/89245907