LSTM

PS：不看不知道，原来RNNs和LSTM都是上个世纪诞生的产物，惊人啊！

问题1：传统RNNs的问题？

传统RNNs模型一定程度上可以建立时间序列上的数据关系；但是，其面对较长的依赖关系，就很难处理了，因为会有梯度消失问题呀！

Hochreiter (1991) [German] 和 Bengio, et al. (1994) 曾经对这个问题进行过深入的研究，发现 RNNs 的确很难解决这个问题。
我嘞个亲娘啊，30年前~~惊叹了。

LSTM由Hochreiter & Schmidhuber (1997)提出，许多研究者进行了一系列的工作对其改进并使之发扬光大。

LSTM的关键是元胞状态(Cell State)，下图中横穿整个元胞顶部的水平线。

Cell State有点像是传送带，它直接穿过整个链，同时只有一些较小的线性交互。上面承载的信息可以很容易地流过而不改变。

然后，在整个Cell的内部，通过门的结构来控制Cell对Cell State的信息添加或删除：

Forget Gate（遗忘门）
$f_t = \sigma(W_f\cdot[h_{t-1};x_t]+b_f)$
理解：选择性的对上一状态的信息进行遗忘。
例如：元胞状态可能包含当前主语的性别信息，以用来选择正确的物主代词。当我们遇到一个新的主语时，我们就需要把旧的性别信息遗忘掉。
Input Gate（传入门）
$\begin{align} i_t &= \sigma(W_i\cdot[h_{t-1},x_t]+b_i)\\ \\ \tilde{C_t} &= tanh(W_C\cdot[h_{t-1},x_t]+b_C) \end{align}$
理解：决定让多少新的信息加入到Cell状态中来。实现这个需要包括两个步骤：首先，Input Gate决定哪些信息需要更新；然后tanh生成一个向量，也就是备选的用来更新的内容。
Update Cell State
$C_t=f_t*C_{t-1}+i_t*\tilde{C_t}$
理解：就是融上一步的部分记忆，并更新这一步的新信息进来
Output Gate（输出门）
$\begin{align} o_t &= \sigma(W_o[h_{t-1},x_t]+b_o)\\ \\ h_t &= o_t*tanh(C_t) \end{align}$
理解：根据当前的输入xt和前step的输出ht-1，来计算得到当前要输出多少内容（可理解为权重）；然后，将得到的权重作用于激活后的当前Cell State，得到当前Cell的输出。