RNN

Brief Introduction of RNN

RNN,即Recurrent Neural Network,是具有记忆的神经网络.

可以理解为是先输入的数据对后来的有影响，这就是RNN具有记忆的体现。

简单的演示如下：

同一个神经网络被多次利用(大量的输入数据)，但是由于其具有记忆力，所以即使先后使用同一组输入数据也可能导致结果不相同。

RNN也可以有很多层。

RNN有很多种，一般RNN中使用的多为Elman network，另外还有Jordan network等.

Elman network其实就是简单循环网络（simple recurrent networks，简称SRN），是由Jeff Elman在1990年提出来的。Elman在Jordan network（1986）的基础上进行了创新，并且简化了它的结构，最终提出了Elman network。

Elman network的一个recurrent层的输出经过时延后作为下一时刻这一层的输入的一部分，然后recurrent层的输出同时送到网络后续的层，比如最终的输入层。
Jordan network则直接把整个网络最终的输出经过时延后反馈回网络的输入层。

此外还有Bidirectional RNN，即双向循环网络，它不仅仅拥有基本循环网络的

forward components,增加了反向的backward components。

LSTM,即Long Short-term Memory,是Elman network的一种,常用的RNN。

每一个下述结构就是一个神经元，它拥有四个输入部分，如图所示。

它的运行方式如下图所示。

LSTM的简单实例如下，它的输出结果由多个输入共同影响。

实例中输入数据为三维,分别用x1,x2,x3表示。

当x2=1时，就让神经元记住x1的值，放在记忆单元中。

当x2=-1时，就重置这个记住的值。

但只有当x3=1时，才会输出这个记住的值。

各输入数据的weight是假设的，实际应用中通过训练获得。

相较于之前的神经网络来说，像LSTM这种RNN就要训练四倍的参数。

基本的LSTM运行结构如下第一张图，但是实际应用中，它可能会更复杂，前一组数据不同阶段的输出可能会参与到下一组数据的计算中，如下第二张图。

我们一般使用BPTT这种方法去训练一个RNN的参数。

BPTT（back-propagation through time）算法是常用的训练RNN的方法，其实本质还是BP算法，只不过RNN处理时间序列数据，所以要基于时间反向传播，故叫随时间反向传播。BPTT的中心思想和BP算法相同，沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛。

但是用梯度下降算法来求参一般都不是很容易。

RNN的error surface要么很平坦，要么很陡峭。

在计算时就会出现gradient vanishing和gradient explosion这两个问题。

出现gradient explosion的原因是在普通的RNN中每个时刻neuron的output都会被放到memory中去，所以在每个时刻memory中的值都会被洗掉，导致参数很难改变，很难被训练。
出现gradient explosion的原因是参数在训练时对应的Loss值波动太大，因为RNN是一种有记忆的NN,它会参考之前所有的输入数据来处理当前数据，一个微小的参数变化可能就会引发Loss值的剧变，类似于蝴蝶效应。