基本的RNN模型

RNN模型的隐藏层是循环连接的，它的上一次输出会被重新输入

其中 $z$ 是隐藏层， $x$ 是输入， $y$ 是输出；隐藏层的输出是与时间相关的，可以记为

z_t=g_z(W_{z,z}z_{t-1}+W_{x,z}x_t)

输出层倒是只与隐藏层输出有关

y_t=g_y(W_{z,y}z_t)

基于时间的反向传播

给定一系列的输入向量及其对应的输出

x_1,\cdots, x_T,y_1\cdots,y_T

可以将网络进行 $T$ 步展开，转换为前馈网络

其中的权重是同步更新的，称为基于时间的反向传播（BPTT）

堆叠循环神经网络（SRNN）

堆叠循环神经网络具有多个隐藏层，它们的输出都是与时间相关的。同样可以将它展开

长短期记忆（LSTM）

LSTM是一种特殊的RNN，它分为三个步骤：遗忘，记忆，输出，它分为四层，结构如下

其中 $h$ 是隐藏层的输出， $x$ 是输入

首先由遗忘门 $f$ 决定要舍弃哪些信息，它接收上一次隐藏层的输出 $h_{t-1}$ 与本次的输入 $x_t$ ，经由 $Sigmoid$ 输出 $0-1$ 之间的指数。输出 $1$ 表示保留全部记忆，输出 $0$ 表示忘记全部记忆

输出可以抽象地写为

f_t=\sigma(W_f[h_{t-1},x_t]+b_f)

然后由输入门 $i$ 决定要保存的新信息，它接收上一次的隐藏层输出 $h_{t-1}$ 和输入 $x_t$ ，经由 $Sigmoid$ 输出 $0-1$ 之间的指数； $tanh$ 层接收 $h_{t-1}$ 与 $x_t$ ，输出一个新信息向量 $\tilde{C_t}$ ，它被上面输入门的指数作用后向下一层传递。当 $i_t$ 等于 $1$ 时表示完整传递， $i_t$ 为 $0$ 时表示不记忆新信息

可以抽象地将它们的输出表示为

i_t=\sigma(W_i[h_{t-1},x_t]+b_i)

\tilde{C_t}=\tanh(W_c[h_{t-1},x_t]+b_c)

然后根据遗忘门和输入门更新记忆单元

C_t=f_t\cdot C_{t-1}+i_t\cdot C_t

最后由输出门 $o$ 决定记忆单元的输出。它接收 $h_{t-1},x$ ，经由SIgmoid输出一个 $0-1$ 之间的指数，与记忆单元的值作用后输出

o_t=\sigma(W_o[h_{t-1},x_t]+b_o)

h_t=o_t\cdot\tanh(C_t)

目录

基本的RNN模型

基于时间的反向传播

堆叠循环神经网络（SRNN）

长短期记忆（LSTM）