深度神经网络在语音识别,图像处理和自然语言处理等众多方向上体现了优越的效果。LSTM作为RNN的一种变体,于1997被提出,相比较于RNN,可以学习到数据中长期依赖关系。同一年提出了双向RNN,可以通过前向和后向两个方向来训练网络。直到2005年,Graves提出了将LSTM与BRNN结合到一起,成为BLSTM。相比较于BRNN,BLSTM可以更好的处理梯度消失和爆炸的问题,因此可以获得上下文相关的长时信息。然而,这时的BLSTM是一个浅层的网络,Graves于2013年提出了深层的BLSTM(DBLSTM),可以更好的对特征进行提取和表示,效果相比较于BLSTM也更加优越。随后的几年,学者们将DBLSTM应用到语音,图像等领域,获得了优越的效果。
主要事件
年份 | 事件 | 相关论文/Reference |
1997 | 提出了BRNN,在序列学习问题上显示出了优势 | Schuster M, Paliwal K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681. |
1997 | LSTM单元的提出 | Hochreiter, S, and J Schmidhuber. “Long Short-Term Memory.” Neural Computation 9, no. 8 (November 1997): 1735–80. doi:10.1162/neco.1997.9.8.1735 |
2005 | 将LSTM与BRNN结合到了一起,获得了BLSTM。这种方法可以在输入的方向获得长时的上下文信息。 | Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610. |
2013 | 基于BLSTM提出了包含更多隐藏层的Deep BLSTM,相比较于浅层的BLSTM,它的效果更优越 | Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Acoustics, speech and signal processing (icassp), 2013 ieee international conference on. IEEE, 2013: 6645-6649. |
2013-2015 | 深层的BLSTM应用到语音,图像等领域,获得了优越的效果 | Fan Y, Qian Y, Xie F L, et al. TTS synthesis with bidirectional LSTM based recurrent neural networks[C]//Fifteenth Annual Conference of the International Speech Communication Association. 2014.; Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991, 2015.; Graves A, Jaitly N, Mohamed A. Hybrid speech recognition with deep bidirectional LSTM[C]//Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, 2013: 273-278. |
发展分析
瓶颈
来深度学习取得的许多进展都源于模型容量的增加和计算力的相应提升。显然,计算力已经成为深度学习研究的一大主要瓶颈。
不同于CNN,LSTM等时序相关的网络很难并行化处理,因而很难使用GPU进行加速。此外,RNN 和 LSTM 与其循环识别和嵌入式记忆结点的使用将越来越少,与基于 CNN 的解决方案相比,不再具有竞争力,因为并行架构的性能是胜过顺序架构的。
未来发展方向
BLSTM的发展方向众多
- LSTM及其变体BLSTM等输入和输出门将可能会被辅助可微记忆取代;
- 更复杂的神经网络,比如各种神经网络的组合(BLSTM+CNN);
Contributor: Yilin Pan