ML | RNN Recurrent Neural Network

循環神經網路（recurrent neural network，RNN)

RNN是一種特殊的神經網路結構，它透過在時間上的展開來處理序列資料中的依賴關係。在每個時間步（time step），RNN都會接收一個輸入（例如句子中的一個單字），並輸出一個結果（例如下一個單字的預測）。與傳統的前饋神經網路（Feedforward Neural Network, FNN）不同，RNN在每個時間步都會保留一個隱藏狀態（hidden state），這個隱藏狀態包含了之前所有時間步的信息，並用於計算當前時間步的輸出和下一個時間步的隱藏狀態。

RNN的工作原理

RNN的核心在於其隱藏狀態和循環結構。每當新的輸入進來時，RNN不僅考慮當前的輸入，還會利用之前的隱藏狀態來更新當前的隱藏狀態。這樣的設計使得RNN能夠捕捉序列數據中的上下文和依賴關係。

隱藏狀態

隱藏狀態是RNN的一個重要組成部分，它保存了過去信息的摘要。在每個時間步，RNN會根據當前輸入和之前的隱藏狀態來計算新的隱藏狀態：

\[ h_t = f(W_h h_{t-1} + W_x x_t) \]

其中，\(h_t\) 是當前隱藏狀態，\(W_h\) 和 \(W_x\) 是權重矩陣，\(x_t\) 是當前輸入。

RNN的應用

RNN在多個領域中有著廣泛的應用：

自然語言處理（NLP）：RNN在語言模型、機器翻譯和情感分析等任務中表現出色。它們能夠捕捉單詞之間的上下文關係，提高預測準確性。
時間序列分析：RNN非常適合於基於歷史數據預測未來值，如股票市場預測和天氣預報。
語音和音頻處理：在語音識別中，RNN能夠處理連續的音頻數據，將語音轉換為文本，提高了轉錄準確性。
圖像和視頻分析：結合卷積神經網路（CNN），RNN可以用於視頻分析、物體追蹤和行為識別等任務。

優點

處理序列資料的能力：RNN能夠捕捉序列中的依賴關係，適合處理時間序列和語言等資料。

參數共享：RNN在每個時間步驟使用相同的參數，這使得模型參數數量相對較少，避免了過度擬合問題。

線上學習：RNN可以處理一個時間步接一個時間步的數據，適合即時數據處理。

RNN的挑戰與改進

儘管RNN在處理序列數據方面具有優勢，但它們也面臨一些挑戰，如梯度消失和梯度爆炸問題。這些問題會影響模型學習長期依賴關係的能力。

梯度消失：在RNN中，由於參數共享和多次連乘的特性，在反向傳播過程中，梯度值可能會隨著時間步的增加而指數級衰減，最終趨近於0。這導致RNN難以學習到長期依賴關係，因為較早時間步的輸入在反向傳播時其梯度幾乎為0，無法對這些輸入進行有效的權重更新。

由於梯度消失的問題，RNN在處理長序列時難以有效地捕捉長期依賴關係。這意味著如果輸入序列中的某個元素與輸出之間存在長時間的間隔，RNN可能無法有效地學習到這兩者之間的關係，從而限制了其在處理長序列資料時的表現。

梯度爆炸：與梯度消失相反，梯度爆炸是指在反向傳播過程中，梯度值可能會隨著時間步的增加而快速增長到非常大，導致模型訓練不穩定甚至無法收斂。

平行處理能力較差：RNN的計算是順序進行的，即每個時間步的輸出都依賴前一個時間步的計算結果。這種順序計算的方式限制了RNN的平行處理能力，使得在大規模資料集和複雜模型的情況下，RNN的訓練和推理速度相對較慢。

改進架構

為了解決這些問題，研究者提出了改進版本的RNN，如長短期記憶網絡（LSTM）和門控循環單元（GRU）。這些架構引入了門控機制，使得模型能夠選擇性地保留或遺忘信息，從而更有效地捕捉長期依賴性.

總結來說，循環神經網路是一種強大的工具，能夠有效處理序列數據並捕捉時間上的依賴關係，其應用範圍涵蓋自然語言處理、時間序列預測、語音識別等多個領域。

Literature review

Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." nature 323.6088 (1986): 533-536.