본문 바로가기
Paper Review/DL

(Paper Review) LSTM

by mogazi 2023. 6. 8.

Paper Link : https://www.cs.toronto.edu/~graves/preprint.pdf

RNNs Paper Review : https://mohazi.tistory.com/entry/Paper-Review-Recurrent-Neural-Networks-RNNs

 

 

 

 

 


RNN Disadventage

 

RNN Architecture

 

RNN에서 생기는 이 문제는 새로운 입력이 hidden layer의 활성화를 덮어쓰므로 특정 시간 스텝의 입력에 대한 네트워크 내 노드의 민감도가 시간이 지남에 따라 감소할 때 발생한다. 즉, 네트워크는 이전 time step의 정보를 “잊어버리므로” 장기적인 종속성이 필요한 작업의 성능이 저하될 수 있다.


Vanishing Gradient 문제는 RNN이 시간을 통한 BPTT 를 사용하여 훈련되는 방식 때문에 발생한다. BPTT에는 각 시간 단계에서 네트워크의 매개변수에 대한 loss function 의 기울기를 계산한 다음, 이러한 gradient를 시간이 지남에 따라 역방향으로 전파하여 매개변수를 업데이트하는 작업이 포함된다. 그러나 기울기가 시간이 지남에 따라 역방향으로 전파되면서 매우 작아질 수 있다. 특히 네트워크에 계층이 많거나 네트워크에서 사용되는 활성화 함수가 특정 입력값에 대해 포화 상태가 되는 경우 (즉, 매우 평탄한 상태가 되는 경우) 더욱 심해진다.

 


기울기가 매우 작아지면 매개변수에 대한 업데이트도 매우 작아져 학습 속도가 느려지거나 방해될 수 있다.

 

 

 

 


Network Architecture

 

LSTM 아키텍처는 메모리 블록이라고 하는 상호 연결된 서브넷 집합이 있는 신경망의 한 유형이다. 

 

 

LSTM 네트워크는 표준 순환 신경망 (RNN) 과 유사하지만 hidden layer 에서 합산 단위 대신 메모리 블록을 사용합니다.이러한 메모리 블록에는 자체 연결된 메모리 셀input, output 및 forget 게이트라고 하는 세 개의 곱셈 단위가 포함되어 있습니다. 이러한 게이트를 통해 LSTM 메모리 셀은 장기간에 걸쳐 정보를 저장하고 액세스할 수 있으므로 RNN에서 발생할 수 있는 vanishing gradient 문제를 해결하는 데 도움이 된다.

 

 

 

LSTM memory block


LSTM 블록은 게이트를 사용하여 정보 흐름을 제어하고 기울기 소실 문제를 방지하는 일종의 신경망이다. 게이트는 활성화 기능을 사용하여 정보 통과를 허용할지 여부를 결정한다. 또한 LSTM 블록에는 셀에서 게이트로 연결되는 가중치 연결이 있어 셀이 게이트 활성화에 영향을 줄 수 있다.

 

 

ㄴ
LSTM Network

 

 

 

 

 

 

 


이 그림은 hidden layer의 합계 단위가 메모리 블록으로 대체되었음을 보여준다. LSTM 블록을 일반 합산 단위와 혼합할 수도 있다.

 

표준 RNN과 동일한 출력 계층을 LSTM 네트워크에 사용할 수 있다.

LSTM 네트워크의 곱셈 게이트를 사용하면 메모리 셀이 장기간에 걸쳐 정보를 저장할 수 있다.

 

예를 들어 입력 게이트가 닫힌 상태로 유지되는 경우 (즉, 활성화가 0에 가까운 경우) 네트워크에 도착하는 새 입력이 셀 활성화를 덮어쓰지 않는다 .

 

즉, 셀에 저장된 정보를 나중에 출력 게이트를 열어 네트워크에서 사용할 수 있다.



 

 

 

LSTM Architecture

LSTM 네트워크는 데이터의 장기적 종속성을 학습하고 기존 RNN에서 발생하는 경사 감소 문제를 피할 수 있기 때문에 감독된 시퀀스 레이블 지정 작업을 수행하기 위한 강력한 도구이다.

 

 

 

 

 

 


Gradient Calculation

 

 

BPTT는 순환 신경망에서 가중치를 기준으로 오차의 기울기를 계산하는 데 사용되는 기법입니다. 그러나 원래의 LSTM 훈련 알고리즘에서는 한 번의 time step 후에 BPTT 부분이 잘리도록 설정했다.이렇게 한 이유는 오랜 시간 종속성이 순환 연결 주변의 활성화 흐름보다는 LSTM의 메모리 블록에 의해 처리될 것이라고 믿었기 때문.

 

그래디언트를 잘라내면 알고리즘이 완전히 온라인 상태가 되는 이점이 있다. 즉, 매 time step 후에 가중치를 업데이트할 수 있다.이는 연속 제어 또는 시계열 예측과 같은 작업에 중요.


 


Bidirectional Long Short-Term Memory

 

시퀀스 레이블 지정 작업에 사용되는 순환 신경망의 일종인 장단기 기억 (LSTM) 아키텍처의 발전에 대해 설명합니다.원래 LSTM 아키텍처에는 입력 및 출력 게이트만 있었지만 나중에 forget gate와 핍홀 연결을 추가하여 확장된 LSTM 아키텍처를 만들었다.

forget gate를 사용하면 LSTM의 메모리 셀이 스스로 리셋될 수 있는데, 이는 네트워크가 이전 입력을 잊어버려야 하는 작업에 중요하다. 엿보기 연결은 내부 상태의 정확한 타이밍과 카운팅이 필요한 작업을 학습하는 LSTM의 능력을 향상시킵니다. 그러나 LSTM의 표준 확장 형식은 서열 라벨링에 적합한 범용 구조인 것으로 보이며 책에서만 사용된다.

 

 

'Paper Review > DL' 카테고리의 다른 글

(Paper Review) CNN  (0) 2023.06.14
(Paper Review) GRU  (0) 2023.06.08
(Paper Review) BRNN  (0) 2023.06.07
(Paper Review) Recurrent Neural Networks (RNNs)  (0) 2023.06.07
(Paper Review) Multi-Layer Perceptron (MLP)  (0) 2023.06.07