본문 바로가기
Paper Review/DL

(Paper Review) GRU

by mogazi 2023. 6. 8.

Paper Link : https://arxiv.org/pdf/1412.3555.pdf

RNNs Paper Review : https://mohazi.tistory.com/entry/Paper-Review-Recurrent-Neural-Networks-RNNs

LSTM Paper Review : https://mohazi.tistory.com/entry/Paper-Review-Long-Short-Term-Memory-LSTM

 

 

 


Introduction

 

RNN의 성공은 기계 번역을 비롯한 다양한 응용 분야에서 입증되었다.그러나  기본 RNN을 사용한 것이 아니라 보다 정교한 hidden unit을 반복  사용하여 달성되었다는 점을 알 수 있다.

RNN의 다양한 유형의 순환 단위, 특히 게이팅 메커니즘을 구현하는 단위를 비교하는 데 중점을 둡니다.이러한 단위의 두 가지 예로는 장단기 기억 (LSTM) 단위와 게이트 순환 단위 (GRU) 가 있다.

 

 

 


Recurrent Neural Network

 

RNN은 이전 time step 의 정보를 기억하고 이를 사용하여 현재 출력에 정보를 제공할 수 있다.

이 논문에서는 게이팅 메커니즘을 사용하는 고급 장치에 초점을 맞추어 RNN의 다양한 유형의 순환 단위를 비교한다. 이러한 두 단위는 LSTM과  GRU 이다. 논문에서 수행된 실험은 이러한 고급 순환 단위가 tanh 단위와 같은 기존 단위보다 낫다는 것을 보여줍니다. 또한 이 논문에서는 GRU 장치가 성능 측면에서 LSTM 장치와 비슷하다는 것을 발견했다.

 

 


Gated Recurrent Neural Networks

 

 

GRU Architecture

 

GRU의 목적은 순환 신경망 (RNN) 에서 다양한 시간 척도의 종속성을 적응적으로 캡처하는 것이다. LSTM 장치와 마찬가지로 GRU에는 장치 내부의 정보 흐름을 조절하는 게이팅 장치가 있다.그러나 LSTM 장치와 달리 GRU에는 별도의 메모리 셀이 없다. 

시간 t에서의 GRU의 활성화 hjt는 이전 활성화 hjt-1과 후보 활성화 hjt 사이의 선형 보간을 사용하여 계산된다.

보간은 이전 활성화 및 후보 활성화를 얼마나 사용해야 하는지를 결정하는 게이팅 유닛 zjt에 의해 제어된다.


간단히 말해서 update gate는 RNN의 유닛이 활성화 또는 콘텐츠를 얼마나 업데이트해야 하는지를 결정하는 메커니즘이다.업데이트 게이트 계산 공식에는 입력, 이전 은닉 상태 및 가중치 행렬이 포함된다.GRU에는 LSTM 장치와 달리 상태 노출 정도를 제어하는 메커니즘이 없다. 기존 상태와 새로 계산된 상태 사이의 선형 합계를 구하는 절차는 LSTM 단위와 유사함.

 

reset gate 는 GRU가 각 타임 스텝의 입력에 따라 내부 상태를 선택적으로 잊거나 재설정할 수 있도록 하는 메커니즘이다. 리셋 게이트의 계산은 GRU의 업데이트 게이트 계산과 유사하다. update gate는 이전 상태를 얼마나 유지해야 하는지와 새 입력 중 현재 상태에 통합해야 하는 양을 결정한다. 반면 reset gate는 이전 상태를 얼마나 잊어버리거나 리셋해야 하는지를 결정합니다.

 


Discussion

 

이 논문은 다성 음악 모델링 및 음성 신호 모델링 작업을 통해 이러한 반복 단위를 평가한 결과 이러한 고급 반복 단위가 tanh 장치와 같은 기존 반복 단위보다 우수하다는 것을 발견했다. 또한 이 논문에서는 GRU가 LSTM과 유사하다는 것을 발견했다.

LSTM과 GRU 장치 간에 공유되는 가장 두드러진 기능은 t에서 t + 1으로의 업데이트의 추가 구성 요소인데, 이는 기존 반복 장치에서는 부족하다.기존의 순환 단위는 항상 장치의 활성화 또는 내용을 현재 입력 및 이전의 은닉 상태에서 계산된 새 값으로 대체합니다.반면 LSTM 장치와 GRU 모두 기존 콘텐츠를 유지하고 그 위에 새 콘텐츠를 추가했다.

간단히 말해서, LSTM 및 GRU 장치는 기존 정보를 완전히 대체하는 대신 기존 정보에 새 정보를 추가하기 때문에 기존 순환 장치보다 낫다고 한다 .이렇게 하면 시간이 지나도 중요한 정보를 더 잘 보존할 수 있다.

 

 


GRU의 장점

 

1. 긴 일련의 단계 동안 입력 스트림의 특정 기능을 기억할 수 있는 “부가 기능”을 가지고 있다. 즉, LSTM 장치의 forget 게이트 또는 GRU의 update 게이트에서 결정된 중요한 기능은 덮어쓰지 않고 그대로 유지된다. 이는 특정 기능을 장기간 기억해야 하는 작업에 유용합니다.

 


2. 이러한 GRU를 추가하면 여러 임시 단계를 우회하는 “단축키 경로”가 생성된다. 즉, 여러 개의 제한된 비선형을 통과하여 오류가 너무 빨리 사라지지 않고 쉽게 역전파될 수 있다.

 

이렇게 하면 RNN에서 흔히 발생하는 문제인 vanishing gradient으로 인한 난이도가 줄어든다. vanishing gradient 문제는 시간이 지남에 따라 역전파되어 기울기가 너무 작아져 네트워크가 장기적인 종속성을 학습하기 어려울 때 발생한다.GRU에 있는 skip connection는 이 문제를 완화하는 데 도움이 된다.

 


 

데이터 양이 적을 때는 매개 변수의 양이 적은 GRU가 조금 더 낫고, 데이터 양이 더 많으면 LSTM이 더 낫다고 한다.

'Paper Review > DL' 카테고리의 다른 글

(Paper Review) CNN  (0) 2023.06.14
(Paper Review) LSTM  (0) 2023.06.08
(Paper Review) BRNN  (0) 2023.06.07
(Paper Review) Recurrent Neural Networks (RNNs)  (0) 2023.06.07
(Paper Review) Multi-Layer Perceptron (MLP)  (0) 2023.06.07