본문 바로가기
Paper Review/DL

(Paper Review) BRNN

by mogazi 2023. 6. 7.

Paper Link : https://www.cs.toronto.edu/~graves/preprint.pdf

RNNs Paper Review : https://mohazi.tistory.com/entry/Paper-Review-Recurrent-Neural-Networks-RNNs

 

 


Limitations of RNNs (Bidirectional Neural Networks) 

 

첫 번째 해결책은 네트워크 입력에 미래 컨텍스트의 시간 창을 추가하는 것입니다. 그러나 이 접근 방식은 시간 창 방법과 동일한 문제가 생긴다. (context 정보 손실, 가변적인 패턴 처리의 어려움, 예측 시점의 제약 등)

 

두 번째 해결책은 입력과 대상 사이에 지연을 도입하여 네트워크가 향후 context를 몇 단계 발전시킬 수 있도록 하는 것이다. 그러나 이 방법은 여전히 미래 컨텍스트의 범위를 직접 결정해야 하며 지연이 진행되는 동안 원래 입력과 이전 context를 기억하도록 강요하여 네트워크에 불필요한 부담을 준다. 

양방향 순환 신경망 (BRNN) 은 이 문제에 대한 보다 정교한 솔루션을 제공한다. BRNN의 기본 개념은 각 훈련 시퀀스를 동일한 출력 계층에 연결된 두 개의 개별 순환 은닉 계층에 앞뒤로 제시하는 것이다.

 

이 구조는 관련 대상의 입력을 대체하지 않고도 입력 시퀀스의 모든 지점에 대한 완전한 과거 및 미래 컨텍스트를 출력 레이어에 제공합니다.BRNN은 이전에 단백질 2차 구조 예측 및 음성 처리와 같은 다양한 영역에서 개선된 결과를 제공했으며 서열 라벨링에서 단방향 RNN보다 지속적으로 성능이 뛰어납니다. 

 

 

 

 

 


Bidirectional Neural Networks

 


BRNN의 hidden layer에 대한 forward pass는 단방향 RNN의 forward pass와 비슷하지만 한 가지 중요한 차이점이 있다. BRNN에서는 입력 시퀀스가 두 개의 숨겨진 레이어와 반대 방향으로 표시된다. 즉, 네트워크는 입력 시퀀스를 정방향 및 역방향으로 모두 처리한다. 

BRNN의 출력 계층은 두 은닉 계층이 전체 입력 시퀀스를 처리할 때까지 업데이트되지 않는다. 순방향 및 역방향 hidden layer 모두에 대해 각 time step 의 활성화 값을 저장하여 수행된다.두 hidden layer가 전체 입력 시퀀스를 처리하면 저장된 활성화를 사용하여 출력 레이어에 대한 forward pass를 수행한다. 

forward hidden layer에 대한 순방향 패스는 입력 시퀀스의 각 time step에 대해 수행된다. 그런 다음 입력 시퀀스의 각 time step에 대해 backward hidden layer에 대한 forward pass가 역순으로 수행된다.마지막으로 두 hidden layer의 저장된 활성화를 사용하여 output layer를 업데이트한다. 

 

 

BRNN에는 두 개의 히든 레이어가 있는데, 하나는 순방향 시퀀스용이고 다른 하나는 역방향 시퀀스용입니다.BRNN의 backward pass는 BPTT로 훈련된 표준 RNN의 backward pass와 유사하다. 단, 출력 계층 델타 (δ) 항이 먼저 계산된 다음 두 은닉 계층에 반대 방향으로 피드백된다는 점이 다릅니다.

모든 time step 에서 6개의 서로 다른 가중치 세트가 재사용되는 펼쳐진 양방향 네트워크를 보여준다.이는 두 hidden layer의 입력-숨김, 숨김-숨김 및 숨김-출력 연결에 해당한다. 중요한 점은  forward hidden layer와  backward hidden layer 사이에 정보가 흐르지 않기 때문에 펼쳐진 그래프가 비순환적이라는 것이다.

 


BPTT로 훈련된 BRNN의 역방향 패스 단계를 간략하게 설명한다. 먼저 출력 계층에 대해 backward pass를 수행하여 각 time step의 델타 항을 저장합니다.그런 다음 출력 계층으로부터 저장된 델타 항을 사용하여 순방향 은닉 계층에 대해 BPTT 역방향 패스가 수행됩니다.마지막으로 BPTT 백워드 패스는 출력 레이어에서 저장된 델타 항을 사용하여 backward hidden layer 에 대해 수행된다.

'Paper Review > DL' 카테고리의 다른 글

(Paper Review) CNN  (0) 2023.06.14
(Paper Review) GRU  (0) 2023.06.08
(Paper Review) LSTM  (0) 2023.06.08
(Paper Review) Recurrent Neural Networks (RNNs)  (0) 2023.06.07
(Paper Review) Multi-Layer Perceptron (MLP)  (0) 2023.06.07