mogazi 2022. 9. 25. 23:46

  강화 학습 (Reinforcement Learning) 

 

 

결괏값을 주는 대신에 어떤 일을 잘했을 때 보상(Reward)을 주는 방식으로 학습한다. 

 

 

일련의 허용 가능한 행동, 규칙, 잠재적 최종 상태가 입력되고, 주변의 환경을 관찰해서 행동을 실행하고 그 결과로 보상을 받는데,  시간이 지나면서 가장 큰 보상을 얻기 위해 최상의 전략을 스스로 학습한다. 

 

 

당장의 보상값은 적더라도 총 보상값이 최대가 되도록 행동을 선택해야 한다. 

 

 

 

대표적인 예시로는 딥마인드의 알파고(AlphaGo)가 있다. 

수백만 개의 게임을 분석해서 승리에 대한 전략을 학습했고, 실전에서는 그동안 학습한 전략을 적용한 것이다.