강화학습

공부자료/Deep Learning

mogazi 2022. 9. 25. 23:46

● 강화 학습 (Reinforcement Learning)

결괏값을 주는 대신에 어떤 일을 잘했을 때 보상(Reward)을 주는 방식으로 학습한다.

일련의 허용 가능한 행동, 규칙, 잠재적 최종 상태가 입력되고, 주변의 환경을 관찰해서 행동을 실행하고 그 결과로 보상을 받는데, 시간이 지나면서 가장 큰 보상을 얻기 위해 최상의 전략을 스스로 학습한다.

당장의 보상값은 적더라도 총 보상값이 최대가 되도록 행동을 선택해야 한다.

대표적인 예시로는 딥마인드의 알파고(AlphaGo)가 있다.

수백만 개의 게임을 분석해서 승리에 대한 전략을 학습했고, 실전에서는 그동안 학습한 전략을 적용한 것이다.