Paper pdf : https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9351818
기본 단일 에이전트 강화학습 패러다임에 도입된 주요한 확장 사항을 소개하고 논의합니다. RL 알고리즘의 적용 범위를 확대하는데 더불어, 여기에서 논의되는 많은 확장 사항들은 복잡한 문제 영역에서 확장성, 학습 속도, 또는 수렴 성능을 향상시키는 것으로 입증되었다.
A. Reward Shaping
보상 함수의 설계는 중요하다.
강화 학습 에이전트는 보상 함수로부터의 보상을 최대화하려고 하기 때문에 도메인에 대한 최적 정책은 보상 함수와 관련되어 정의됩니다. 실제 응용 분야에서는 희박하거나 지연된 보상으로 인해 학습이 어려울 수 있습니다. 강화 학습 에이전트는 일반적으로 보상 신호에 의해 안내되어 환경에서 어떻게 행동해야 하는지를 학습합니다.
보상 형성(reward shaping)은 학습 속도와 수렴 성능을 향상시키기 위해 환경으로부터 자연적으로 받는 보상에 추가적인 형태의 보상을 더하는 것을 말합니다. 이 원리는 원하는 동작으로 이끄는 모든 동작에 보상을 제공하는 아이디어를 실험적 심리학의 영역에서 비롯된 것이다.
보상 형성은 보상 함수를 설계하여 적절한 동작에 대한 보다 빈번한 피드백 신호를 제공하는 방식으로 수행됩니다. 이는 희소한 보상이 있는 도메인에서 특히 유용합니다. 일반적으로 보상 함수로부터의 반환은 다음과 같이 수정됩니다: r = r + f 여기서 r은 원래 보상 함수 R에서의 반환, f는 형성 함수 F에서의 추가적인 보상, r은 보강된 보상 함수 R에 의해 에이전트에게 주어지는 신호입니다.
B. Multi-Agent Reinforcement Learning (MARL)
다중 에이전트 강화 학습(MARL)에서는 여러 개의 강화 학습 에이전트가 동일한 환경에 배치됩니다. 단일 에이전트 MDP(Markov Decision Process) 프레임워크는 여러 개의 자율 에이전트가 동시에 동작하는 경우에는 부적절하다. 대신, 다중 에이전트 시스템(Multi-Agent System, MAS)의 경우 일반적인 확률 게임 SG(Stochastic Game)를 사용할 수 있다.
SG는 <S, A1...N, T, R1...N>의 튜플로 정의되며, 여기서 N은 에이전트 수, S는 시스템 상태의 집합, Ai는 에이전트 i의 행동 집합(그리고 A는 공동 행동 집합)입니다. T는 전이 함수이고, Ri는 에이전트 i의 보상 함수이다. SG는 다중 에이전트가 추가된 MDP 프레임워크와 매우 유사하다.
사실, N = 1인 경우 SG는 MDP가 된다. 다음 시스템 상태와 각 에이전트가 받는 보상은 SG의 모든 에이전트의 공동 행동 a에 따라 결정됩니다. 여기서 a는 시스템 내의 각 에이전트에 대한 개별적인 행동 ai의 조합에서 유도됩니다. 각 에이전트는 시스템 상태 s와 다른 개별적인 로컬 상태 인지(si)를 가질 수 있으며, 즉 개별 에이전트들은 시스템의 전체 관찰 가능성을 갖고 있다고 가정하지 않습니다.
또한, 각 에이전트는 동일한 시스템 상태 전이에 대해 서로 다른 보상을 받을 수 있으며, 각 에이전트는 자체적인 보상 함수 Ri를 갖습니다. SG에서 에이전트들은 모두 동일한 목표(협력적인 SG), 완전히 상반된 목표(경쟁적인 SG), 또는 에이전트들 간의 협력과 경쟁 요소가 혼합된 상태(mixed SG)를 가질 수 있다. MAS에서 RL 에이전트들이 함께 행동할지, 서로 다른 목표를 가질지는 특정 응용 프로그램에서 사용되는 보상 체계에 따라 달라진다.
C. Multi-Objective Reinforcement Learning (MORL)
다중 목적 강화 학습(MORL)에서는 보상 신호가 벡터로 표현되며, 각 성분은 서로 다른 목적에 대한 성능을 나타낸다. MORL 프레임워크는 상반된 목적 함수 간의 trade-off 를 고려해야 하는 sequential decision making problems을 처리하기 위해 개발되었습니다.
MORL 문제의 해결책은 일반적으로 파레토 우월성(Pareto dominance) 개념을 사용하여 평가되며, MORL 알고리즘은 일반적으로 비우월하지 않은(non-dominated) 솔루션 집합을 학습하거나 근사화하려고 합니다. MORL 문제는 단일 목적 문제와 유사한 방식으로 MDP 또는 SG 프레임워크를 사용하여 정의할 수 있습니다. 주요한 차이점은 보상 함수의 정의에 있습니다. 다중 목적 도메인에서 보상 함수 R은 단일 스칼라 값 r을 반환하는 대신 각 개별 목적 c ∈ C에 대한 보상으로 이루어진 벡터 r을 반환합니다. 따라서 일반적인 MDP 또는 SG를 Multi-Objective MDP (MOMDP) 또는 Multi-Objective SG (MOSG)로 확장할 수 있습니다.
* 파레토 우월성 : 어떤 시스템 또는 상황에서 한 개체의 이익을 증가시키는 동시에 다른 개체의 이익을 감소시키지 않는 최적 상태를 의미한다. 이는 개선의 가능성이 없거나 상호 간에 서로 다른 이익을 더 이상 극대화할 수 없는 상태를 의미.
D. State Representation Learning (SRL)
상태 표현 학습(State Representation Learning, SRL)은 에이전트의 행동과 환경에 의해 조건이 된 상태 공간의 특징 추출 및 차원 축소를 의미한다.
가장 간단한 형태의 SRL은 고차원 벡터 ot를 작은 차원의 잠재 공간 st로 매핑합니다. 역 연산은 상태를 원래의 관측치 추정인 oˆt로 복원한다. 그런 다음 에이전트는 잠재 공간에서 행동으로의 매핑을 학습한다. SRL 체인의 훈련은 라벨이 필요하지 않는 unsupervised learning 으로 이루어진다. 입력 차원을 줄이는 것은 효과적으로 작업을 단순화시키므로 노이즈를 제거하고 도메인의 크기를 줄인다.
SRL은 간단한 오토인코더(Autoencoder)일 수도 있으며, 변이형 오토인코더(Variational Autoencoder, VAE) 또는 생성적 적대 신경망(Generative Adversarial Networks, GAN)과 같은 관찰 복원을 위한 다양한 방법, 그리고 다음 상태를 예측하기 위한 전방 모델 또는 주어진 전이로부터 행동을 예측하기 위한 역 모델과 같은 전방 모델도 있다. 좋은 학습된 상태 표현은 Markovian이어야 한다. 즉, 현재 상태만을 기반으로 행동을 선택하기 위해 필요한 모든 정보를 인코딩해야 하며, 이전 상태나 행동에 의존하지 않아야 합니다.
E. Learning from Demonstrations
시연으로부터의 학습(Learning from Demonstrations, LfD)은 인간이 전문가로부터 새로운 기술을 습득하는 과정에서 사용한다. LfD는 초기 탐색에 중요한 역할을 한다. 보상 신호가 너무 희박하거나 입력 도메인이 커서 커버하기 어려운 경우에 사용됩니다.
LfD에서 에이전트는 보상 피드백이 없이 전문가로부터 제공된 state-action 쌍 형태의 시연을 통해 작업을 수행하는 방법을 학습합니다. 그러나 고품질이고 다양한 시연을 수집하는 것은 어렵기 때문에 학습이 최적 정책을 학습하지 못하고 부적절한 정책을 학습할 수 있습니다. 따라서 시연만으로 학습하는 것은 좋거나 안전한 정책으로 학습 에이전트를 초기화하는 데 사용되며, 그런 다음 환경과 상호작용하며 더 나은 정책을 발견하기 위해 강화 학습을 진행할 수 있다.
'Paper Review > RL' 카테고리의 다른 글
(Paper Review) DQN (1) | 2023.06.09 |
---|---|
(Paper Review) Deep Reinforcement Learning for Autonomous Driving (0) | 2023.05.30 |
(Paper Review) PPO (1) | 2023.05.24 |
(Paper Review) TRPO (3) (0) | 2023.05.23 |
(Paper Review) TRPO (2) (0) | 2023.05.23 |