PPO Rigged Doll Boxing Lab
관절 위치를 관찰해 관절별 이동값을 출력하는 두 PPO 에이전트의 self-play 권투 학습
Step (수렴 시 정지)
0/5000
Policy Update
0
Network
MLP 22-20-16-20
Mean Reward
0.00
Win Rate
50%
Blue Skill
36%
Orange Skill
34%
Rigged Doll Boxing Arena
신경망이 상대·자기 관절 위치를 입력으로 받아 관절별 이동값을 출력하고, 그 값이 포즈를 만듭니다.
Reward 0.00
Policy Loss 0.00
PPO Rollout Buffer
0/32Network
MLP 22-20-16-20
Hit reward
0.00
Block reward
0.00
Advantage
0.10
Clip ratio
2%
Entropy
1.25
Value loss
0.60
Approx KL
0.0000
Explained Var
0%
학습 로그
Episode 0
초기 정책 로드