PPO Rigged Doll Boxing Lab

관절 위치를 관찰해 관절별 이동값을 출력하는 두 PPO 에이전트의 self-play 권투 학습

Step (수렴 시 정지)

0/5000

Policy Update

Network

MLP 22-20-16-20

Mean Reward

0.00

Win Rate

50%

Blue Skill

36%

Orange Skill

34%

Rigged Doll Boxing Arena

신경망이 상대·자기 관절 위치를 입력으로 받아 관절별 이동값을 출력하고, 그 값이 포즈를 만듭니다.

Reward 0.00

Policy Loss 0.00

PPO Rollout Buffer

0/32

Network

MLP 22-20-16-20

Hit reward

0.00

Block reward

0.00

Advantage

0.10

Clip ratio

Entropy

1.25

Value loss

0.60

Approx KL

0.0000

Explained Var

학습 로그

Episode 0

초기 정책 로드

0.00

PPO Rigged Doll Boxing Lab

관절 위치를 관찰해 관절별 이동값을 출력하는 두 PPO 에이전트의 self-play 권투 학습

Step (수렴 시 정지)

0/5000

Policy Update

Network

MLP 22-20-16-20

Mean Reward

0.00

Win Rate

50%

Blue Skill

36%

Orange Skill

34%

Rigged Doll Boxing Arena

신경망이 상대·자기 관절 위치를 입력으로 받아 관절별 이동값을 출력하고, 그 값이 포즈를 만듭니다.

Reward 0.00

Policy Loss 0.00

PPO Rollout Buffer

0/32

Network

MLP 22-20-16-20

Hit reward

0.00

Block reward

0.00

Advantage

0.10

Clip ratio

Entropy

1.25

Value loss

0.60

Approx KL

0.0000

Explained Var

학습 로그

Episode 0

초기 정책 로드

0.00