Reward Chart — ES vs GRPO