直接输入input_ids给model得到logits进而得到completion_ids vs 输入input_ids给model.diffusion_generate多步生成completion_ids 这两种方式对grpo训练有什么影响吗,选择后者的原因是什么~