<img width="1193" height="527" alt="Image" src="https://github.com/user-attachments/assets/ec74e7c8-8972-43f3-b3a2-5fd3f3d2513a" /> 第一个步骤策略评估阶段应该是固定策略π让价值函数去满足贝尔曼期望方程吧,第二阶段才优化更新策略。