构建 Evaluation + Optimization 的自动回归与提示词优化闭环

**背景和价值**
tRPC-Agent 已提供 AgentEvaluator 和 AgentOptimizer 两类关键能力：前者负责把 Agent 行为固化成可回归的评测信号，后者基于评测结果自动搜索更优 prompt、skill 描述或 sub-agent 指令。真实业务中，评测和优化不能割裂：如果评测集质量差，优化器会过拟合；如果优化过程不可审计，改出来的 prompt 即使分数变高也很难进入生产。
该题要求构建一个“评测 - 失败归因 - prompt 优化 - 回归验证 - 产物审计”的自动闭环。它不是简单跑一次 AgentOptimizer，而是要判断优化是否真的提升、是否牺牲其他指标、是否出现过拟合、是否值得回写源 prompt。
**任务描述**
设计并实现一个可复现的 Evaluation + Optimization pipeline。输入 baseline prompt、训练评测集、验证评测集和优化配置，系统自动运行 baseline 评测、定位失败 case、执行若干轮优化、对候选 prompt 做验证集回归，并输出结构化优化报告和是否接受候选的决策。
**具体要求**
pipeline 至少需要包含以下阶段：
1.Baseline 评测：使用 AgentEvaluator 对训练集和验证集分别打分，记录每条 case 的 metric 分、pass/fail、失败原因和关键轨迹。
2.失败归因：按失败类型聚类，例如最终回复不匹配、工具调用错误、参数错误、LLM rubric 不达标、知识召回不足、格式不符合要求。
3.优化执行：使用 AgentOptimizer 或等价扩展机制优化至少一个 TargetPrompt，支持 system prompt、skill prompt、router prompt 中的一种或多种。
4.候选验证：优化后必须重新跑验证集，并和 baseline 做逐 case 对比，区分新增通过、新增失败、分数提升、分数下降。
5.接受策略：实现可配置 gate，例如验证集总分提升 ≥ 指定阈值、不能新增 hard fail、关键 case 不能退化、成本不能超过预算。
6.审计落盘：保存每轮候选 prompt、评测结果、接受/拒绝理由、运行成本、耗时、随机种子或复现实验配置。
输入输出要求：
●输入包含 train.evalset.json、val.evalset.json、optimizer.json 和 prompt 源文件。
●输出 optimization_report.json，包含 baseline、candidate、delta、gate decision、失败归因统计。
●输出 optimization_report.md，用人能读懂的方式说明优化是否值得接受。
●支持 fake judge / fake model / trace mode，保证没有真实 API Key 时也能跑通核心流程。
**交付物**
●新增示例目录，例如 examples/optimization/eval_optimize_loop/。
●pipeline 入口脚本、样例 evalset、样例 prompt、优化配置和 README。
●至少 6 条评测 case：3 条训练、3 条验证，其中需要包含可优化成功、优化无效、优化后退化三类情况。
●optimization_report.json 示例输出。
●一份 300 – 500 字方案设计说明，解释失败归因方法、接受策略、防过拟合策略和产物审计方式。
**验收标准**
1.公开提供的 6 条样例 case 必须全部可运行，并生成完整优化报告。
2.在隐藏样本上，优化接受/拒绝决策准确率 ≥ 80%。
3.对“验证集退化但训练集提升”的过拟合场景，必须能拒绝候选 prompt。
4.失败归因分类准确率 ≥ 75%，且每个失败 case 至少能给出一个可解释原因。
5.fake model / trace mode 下完整 pipeline 耗时 ≤ 3 分钟。
6.报告必须包含 baseline 分数、candidate 分数、逐 case delta、gate 决策、拒绝或接受理由。

**本issue为2026犀牛鸟开源人才培养活动专属issue，仅供已报名参与犀牛鸟活动的同学认领**
【认领时间】7月1日～7月31日（7月1日前认领视为无效❗）
【认领方式】在本issue评论区回复“已认领本任务”，即视为认领成功
【活动报名】需提前完成犀牛鸟报名问卷，问卷将用于活动登记和奖励发放：https://wj.qq.com/s2/26888567/gh2q

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

构建 Evaluation + Optimization 的自动回归与提示词优化闭环 #91

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

构建 Evaluation + Optimization 的自动回归与提示词优化闭环 #91

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions