把 Agent Skill 变成可测、可比、可改进的系统
一个系统学习 Agent Skills Evals 方法论的交互式知识工坊,基于 OpenAI Developers 官方博客 《Testing Agent Skills Systematically with Evals》 整理而成。
- 📚 35 个核心概念:覆盖 Skill 定义、成功标准(Outcome / Process / Style / Efficiency)、手动触发、数据集构建、JSONL 轨迹、确定性检查、Rubric 评分的完整 eval 闭环
- 🗂️ 9 大主题分类:从理念到实现,从「凭感觉更好」到「有证据更好」
- 🎴 多种学习方式:渐进学习 / 闪卡复习 / 概念索引 / 学习进度
- 📱 PWA 支持:可安装到桌面,离线可用
- 🎨 极简美学:米黄背景 + 金黄点缀,专注内容本身
- Vercel: https://learn-eval-skills.vercel.app
- EdgeOne: https://learn-eval-skills-c2u04dci.edgeone.run
- 纯静态 HTML + CSS + JavaScript(零构建、零依赖)
- PWA(manifest.json + Service Worker)
- localStorage 进度持久化
learn-eval-skills/
├── index.html # 首页
├── learn.html # 渐进学习
├── flashcard.html # 闪卡复习
├── roots.html # 主题索引
├── root-detail.html # 主题详情
├── progress.html # 学习进度
├── js/
│ ├── wordData.js # 35 个概念数据
│ ├── siteConfig.js # 站点配置
│ └── storage.js # localStorage 封装
├── css/minimal.css # 样式
├── manifest.json # PWA 配置
└── sw.js # Service Worker
# 任意静态服务器都行
npx serve .
# 或
python3 -m http.server 8080访问 http://localhost:8080 即可。
MIT © dimayip