软件上线不是终点。本周学习如何用 AI 监控生产系统、自动化事件响应流程。
- 完成了 Week 8 项目、想了解"上线之后怎么办"的人
- 对 DevOps/SRE 感兴趣的人
- 完成 Week 1-8(至少走完快速路径)
- 了解基本的应用部署概念
| 讲义 | 主题 |
|---|---|
| Mon 讲义 | Monitoring and Incident Response |
| Fri 嘉宾讲义 | Mayank Agarwal & Milind Ganjoo: Resolve AI |
Mayank Agarwal(CTO, Resolve AI)& Milind Ganjoo(Technical Staff, Resolve AI)
Resolve AI 专注于用 AI 代理自动化 DevOps 和事件响应流程,是 AI-native SRE 领域的代表性公司。
- Introduction to Site Reliability Engineering — Google SRE Book 入门章节
- Observability Basics You Should Know — 可观测性基础概念
- Kubernetes Troubleshooting with AI — 用 AI 诊断 Kubernetes 问题
- Your New Autonomous Teammate — Resolve AI 的自主代理理念
- Role of Multi Agent Systems in Making Engineers AI-native — 多代理系统在工程团队中的角色
- Benefits of Agentic AI in On-call Engineering — AI 代理在 On-call 工程中的价值
- 浏览课程讲义 → 见上方课程讲义
- 阅读材料 → 见上方阅读材料(建议先读 #1 和 #2 建立基础概念)
- 自学实践 → 见下方自学实践建议
- 进入下一周 → Week 10: AI 软件工程的未来
本周没有正式作业,以下是推荐的自学实践:
- 为你的 Week 8 项目添加基础监控 — 尝试集成一个简单的日志和指标收集方案
- 设置错误告警和日志收集 — 体验从"能跑"到"可观测"的转变
- 尝试用 AI 代理诊断一个模拟故障 — 给你的应用制造一个 bug,看看 AI 能否帮你定位
如果你对 DevOps/SRE 不感兴趣,可以直接进入 Week 10。但建议至少浏览讲义和前两篇阅读材料,了解生产环境监控的基本概念。