Skip to content

Latest commit

 

History

History
60 lines (38 loc) · 3.09 KB

File metadata and controls

60 lines (38 loc) · 3.09 KB

← 模块首页 · ← Week 8: 多技术栈应用 · Week 10: AI 软件工程的未来 → · 术语表

Week 9: AI 系统监控与事件响应(延伸阅读)

软件上线不是终点。本周学习如何用 AI 监控生产系统、自动化事件响应流程。

适合谁

  • 完成了 Week 8 项目、想了解"上线之后怎么办"的人
  • 对 DevOps/SRE 感兴趣的人

前置条件

  • 完成 Week 1-8(至少走完快速路径)
  • 了解基本的应用部署概念

课程讲义

讲义 主题
Mon 讲义 Monitoring and Incident Response
Fri 嘉宾讲义 Mayank Agarwal & Milind Ganjoo: Resolve AI

课程嘉宾

Mayank Agarwal(CTO, Resolve AI)& Milind Ganjoo(Technical Staff, Resolve AI)

Resolve AI 专注于用 AI 代理自动化 DevOps 和事件响应流程,是 AI-native SRE 领域的代表性公司。

阅读材料

  1. Introduction to Site Reliability Engineering — Google SRE Book 入门章节
  2. Observability Basics You Should Know — 可观测性基础概念
  3. Kubernetes Troubleshooting with AI — 用 AI 诊断 Kubernetes 问题
  4. Your New Autonomous Teammate — Resolve AI 的自主代理理念
  5. Role of Multi Agent Systems in Making Engineers AI-native — 多代理系统在工程团队中的角色
  6. Benefits of Agentic AI in On-call Engineering — AI 代理在 On-call 工程中的价值

学习顺序

  1. 浏览课程讲义 → 见上方课程讲义
  2. 阅读材料 → 见上方阅读材料(建议先读 #1 和 #2 建立基础概念)
  3. 自学实践 → 见下方自学实践建议
  4. 进入下一周Week 10: AI 软件工程的未来

自学实践建议

本周没有正式作业,以下是推荐的自学实践:

  • 为你的 Week 8 项目添加基础监控 — 尝试集成一个简单的日志和指标收集方案
  • 设置错误告警和日志收集 — 体验从"能跑"到"可观测"的转变
  • 尝试用 AI 代理诊断一个模拟故障 — 给你的应用制造一个 bug,看看 AI 能否帮你定位

跳过指引

如果你对 DevOps/SRE 不感兴趣,可以直接进入 Week 10。但建议至少浏览讲义和前两篇阅读材料,了解生产环境监控的基本概念。


← Week 8: 多技术栈应用 · Week 10: AI 软件工程的未来 →