Merge branch 'PFCCLab:main' into main

smile2game · web-flow · commit fbed84a317cd · 2025-03-24T21:00:47.000+08:00
diff --git a/WeeklyReports/Hackathon_8th/02_Xuxuanang/2025.1.10~2025.2.16.md b/WeeklyReports/Hackathon_8th/02_Xuxuanang/2025.1.10~2025.2.16.md
@@ -0,0 +1,19 @@
+### 姓名
+许轩昂
+
+### 实习项目
+项目二：模型迁移工具建设
+
+### 本周工作
+
+1. 修改映射文档约15篇，使其与转换规则对齐，并提交了PR。
+
+  相关PR:
+- https://github.com/PaddlePaddle/docs/pull/7054
+
+### 下周工作
+
+1. 完成剩余119个需要开发的API映射关系的开发，包括映射文档，转换规则，Matcher以及单测。
+
+
+### 导师点评
diff --git a/WeeklyReports/Hackathon_8th/02_Xuxuanang/2025.2.17~2025.3.2.md b/WeeklyReports/Hackathon_8th/02_Xuxuanang/2025.2.17~2025.3.2.md
@@ -0,0 +1,23 @@
+### 姓名
+许轩昂
+
+### 实习项目
+项目二：模型迁移工具建设
+
+### 本周工作
+
+1. 新增torch.cuda.device_of，torch.cuda.get_rng_state，torch.cuda.set_per_process_memory_fraction等映射规则与Matcher，单测十余个，并提交PR。
+
+- https://github.com/PaddlePaddle/PaConvert/pull/555
+
+2. 新增torch.cuda.device_of，torch.cuda.get_rng_state等映射文档十余篇，并提交PR。
+
+- https://github.com/PaddlePaddle/docs/pull/7081
+
+
+### 下周工作
+
+1. 完成剩余约105个需要开发的API映射关系的开发，包括映射文档，转换规则，Matcher以及单测。
+
+
+### 导师点评
diff --git a/WeeklyReports/Hackathon_8th/05_gouzil/[WeeklyReport]2025.1.10~2025.2.16.md b/WeeklyReports/Hackathon_8th/05_gouzil/[WeeklyReport]2025.1.10~2025.2.16.md
@@ -0,0 +1,20 @@
+### 姓名
+
+gouzil
+
+### 实习项目
+
+动转静性能优化专项
+
+### 本周工作
+
+1. 学习现有的 Guard 和 Fast Guard 机制
+
+### 下周工作
+
+1. 增加一个 Flag 用于控制单独 check Fast Guard 与 Guard 的运行结果
+2. 优化 Fast Guard 单测机制，减少单测时间
+
+### 导师点评
+
+继续改造测试机制，测试机制是我们开发最基础的保障，也能够快速暴露大量问题
diff --git a/WeeklyReports/Hackathon_8th/05_gouzil/[WeeklyReport]2025.2.17~2025.3.2.md b/WeeklyReports/Hackathon_8th/05_gouzil/[WeeklyReport]2025.2.17~2025.3.2.md
@@ -0,0 +1,22 @@
+### 姓名
+
+gouzil
+
+### 实习项目
+
+动转静性能优化专项
+
+### 本周工作
+
+1. 优化现有 Flag [#71239](https://github.com/PaddlePaddle/Paddle/pull/71239)
+    - 增加 `ENV_SOT_ENABLE_CHECK_FASTER_GUARD` 用于确认两个版本的 Guard 运行结果
+2. 修复 `LayerMatchGuard` 初始化错误
+
+
+### 下周工作
+
+1. 修复在新增 Flag 暴露出来的错误
+
+### 导师点评
+
+牛哇川子
diff --git a/WeeklyReports/Hackathon_8th/05_gouzil/[WeeklyReport]2025.3.3~2025.3.23.md b/WeeklyReports/Hackathon_8th/05_gouzil/[WeeklyReport]2025.3.3~2025.3.23.md
@@ -0,0 +1,22 @@
+### 姓名
+
+gouzil
+
+### 实习项目
+
+动转静性能优化专项
+
+### 本周工作
+
+1. 解决 [#71239](https://github.com/PaddlePaddle/Paddle/pull/71239) 中的遗留问题
+    - 清理 `test_with_faster_guard` 装饰器 [#71757](https://github.com/PaddlePaddle/Paddle/pull/71757)
+    - 添加 `LengthMatchGuard` 对 `dict` 的支持
+
+
+### 下周工作
+
+1. 继续推进 Faster Guard 的实现
+
+### 导师点评
+
+牛哇川川宝～
diff --git a/WeeklyReports/Hackathon_8th/05_zrr1999/[WeeklyReport]2025.1.10~2025.2.16.md b/WeeklyReports/Hackathon_8th/05_zrr1999/[WeeklyReport]2025.1.10~2025.2.16.md
@@ -0,0 +1,20 @@
+### 姓名
+
+詹荣瑞
+
+### 实习项目
+
+动转静性能优化专项
+
+### 本周工作
+
+1. **调研 Guard 树及其优化机制**
+
+### 下周工作
+
+1. **进一步优化 Faster Guard 机制**
+2. **确定 Guard 树及其优化机制的基本方案**
+
+### 导师点评
+
+接下来进一步推进 Guard 机制实现，以实现动转静 SOT 端到端热启动的极致优化
diff --git a/WeeklyReports/Hackathon_8th/05_zrr1999/[WeeklyReport]2025.2.17~2025.3.2.md b/WeeklyReports/Hackathon_8th/05_zrr1999/[WeeklyReport]2025.2.17~2025.3.2.md
@@ -0,0 +1,20 @@
+### 姓名
+
+詹荣瑞
+
+### 实习项目
+
+动转静性能优化专项
+
+### 本周工作
+
+1. **调研 Guard 树及其优化机制**
+
+### 下周工作
+
+1. **进一步优化 Faster Guard 机制**
+2. **确定 Guard 树及其优化机制的基本方案**
+
+### 导师点评
+
+牛哇瑞瑞
diff --git a/WeeklyReports/Hackathon_8th/06_Hanyonggong/[WeeklyReport]2025.1.10~2025.2.16.md.md b/WeeklyReports/Hackathon_8th/06_Hanyonggong/[WeeklyReport]2025.1.10~2025.2.16.md.md
@@ -0,0 +1,17 @@
+### 姓名 
+
+Hanyonggong
+
+### 实习项目 
+
+PIR-TRT 算子 Converter 及单测开发
+
+### 本周工作 
+
+   1. 学习Tensorrt框架以及模型推理引擎开发
+
+### 下周工作 
+
+   1. 继续学习tensorrt相关知识、熟悉当前PIR-TRT 算子 Converter 开发过程
+
+### 导师点评 
diff --git a/WeeklyReports/Hackathon_8th/06_Hanyonggong/[WeeklyReports]2025.02.17~2024.03.02.md b/WeeklyReports/Hackathon_8th/06_Hanyonggong/[WeeklyReports]2025.02.17~2024.03.02.md
@@ -0,0 +1,18 @@
+### 姓名
+韩用功
+
+### 实习项目
+PIR-TRT 算子 Converter 及单测开发
+
+### 本周工作
+
+**1、PIR-TRT项目收尾**
+
+
+**2、相关大模型结构与算子学习**
+
+
+### 下周工作
+参与大模型相关建设
+
+### 导师点评
diff --git a/WeeklyReports/Hackathon_8th/07_zeroRains/[WeeklyReport]2025.1.10~2025.2.16.md b/WeeklyReports/Hackathon_8th/07_zeroRains/[WeeklyReport]2025.1.10~2025.2.16.md
@@ -0,0 +1,54 @@
+### 姓名
+
+卢林军
+
+### 实习项目
+
+大语言模型推理&服务化易用性提升专项
+
+### 本周工作
+
+本项目的主要工作是优化当前PaddleNLP大模型推理服务调用，本周主要工作如下：
+
+1. 大模型相关旧代码清理
+
+当前PaddleNLP中已经实现了效率更高的`Block Attention`和`Append Attention`，需要清理当前默认使用的基本Attention方式，将Block Attention作为默认Attention进行大模型推理工作。
+
+删除了当前`xxxInferenceModel`和`xxxForCausalLMInferenceModel`的定义，全面使用`xxxBlockInferenceModel`和`xxxForCausalLMBlockInferenceModel`。
+
+移除当前`FusedMultiTransformerBase`的使用，全面使用`FusedBlockMultiTransformer`。
+
+修改`Predictor`默认参数，默认开启`block attention`的使用
+
+当前直接使用`block attention`仍然有部分BUG
+
+ps: 此项工作与其他工作冲突较大，后续处理差不多后再进行推进
+
+相关 PR：
+
+- https://github.com/PaddlePaddle/PaddleNLP/pull/9770
+- https://github.com/PaddlePaddle/Paddle/pull/70763
+
+2. 自定义算子二次封装与自动编译
+
+收集PaddleNLP中使用的自定义算子(csrc文件夹中)，构建二次封装接口
+
+在setup.py中集成自定义算子编译
+
+CI已过
+
+相关 PR：
+
+- https://github.com/PaddlePaddle/PaddleNLP/pull/9794
+
+
+
+### 下周工作
+
+1. 完善自定义算子分类
+2. 分析Append Attention使用的Kernel结构，尝试解耦其实例化方式
+
+### 导师点评
+
+
+
diff --git a/WeeklyReports/Hackathon_8th/07_zeroRains/[WeeklyReport]2025.2.17~2025.3.2.md.md b/WeeklyReports/Hackathon_8th/07_zeroRains/[WeeklyReport]2025.2.17~2025.3.2.md.md
@@ -0,0 +1,45 @@
+### 姓名
+
+卢林军
+
+### 实习项目
+
+大语言模型推理&服务化易用性提升专项
+
+### 本周工作
+
+本项目的主要工作是优化当前PaddleNLP大模型推理服务调用，本周主要工作如下：
+
+
+1. 自定义算子二次封装与自动编译
+
+收集PaddleNLP中使用的自定义算子(csrc文件夹中)，构建二次封装接口
+
+继续更新自定义算子的调用参数，添加新增算子的二次封装。
+
+CI已过
+
+相关 PR：
+
+- https://github.com/PaddlePaddle/PaddleNLP/pull/9794
+
+2. 分析Append Attention使用的Kernel结构，尝试解耦其实例化方式
+
+编译失败：指符号链接超出能够索引的范围
+
+尝试将现有Dispatch宏展开替换成递归模板调用的形式，但本质上仍然要对Append Attention Kernel进行很多的实例化。编译时间仍然很长，最后也会编译失败。
+
+通过编写脚本，将Append Attention的CascadeAppendAttentionKernel的实例化过程写在不同的文件，最后大概生成了9000多个实例化函数，最后仍然编译失败。
+
+最后远乐老师从代码结构分析，将适配MLA所需要的head_dim与原本的GQA所需要的head_dim分成两个不同的宏定义进行Dispatch，解决了编译失败的问题。
+
+
+### 下周工作
+
+1. 推进当前自定义算子PR合入
+2. 讨论自定义算子的多设备适配和自定义算子的默认参数设置问题
+
+### 导师点评
+
+
+
diff --git a/WeeklyReports/Hackathon_8th/zty-king/[WeeklyReports]_2025_01.10-2025_02.16 b/WeeklyReports/Hackathon_8th/zty-king/[WeeklyReports]_2025_01.10-2025_02.16
@@ -0,0 +1,19 @@
+### 姓名
+郑天宇
+
+### 实习项目
+静态图流水并行功能增强和性能优化
+
+### 本周工作
+
+1. **【Auto-Parallel | Comm】fix communication hang issue on GPU-H(VPP)**
+
+  * 解决当前vpp编排下，通信hang住的问题，优化vpp的切图和编排，将forward拆分成recv_forward和forward，send_backward和backward
+
+
+### 下周工作
+
+1. 复现`DualPipe`流水编排
+
+
+
diff --git a/WeeklyReports/Hackathon_8th/zty-king/[WeeklyReports]_2025_02.17-2025_03.02 b/WeeklyReports/Hackathon_8th/zty-king/[WeeklyReports]_2025_02.17-2025_03.02
@@ -0,0 +1,19 @@
+### 姓名
+郑天宇
+
+### 实习项目
+静态图流水并行功能增强和性能优化
+
+### 本周工作
+
+1. **DualPipe复现**
+
+  * 分析deep-seek_v3论文，重点分析dualpipe核心逻辑和编排规律
+  * 在dualpipe编排未开源前，总结了一套编排方法，并复现了dualpipe的编排
+
+### 下周工作
+
+1. 动半下实现多卡视角下的流水并行策略（即当前的流水并行是单卡视角下的）
+
+
+