Skip to content

Commit fef6c69

Browse files
committed
add weekly report
1 parent ea4cac4 commit fef6c69

File tree

2 files changed

+47
-0
lines changed

2 files changed

+47
-0
lines changed

WeeklyReports/Hackathon_8th/07_zeroRains/[WeeklyReport]2025.2.17~2025.3.2.md.md renamed to WeeklyReports/Hackathon_8th/07_zeroRains/[WeeklyReport]2025.2.17~2025.3.2.md

File renamed without changes.
Lines changed: 47 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,47 @@
1+
### 姓名
2+
3+
卢林军
4+
5+
### 实习项目
6+
7+
大语言模型推理&服务化易用性提升专项
8+
9+
### 本周工作
10+
11+
本项目的主要工作是优化当前PaddleNLP大模型推理服务调用,本周主要工作如下:
12+
13+
14+
1. 自定义算子二次封装与自动编译
15+
16+
1.1 在PaddleNLP的setup.py中,集成不同设备的编译(待验证)
17+
18+
1.2 设计二次封装自定义算子的多硬件派发方案,并完成初步实现
19+
20+
相关 PR:
21+
22+
- https://github.com/PaddlePaddle/PaddleNLP/pull/9794
23+
24+
2. 实现group-wise quant_weight的GPU kernel
25+
26+
包括int4_col_pack, int4_row_pack 以及int8的GPU kernel实现,经过验证int8的kernel实现与CPU对齐,int4的kernel在bfloat16的情况下,float16的情况下,当矩阵大于[256,256]时,无法对齐。
27+
28+
DEBUG int4 kernel的实现
29+
30+
修改PaddleNLP中deepseek模型调用quant_weight的方式(调用CPU Kernel改为调用GPU Kernel)并添加单测
31+
32+
相关 PR:
33+
34+
- https://github.com/PaddlePaddle/Paddle/pull/71549
35+
- https://github.com/PaddlePaddle/PaddleNLP/pull/10174
36+
37+
38+
39+
### 下周工作
40+
41+
1. 讨论多硬件派发方案合理性,并完善与验证
42+
2. Debug group-wise int4 quant_weight的实现
43+
44+
### 导师点评
45+
46+
47+

0 commit comments

Comments
 (0)