fix

wangzaijun · wangzaijun · commit e602dcdd9936 · 2026-01-09T01:54:47.000Z
diff --git a/lightllm/server/api_cli.py b/lightllm/server/api_cli.py
@@ -318,23 +318,28 @@ def make_argument_parser() -> argparse.ArgumentParser:
         type=str,
         nargs="+",
         choices=["None", "triton", "fa3", "flashinfer"],
-        default=["None"],
-        help="""prefill attention kernel used in llm""",
+        default=["triton"],
+        help="""prefill attention kernel used in llm.
+                None: automatically select backend based on current GPU device,
+                not supported yet, will support in future""",
     )
     parser.add_argument(
         "--llm_decode_att_backend",
         type=str,
         nargs="+",
         choices=["None", "triton", "fa3", "flashinfer"],
-        default=["None"],
-        help="""decode attention kernel used in llm""",
+        default=["triton"],
+        help="""decode attention kernel used in llm.
+                None: automatically select backend based on current GPU device,
+                not supported yet, will support in future""",
     )
     parser.add_argument(
         "--llm_kv_type",
         type=str,
-        choices=["None", "int8kv", "int4kv", "fp8kv"],
+        choices=["None", "int8kv", "int4kv"],
         default="None",
-        help="""kv type used in llm, None for dtype that llm used in config.json""",
+        help="""kv type used in llm, None for dtype that llm used in config.json.
+                fp8kv: not fully supported yet, will support in future""",
     )
     parser.add_argument(
         "--llm_kv_quant_group_size",
diff --git a/lightllm/utils/envs_utils.py b/lightllm/utils/envs_utils.py
@@ -215,7 +215,7 @@ def get_diverse_max_batch_shared_group_size() -> int:
 
 @lru_cache(maxsize=None)
 def enable_diverse_mode_gqa_decode_fast_kernel() -> bool:
-    return get_env_start_args().diverse_mode and "ppl_int8kv_flashdecoding_diverse" in get_env_start_args().mode
+    return get_env_start_args().diverse_mode and "int8kv" == get_env_start_args().llm_kv_type
 
 
 @lru_cache(maxsize=None)