[NPU] Fix generate example (#12541)

plusbang · web-flow · commit d20a968ce2b1 · 2024-12-13T14:07:24.000+08:00
diff --git a/python/llm/example/NPU/HF-Transformers-AutoModels/LLM/generate.py b/python/llm/example/NPU/HF-Transformers-AutoModels/LLM/generate.py
@@ -52,7 +52,6 @@
             attn_implementation="eager"
         )
         tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
-        tokenizer.save_pretrained(args.lowbit_path)
     else:
         model = AutoModelForCausalLM.load_low_bit(
             args.lowbit_path,
@@ -66,6 +65,7 @@
 
     if args.lowbit_path and not os.path.exists(args.lowbit_path):
         model.save_low_bit(args.lowbit_path)
+        tokenizer.save_pretrained(args.lowbit_path)
 
     with torch.inference_mode():
         input_ids = tokenizer.encode(args.prompt, return_tensors="pt")