Add qwen 3/3.5 series support (#445)

sanchitmonga22 · web-flow · commit 0370cb618dc9 · 2026-03-04T17:48:38.000-08:00
diff --git a/examples/ios/RunAnywhereAI/RunAnywhereAI/App/RunAnywhereAIApp.swift b/examples/ios/RunAnywhereAI/RunAnywhereAI/App/RunAnywhereAIApp.swift
@@ -267,6 +267,64 @@ struct RunAnywhereAIApp: App {
             )
         }
 
+        // Qwen3 models
+        if let qwen3_06bURL = URL(string: "https://huggingface.co/unsloth/Qwen3-0.6B-GGUF/resolve/main/Qwen3-0.6B-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "qwen3-0.6b-q4_k_m",
+                name: "Qwen3 0.6B Q4_K_M",
+                url: qwen3_06bURL,
+                framework: .llamaCpp,
+                memoryRequirement: 500_000_000
+            )
+        }
+        if let qwen3_17bURL = URL(string: "https://huggingface.co/unsloth/Qwen3-1.7B-GGUF/resolve/main/Qwen3-1.7B-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "qwen3-1.7b-q4_k_m",
+                name: "Qwen3 1.7B Q4_K_M",
+                url: qwen3_17bURL,
+                framework: .llamaCpp,
+                memoryRequirement: 1_200_000_000
+            )
+        }
+        if let qwen3_4bURL = URL(string: "https://huggingface.co/unsloth/Qwen3-4B-GGUF/resolve/main/Qwen3-4B-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "qwen3-4b-q4_k_m",
+                name: "Qwen3 4B Q4_K_M",
+                url: qwen3_4bURL,
+                framework: .llamaCpp,
+                memoryRequirement: 2_800_000_000
+            )
+        }
+
+        // Qwen3.5 models
+        if let qwen35_08bURL = URL(string: "https://huggingface.co/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "qwen3.5-0.8b-q4_k_m",
+                name: "Qwen3.5 0.8B Q4_K_M",
+                url: qwen35_08bURL,
+                framework: .llamaCpp,
+                memoryRequirement: 600_000_000
+            )
+        }
+        if let qwen35_2bURL = URL(string: "https://huggingface.co/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "qwen3.5-2b-q4_k_m",
+                name: "Qwen3.5 2B Q4_K_M",
+                url: qwen35_2bURL,
+                framework: .llamaCpp,
+                memoryRequirement: 1_500_000_000
+            )
+        }
+        if let qwen35_4bURL = URL(string: "https://huggingface.co/unsloth/Qwen3.5-4B-GGUF/resolve/main/Qwen3.5-4B-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "qwen3.5-4b-q4_k_m",
+                name: "Qwen3.5 4B Q4_K_M",
+                url: qwen35_4bURL,
+                framework: .llamaCpp,
+                memoryRequirement: 2_800_000_000
+            )
+        }
+
         logger.info("✅ LLM models registered (including tool-calling optimized models)")
 
         // Register VLM (Vision Language) models
diff --git a/sdk/runanywhere-commons/VERSIONS b/sdk/runanywhere-commons/VERSIONS
@@ -72,9 +72,9 @@ SHERPA_ONNX_VERSION_LINUX=1.12.23
 # =============================================================================
 # llama.cpp (LLM inference)
 # =============================================================================
-# b8011 - latest stable release (Feb 2026), includes GGML_WEBGPU backend
+# b8201 - latest stable release (Feb 2026), includes GGML_WEBGPU backend
 # NOTE: Bumped from b7650 to enable WebGPU acceleration for WASM builds
-LLAMACPP_VERSION=b8011
+LLAMACPP_VERSION=b8201
 
 # =============================================================================
 # nlohmann/json
diff --git a/sdk/runanywhere-commons/src/backends/llamacpp/CMakeLists.txt b/sdk/runanywhere-commons/src/backends/llamacpp/CMakeLists.txt
@@ -153,6 +153,8 @@ if(RAC_VLM_USE_MTMD)
         ${llamacpp_SOURCE_DIR}/tools/mtmd/models/whisper-enc.cpp
         ${llamacpp_SOURCE_DIR}/tools/mtmd/models/kimik25.cpp
         ${llamacpp_SOURCE_DIR}/tools/mtmd/models/mobilenetv5.cpp
+        ${llamacpp_SOURCE_DIR}/tools/mtmd/models/paddleocr.cpp
+        ${llamacpp_SOURCE_DIR}/tools/mtmd/models/nemotron-v2-vl.cpp
     )
 endif()
 
diff --git a/sdk/runanywhere-commons/src/backends/llamacpp/llamacpp_backend.cpp b/sdk/runanywhere-commons/src/backends/llamacpp/llamacpp_backend.cpp
@@ -371,7 +371,7 @@ bool LlamaCppTextGeneration::unload_model_internal() {
     // Clear LoRA adapters from context before freeing
     // (adapter memory is freed automatically with the model per llama.cpp API)
     if (context_ && !lora_adapters_.empty()) {
-        llama_clear_adapter_lora(context_);
+        llama_set_adapters_lora(context_, nullptr, 0, nullptr);
     }
     lora_adapters_.clear();
 
@@ -828,13 +828,32 @@ bool LlamaCppTextGeneration::recreate_context() {
 }
 
 bool LlamaCppTextGeneration::apply_lora_adapters() {
+    if (lora_adapters_.empty()) {
+        // Clear all adapters from context
+        llama_set_adapters_lora(context_, nullptr, 0, nullptr);
+        return true;
+    }
+
+    std::vector<llama_adapter_lora*> adapters;
+    std::vector<float> scales;
+    adapters.reserve(lora_adapters_.size());
+    scales.reserve(lora_adapters_.size());
+
     for (auto& entry : lora_adapters_) {
-        int32_t result = llama_set_adapter_lora(context_, entry.adapter, entry.scale);
-        if (result != 0) {
-            LOGE("Failed to apply LoRA adapter: %s (error=%d)", entry.path.c_str(), result);
+        adapters.push_back(entry.adapter);
+        scales.push_back(entry.scale);
+    }
+
+    int32_t result = llama_set_adapters_lora(context_, adapters.data(), adapters.size(), scales.data());
+    if (result != 0) {
+        LOGE("Failed to apply LoRA adapters (error=%d)", result);
+        for (auto& entry : lora_adapters_) {
             entry.applied = false;
-            return false;
         }
+        return false;
+    }
+
+    for (auto& entry : lora_adapters_) {
         entry.applied = true;
         LOGI("Applied LoRA adapter: %s (scale=%.2f)", entry.path.c_str(), entry.scale);
     }
@@ -911,17 +930,16 @@ bool LlamaCppTextGeneration::remove_lora_adapter(const std::string& adapter_path
         return false;
     }
 
-    // Remove from context
-    int32_t result = llama_rm_adapter_lora(context_, it->adapter);
-    if (result != 0) {
-        LOGE("Failed to remove LoRA adapter from context: %s (error=%d)", adapter_path.c_str(), result);
-        return false;
-    }
-
     // Remove from tracking (adapter memory is freed automatically with the model
     // per llama.cpp API — llama_adapter_lora_free is deprecated since b8011)
     lora_adapters_.erase(it);
 
+    // Re-apply remaining adapters (or clear if none left)
+    if (!apply_lora_adapters()) {
+        LOGE("Failed to re-apply remaining LoRA adapters after removal");
+        return false;
+    }
+
     // Clear KV cache after adapter changes
     llama_memory_clear(llama_get_memory(context_), true);
 
@@ -937,7 +955,7 @@ void LlamaCppTextGeneration::clear_lora_adapters() {
     }
 
     if (context_) {
-        llama_clear_adapter_lora(context_);
+        llama_set_adapters_lora(context_, nullptr, 0, nullptr);
         llama_memory_clear(llama_get_memory(context_), true);
     }
 
diff --git a/sdk/runanywhere-commons/src/backends/llamacpp/llamacpp_backend.h b/sdk/runanywhere-commons/src/backends/llamacpp/llamacpp_backend.h
@@ -163,7 +163,7 @@ class LlamaCppTextGeneration {
     nlohmann::json model_config_;
 
     int context_size_ = 0;
-    int max_default_context_ = 8192;
+    int max_default_context_ = 1024;
 
     std::vector<LoraAdapterEntry> lora_adapters_;
 

Original file line number	Diff line number	Diff line change
`@@ -153,6 +153,8 @@ if(RAC_VLM_USE_MTMD)`
`153`	`153`	`${llamacpp_SOURCE_DIR}/tools/mtmd/models/whisper-enc.cpp`
`154`	`154`	`${llamacpp_SOURCE_DIR}/tools/mtmd/models/kimik25.cpp`
`155`	`155`	`${llamacpp_SOURCE_DIR}/tools/mtmd/models/mobilenetv5.cpp`
	`156`	`+ ${llamacpp_SOURCE_DIR}/tools/mtmd/models/paddleocr.cpp`
	`157`	`+ ${llamacpp_SOURCE_DIR}/tools/mtmd/models/nemotron-v2-vl.cpp`
`156`	`158`	`)`
`157`	`159`	`endif()`
`158`	`160`