🚀 DGX Spark LLM 部署比較

Qwen3.6-35B-A3B (純 Transformer) vs Nemotron-Nano-Omni 30B-A3B (Hybrid Mamba)

📍 NVIDIA GB10 • DGX Spark 💾 121 GB Unified Memory 📅 2026-05-06 🔧 buun-llama-cpp fork (TBQ3)

對戰卡

Qwen3.6-35B-A3B
純 Transformer MoE
總參數34.66B
Active~3B (A3B)
層數40 (全 attention)
QuantQ4_K_M + TBQ3 KV
Context131 K (128 K)
Slots8 並發
應用TENET 翻譯 / 對話
VS
Nemotron-Nano-Omni
Hybrid Mamba MoE + Vision
總參數30B
Active~3B (A3B, 6 experts)
層數52 (46 Mamba + 6 attn)
QuantNVFP4 attn + Q8 hack
Context65 K (model max 1 M)
Slots4 並發
應用圖片 + 文字 multimodal

記憶體分配

項目 Qwen3.6-35B Nemotron-Omni
模型檔(磁碟)22.13 GB18.90 GB + 1.59 GB mmproj
模型 buffer (VRAM)20.58 GB17.66 GB
KV cache buffer490 MiB84 MiB ⚡ (Mamba 沒 KV)
KV quant 類型TBQ3 (TurboQuant 3-bit)turbo3
Compute buffer493 MiB271 MiB
總 unified mem~21.6 GB~19.5 GB (+ 1.59 mmproj)

3 個重要技術洞察

① Mamba 的 KV cache 超小

Nemotron 52 層只有 6 個 attention 層,所以 KV cache 才 84 MiB(Qwen 是 490 MiB)。Mamba 設計就是用 SSM state 換掉 KV,達到對長 context 的線性成本。長 context (>32K) 時 Nemotron 大幅領先。

② Qwen TBQ3 KV 量化超猛

35B 模型 × 8 並發 × 131K context,KV cache 居然才 490 MiB(normal Q8 KV 約是 1.5 GB)。TBQ3 (TurboQuant 3-bit) 是我們自己的 fork 量化 — 比 llama.cpp 原生 Q8 KV 省 3×。

③ Mamba 的代價:cache 失效

Nemotron log 一直 warning:「forcing full prompt re-processing due to lack of cache data... hybrid/recurrent memory」Mamba state 不能跨 slot 共享,每 slot 要獨立 SSM state,所以 conversational use case (相同 prompt prefix) 沒辦法 prefix cache 受益。Qwen 反而能完美 cache。

DGX Spark 整體 RAM 分配 (121 GB)

Qwen 22GB
Nemotron 21GB
ASR
VV
其他
buff/cache 18GB
~46 GB free
服務PortRAM 使用用途
Qwen3.6-35B-A3B:8083~22 GBProduction LLM
Nemotron-Nano-Omni:8094~21 GBVision + LLM
Qwen3-ASR v2:8100~3 GBSpeech recognition
VibeVoice realtime:8099~3 GBVoice synthesis
MemSifter v2:8200~1 GBBGE+Granite-emb retrieval
FitMatch VLM:9100~1 GBFood image VLM
7 Hermes bot gateways~1.5 GBDiscord agent runtime
Chrome / agent proxy~3 GBOverhead
buff/cache (kernel)~18 GBOS file cache
總用量~73-75 GB剩 ~46 GB 給 bench / dev

結論

兩個模型在 GB10 上和諧共存,KV cache 設計是省記憶體的關鍵:

Qwen 適合對話 / 翻譯(prefix cache 完美)
Nemotron 適合短 prompt + 圖片(Mamba state 不能共享,但長 context 線性成本贏)