🚀 DGX Spark LLM 部署比較

Qwen3.6-35B-A3B (純 Transformer) vs Nemotron-Nano-Omni 30B-A3B (Hybrid Mamba)

📍 NVIDIA GB10 • DGX Spark 💾 121 GB Unified Memory 📅 2026-05-06 🔧 buun-llama-cpp fork (TBQ3)

對戰卡

Qwen3.6-35B-A3B

純 Transformer MoE

總參數34.66B

Active~3B (A3B)

層數40 (全 attention)

QuantQ4_K_M + TBQ3 KV

Context131 K (128 K)

Slots8 並發

應用TENET 翻譯 / 對話

Nemotron-Nano-Omni

Hybrid Mamba MoE + Vision

總參數30B

Active~3B (A3B, 6 experts)

層數52 (46 Mamba + 6 attn)

QuantNVFP4 attn + Q8 hack

Context65 K (model max 1 M)

Slots4 並發

應用圖片 + 文字 multimodal

記憶體分配

項目	Qwen3.6-35B	Nemotron-Omni
模型檔（磁碟）	22.13 GB	18.90 GB + 1.59 GB mmproj
模型 buffer (VRAM)	20.58 GB	17.66 GB
KV cache buffer	490 MiB	84 MiB ⚡ (Mamba 沒 KV)
KV quant 類型	TBQ3 (TurboQuant 3-bit)	turbo3
Compute buffer	493 MiB	271 MiB
總 unified mem	~21.6 GB	~19.5 GB (+ 1.59 mmproj)

3 個重要技術洞察

① Mamba 的 KV cache 超小

Nemotron 52 層只有 6 個 attention 層，所以 KV cache 才 84 MiB（Qwen 是 490 MiB）。Mamba 設計就是用 SSM state 換掉 KV，達到對長 context 的線性成本。長 context (>32K) 時 Nemotron 大幅領先。

② Qwen TBQ3 KV 量化超猛

35B 模型 × 8 並發 × 131K context，KV cache 居然才 490 MiB（normal Q8 KV 約是 1.5 GB）。TBQ3 (TurboQuant 3-bit) 是我們自己的 fork 量化 — 比 llama.cpp 原生 Q8 KV 省 3×。

③ Mamba 的代價：cache 失效

Nemotron log 一直 warning：「forcing full prompt re-processing due to lack of cache data... hybrid/recurrent memory」。Mamba state 不能跨 slot 共享，每 slot 要獨立 SSM state，所以 conversational use case (相同 prompt prefix) 沒辦法 prefix cache 受益。Qwen 反而能完美 cache。

DGX Spark 整體 RAM 分配 (121 GB)

Qwen 22GB

Nemotron 21GB

ASR

其他

buff/cache 18GB

~46 GB free

服務	Port	RAM 使用	用途
Qwen3.6-35B-A3B	:8083	~22 GB	Production LLM
Nemotron-Nano-Omni	:8094	~21 GB	Vision + LLM
Qwen3-ASR v2	:8100	~3 GB	Speech recognition
VibeVoice realtime	:8099	~3 GB	Voice synthesis
MemSifter v2	:8200	~1 GB	BGE+Granite-emb retrieval
FitMatch VLM	:9100	~1 GB	Food image VLM
7 Hermes bot gateways	—	~1.5 GB	Discord agent runtime
Chrome / agent proxy	—	~3 GB	Overhead
buff/cache (kernel)	—	~18 GB	OS file cache
總用量	—	~73-75 GB	剩 ~46 GB 給 bench / dev

結論

兩個模型在 GB10 上和諧共存，KV cache 設計是省記憶體的關鍵：

Qwen 用 TBQ3 量化 + GQA (8:1) 把 KV 壓到 490 MiB
Nemotron 用 Mamba SSM 把 90% 層數的 KV 直接消除

✅ Qwen 適合對話 / 翻譯（prefix cache 完美）
✅ Nemotron 適合短 prompt + 圖片（Mamba state 不能共享，但長 context 線性成本贏）