Qwen3.6-35B-A3B (純 Transformer) vs Nemotron-Nano-Omni 30B-A3B (Hybrid Mamba)
| 項目 | Qwen3.6-35B | Nemotron-Omni |
|---|---|---|
| 模型檔(磁碟) | 22.13 GB | 18.90 GB + 1.59 GB mmproj |
| 模型 buffer (VRAM) | 20.58 GB | 17.66 GB |
| KV cache buffer | 490 MiB | 84 MiB ⚡ (Mamba 沒 KV) |
| KV quant 類型 | TBQ3 (TurboQuant 3-bit) | turbo3 |
| Compute buffer | 493 MiB | 271 MiB |
| 總 unified mem | ~21.6 GB | ~19.5 GB (+ 1.59 mmproj) |
Nemotron 52 層只有 6 個 attention 層,所以 KV cache 才 84 MiB(Qwen 是 490 MiB)。Mamba 設計就是用 SSM state 換掉 KV,達到對長 context 的線性成本。長 context (>32K) 時 Nemotron 大幅領先。
35B 模型 × 8 並發 × 131K context,KV cache 居然才 490 MiB(normal Q8 KV 約是 1.5 GB)。TBQ3 (TurboQuant 3-bit) 是我們自己的 fork 量化 — 比 llama.cpp 原生 Q8 KV 省 3×。
Nemotron log 一直 warning:「forcing full prompt re-processing due to lack of cache data... hybrid/recurrent memory」。Mamba state 不能跨 slot 共享,每 slot 要獨立 SSM state,所以 conversational use case (相同 prompt prefix) 沒辦法 prefix cache 受益。Qwen 反而能完美 cache。
| 服務 | Port | RAM 使用 | 用途 |
|---|---|---|---|
| Qwen3.6-35B-A3B | :8083 | ~22 GB | Production LLM |
| Nemotron-Nano-Omni | :8094 | ~21 GB | Vision + LLM |
| Qwen3-ASR v2 | :8100 | ~3 GB | Speech recognition |
| VibeVoice realtime | :8099 | ~3 GB | Voice synthesis |
| MemSifter v2 | :8200 | ~1 GB | BGE+Granite-emb retrieval |
| FitMatch VLM | :9100 | ~1 GB | Food image VLM |
| 7 Hermes bot gateways | — | ~1.5 GB | Discord agent runtime |
| Chrome / agent proxy | — | ~3 GB | Overhead |
| buff/cache (kernel) | — | ~18 GB | OS file cache |
| 總用量 | — | ~73-75 GB | 剩 ~46 GB 給 bench / dev |
兩個模型在 GB10 上和諧共存,KV cache 設計是省記憶體的關鍵:
✅ Qwen 適合對話 / 翻譯(prefix cache 完美)
✅ Nemotron 適合短 prompt + 圖片(Mamba state 不能共享,但長 context 線性成本贏)