Google 為 Gemma 4 開源家族補上 12B 中量級尺寸。這篇在 Mac mini M4 32GB 與 RTX 5070 Ti 兩種平台用 Ollama 實測 gemma4:12b,涵蓋 token 生成速度、計概 200 題單選題、以及實際寫 Python 解程式題三種跑分:選擇題逼近 26B,寫程式 70.2%、但難題仍吃力,dense 架構也讓 decode 墊底。文章拆解 26B MoE 與 31B dense 在 16GB 顯卡上的差異,整理 12B 的本地部署情境與顯卡記憶體選型。