Google 為 Gemma 4 開源家族補上 12B 中量級尺寸。這篇在 Mac mini M4 32GB 與 RTX 5070 Ti 兩種平台用 Ollama 實測 gemma4:12b,涵蓋 token 生成速度、計概 200 題單選題、以及實際寫 Python 解程式題三種跑分:選擇題逼近 26B,寫程式 70.2%、但難題仍吃力,dense 架構也讓 decode 墊底。文章拆解 26B MoE 與 31B dense 在 16GB 顯卡上的差異,整理 12B 的本地部署情境與顯卡記憶體選型。
Gemma4 12B 發布,比較 Gemma4 全系列能力|實測計概考試、程式作答、token 速度
Gemma 4 E2B vs E4B 完整實測|Thinking 模式的祕密與本地小模型最佳實踐
Gemma 4 的 E2B 和 E4B 兩個邊緣模型誰比較強?參數較小的 E2B 反而比 E4B 慢 10 倍是怎麼回事?這篇用 RTX 3070 跑了完整的 TPS、TTFT、品質對比 benchmark,並追到 Ollama renderer 層級找出 thinking 模式預設啟動的真相,順便整理本地小模型最佳實踐與 thinking、temperature、top_k、top_p 等參數說明。
本地跑 Claude Code 實戰|Ollama + Gemma 4 + RTX 3070 使用心得與踩坑筆記
想用本地 LLM 跑 Claude Code 省下雲端 API 費用?這篇分享在 Windows 11 + RTX 3070 8GB VRAM 上用 Ollama 接 Gemma 4 跑 Claude Code 的真實心得,包含安裝流程、Context length 設定、中文輸入只回英文的怪事、settings.json 被覆蓋的踩坑經驗,以及本地小模型真正適合做什麼自動化任務。
Google Gemma 4|多模態開源模型大更新,手機 1.5GB 就能跑、電腦端效能翻倍再翻倍
Google DeepMind 發佈 Gemma 4 開源模型家族,採用 Apache 2.0 授權,提供 31B Dense、26B MoE、E4B、E2B 四種尺寸。31B 在 Arena AI 排名開源模型第三,26B MoE 只用 3.8B 參數就達到接近表現。支援圖片、影片、語音多模態輸入,原生 function calling 與 agent 工作流,E2B 僅需 1.5GB 記憶體就能在手機和 Raspberry Pi 上跑。
Ollama 入門教學|本地大語言模型新手指南(Windows/Linux/macOS)
近年 AI 大語言模型(LLM)百花齊放,大多數人接觸到的方式仍是透過雲端 API,例如 ChatGP、Gemini、 Claude、Grok、Deepseek等,雖然方便,但可能會受限於費用、額度、網路延遲,資料隱私等問題,希望可以在自己的電腦上執行。Ollama 讓我們能在自己的電腦上直接執行 LLM,不需要依賴雲端輕鬆體驗離線大模型,之後還能結合 AI Agent、MCP 或是 AnythingLLM 整合介面。這篇文章會教學在 Windows / Linux / macOS 安裝 Ollama、下載模型,選適合自己電腦的模型大小。