Gemma 彙整 - Kyle's Code Blog

MacBook Pro M2 Pro 跑 Gemma 4 實測｜Apple Silicon 本地 LLM

在 MacBook Pro M2 Pro 16GB 上用 Ollama 跑 Gemma 4 到底有多快？跟 RTX 3070 8GB 相比誰贏？這篇把 Apple Silicon 統一記憶體架構放進本地 LLM 的實戰對比，從 TPS、TTFT、長 prompt 塞滿 128K context 一路測到 Ollama 對 e2b 偷偷開 thinking 的 bug 跨平台重現，並給出 num_ctx 跟真實 prompt 長度兩個容易被混淆的觀念說明，幫筆電族開發者找到本地 LLM 的實用上限。

4 月 114 月 11

Gemma 4 E2B vs E4B 完整實測｜Thinking 模式的祕密與本地小模型最佳實踐

Gemma 4 的 E2B 和 E4B 兩個邊緣模型誰比較強？參數較小的 E2B 反而比 E4B 慢 10 倍是怎麼回事？這篇用 RTX 3070 跑了完整的 TPS、TTFT、品質對比 benchmark，並追到 Ollama renderer 層級找出 thinking 模式預設啟動的真相，順便整理本地小模型最佳實踐與 thinking、temperature、top_k、top_p 等參數說明。

4 月 114 月 11

本地跑 Claude Code 實戰｜Ollama + Gemma 4 + RTX 3070 使用心得與踩坑筆記

想用本地 LLM 跑 Claude Code 省下雲端 API 費用？這篇分享在 Windows 11 + RTX 3070 8GB VRAM 上用 Ollama 接 Gemma 4 跑 Claude Code 的真實心得，包含安裝流程、Context length 設定、中文輸入只回英文的怪事、settings.json 被覆蓋的踩坑經驗，以及本地小模型真正適合做什麼自動化任務。

4 月 114 月 11

Google Gemma 4｜多模態開源模型大更新，手機 1.5GB 就能跑、電腦端效能翻倍再翻倍

Google DeepMind 發佈 Gemma 4 開源模型家族，採用 Apache 2.0 授權，提供 31B Dense、26B MoE、E4B、E2B 四種尺寸。31B 在 Arena AI 排名開源模型第三，26B MoE 只用 3.8B 參數就達到接近表現。支援圖片、影片、語音多模態輸入，原生 function calling 與 agent 工作流，E2B 僅需 1.5GB 記憶體就能在手機和 Raspberry Pi 上跑。

4 月 034 月 11