MacBook Pro M2 Pro 跑 Gemma 4 實測|Apple Silicon 本地 LLM

在 MacBook Pro M2 Pro 16GB 上用 Ollama 跑 Gemma 4 到底有多快?跟 RTX 3070 8GB 相比誰贏?這篇把 Apple Silicon 統一記憶體架構放進本地 LLM 的實戰對比,從 TPS、TTFT、長 prompt 塞滿 128K context 一路測到 Ollama 對 e2b 偷偷開 thinking 的 bug 跨平台重現,並給出 num_ctx 跟真實 prompt 長度兩個容易被混淆的觀念說明,幫筆電族開發者找到本地 LLM 的實用上限。

Google Gemma 4|多模態開源模型大更新,手機 1.5GB 就能跑、電腦端效能翻倍再翻倍

Google DeepMind 發佈 Gemma 4 開源模型家族,採用 Apache 2.0 授權,提供 31B Dense、26B MoE、E4B、E2B 四種尺寸。31B 在 Arena AI 排名開源模型第三,26B MoE 只用 3.8B 參數就達到接近表現。支援圖片、影片、語音多模態輸入,原生 function calling 與 agent 工作流,E2B 僅需 1.5GB 記憶體就能在手機和 Raspberry Pi 上跑。