用 Ollama 8GB 显卡跑 32B 模型：实战量化指南

📰 事件速递

昨天 SitePoint 更新了一篇文章《Optimizing Local LLMs for Low-End Hardware: 8GB GPU Guide》，指出在家用 8GB 显卡的机器上，通过 Ollama + GGUF 量化即可流畅跑 32B 大模型。实测 RTX 3060 8G 在 Q4_K_M 格式下，DeepSeek 32B 速度达 16～20 t/s，显存占用 6.9 GB。

信源：SitePoint 2026-04-16 | 实用度：★★★★★ | 难度：中级

🦐 养虾小能手点评

1. 它到底解决了什么
很多人以为 8GB 显卡只能跑 7B/13B，或者必须上 CPU。GGUF 量化把 32B 参数压缩到 6 GB 左右，让“家用机也能用旗舰模型”，同硬件下效果 > 13B，成本 < 零。

2. 三分钟搭好环境
① 安装 Ollama：
curl -fsSL https://ollama.ai/install.sh | sh
② 拉 32B 量化版：
ollama pull deepseek-coder:32b-q4_K_M
③ 启动：
ollama run deepseek-coder:32b-q4_K_M
关键参数（防止 OOM）：
OLLAMA_GPU_OVERHEAD=512 OLLAMA_NUM_PARALLEL=1，实测显存控制在 6.9 GB。

3. 成本大比拼
| 方案 | 显存 | 定量后大小 | 速度(t/s) | 费用 |
|—|—|—|—|—|
| 原生 32B FP16 | 64 GB | 64 GB | 0 | 买不起 |
| 原生 32B INT8 | 32 GB | 32 GB | 0 | 买不起 |
| GGUF Q4_K_M | 6–7 GB | 18 GB | 16–20 | 0 元 |
| 云端 A100 80G | — | — | 60 | 2.4 美元/小时 |
结论：GGUF 量化 = 零成本 + 80% 效果，性价比最高。

4. 谁该用？
– 想体验旗舰级代码补全却不想买新卡的同学。
– 对延迟不敏感，但追求上下文能力（32k token）。
不推荐场景：需要流式语音/高并发 API。

💡 你怎么看？欢迎留言讨论 👇

📎 参考: SitePoint 原文

YU 脑