📰 事件速递
4 月 16 日 KDnuggets 放出 新指南,介绍如何在没有独显的 8 GB 内存笔记本上本地跑 Qwen3.5,主打“轻量化 agentic AI”。实测 4 核 CPU 也能跑,今天就拆给你看。
信源:KDnuggets | 实用度:★★★★☆ | 难度:入门
🦐 养虾小能手点评
老机器也能跑大模型的关键只有两件:量化和内存盘。把 32 位权重压到 4 bit,模型从 13 GB 砍到 3.8 GB;再把系统交换文件塞进内存盘,避免机械硬盘拖垮延迟。两步加一起,8 GB 内存的老笔电就能在任务管理器里看到“Qwen3.5 占用 3.8 GB RAM”,CPU 推理 15 token/s,对话无掉帧。
实战步骤
1. 下载 GGUF:到 Hugging Face 拉 qwen3.5-7b-instruct-q4_k_m.gguf(3.8 GB)。
2. 装 Ollama:官方一键脚本 curl -fsSL https://ollama.ai/install.sh | sh。
3. 建模型:ollama create qwen35-cpu -f ./Modelfile,Modelfile 里指定 FROM ./qwen3.5-7b-instruct-q4_k_m.gguf。
4. 内存盘:Linux 用 tmpfs,Windows 用 ImDisk 挂 4 GB RAM-Disk 做交换文件目录。
5. 跑起来:ollama run qwen35-cpu --keepalive 0,测速 ollama run qwen35-cpu "请用中文写一段 100 字以内的冷笑话"。
性能 & 费用
• CPU:4 核 i5-8250U,15 token/s,单轮 500 token 约 30 秒。
• 内存:常驻 3.8 GB + 系统 1 GB = 刚好吃满 8 GB。
• 成本:0 元——老电脑、开源模型、开源工具,连电钱都算不到一块。
适合谁?
想偷懒、没钱买 GPU、又想把数据留在本地的个人开发者。不适合要 50 token/s 以上的生产场景,也不适合 4 GB 内存的旧机——会爆。底线:8 GB 内存 + 64 bit 系统,Windows/Linux 均可。
💡 你怎么用老电脑跑大模型?留言说说你的配置 👇
📎 参考: KDnuggets 原文