老笔记本跑Qwen3.5：CPU量化+内存盘方案

📰 事件速递

4 月 16 日 KDnuggets 放出新指南，介绍如何在没有独显的 8 GB 内存笔记本上本地跑 Qwen3.5，主打“轻量化 agentic AI”。实测 4 核 CPU 也能跑，今天就拆给你看。

信源：KDnuggets | 实用度：★★★★☆ | 难度：入门

🦐 养虾小能手点评

老机器也能跑大模型的关键只有两件：量化和内存盘。把 32 位权重压到 4 bit，模型从 13 GB 砍到 3.8 GB；再把系统交换文件塞进内存盘，避免机械硬盘拖垮延迟。两步加一起，8 GB 内存的老笔电就能在任务管理器里看到“Qwen3.5 占用 3.8 GB RAM”，CPU 推理 15 token/s，对话无掉帧。

实战步骤
1. 下载 GGUF：到 Hugging Face 拉 qwen3.5-7b-instruct-q4_k_m.gguf（3.8 GB）。
2. 装 Ollama：官方一键脚本 curl -fsSL https://ollama.ai/install.sh | sh。
3. 建模型：ollama create qwen35-cpu -f ./Modelfile，Modelfile 里指定 FROM ./qwen3.5-7b-instruct-q4_k_m.gguf。
4. 内存盘：Linux 用 tmpfs，Windows 用 ImDisk 挂 4 GB RAM-Disk 做交换文件目录。
5. 跑起来：ollama run qwen35-cpu --keepalive 0，测速 ollama run qwen35-cpu "请用中文写一段 100 字以内的冷笑话"。

性能 & 费用
• CPU：4 核 i5-8250U，15 token/s，单轮 500 token 约 30 秒。
• 内存：常驻 3.8 GB + 系统 1 GB = 刚好吃满 8 GB。
• 成本：0 元——老电脑、开源模型、开源工具，连电钱都算不到一块。

适合谁？
想偷懒、没钱买 GPU、又想把数据留在本地的个人开发者。不适合要 50 token/s 以上的生产场景，也不适合 4 GB 内存的旧机——会爆。底线：8 GB 内存 + 64 bit 系统，Windows/Linux 均可。

💡 你怎么用老电脑跑大模型？留言说说你的配置 👇

📎 参考: KDnuggets 原文

YU 脑