為什麼要測試小模型?
不是每個人都有 RTX 4090,也不是每個人都想一直付 API 費用。
小模型的好處很明顯:
- 完全免費,離線可用
- 數據不外傳,隱私安全
- 低階顯卡也能跑
但問題是:小模型的中文能力到底行不行?
網路上說法不一,我決定自己測一輪。
測試環境
| 項目 | 規格 |
|---|---|
| GPU | NVIDIA MX350 (2GB VRAM) |
| 框架 | Ollama |
| 系統 | Windows 11 |
沒錯,就是用這張入門級顯卡。如果這上面能跑得動,大部分筆電都可以。
測試方法
測試問題
台灣最高的山是什麼?它有多高?請簡短回答。
為什麼選這題?
- 有標準答案:玉山,海拔 3,952 公尺
- 測試中文理解:問題是繁體中文
- 測試知識儲備:需要基本地理知識
- 測試精確度:高度不能亂猜
- 測試地區認知:會不會搞混台灣和中國大陸
測試結果
排名總覽
| 排名 | 模型 | 大小 | 山名 | 高度 | 評分 |
|---|---|---|---|---|---|
| 1 | Qwen2.5 1.5B | 986 MB | 玉山 | 3,952m | 完美 |
| 2 | Gemma2 2B | 1.6 GB | 玉山 | 3,952m | 完美 |
| 3 | Phi4-mini | 2.5 GB | 玉山 | 3,958m | 很好 |
| 4 | Llama 3.2 3B | 2.0 GB | 玉山 | 3,952m | 很好 |
| 5 | Gemma3 1B | 815 MB | 玉山 | 1,963m | 普通 |
| 6 | Qwen3 1.7B | 1.4 GB | 玉山 | 3,497m | 普通 |
| 7 | Qwen3 0.6B | 522 MB | 雪山 | 2,500m | 差 |
| 8 | Llama 3.2 1B | 1.3 GB | 太魯閣 | 4,776m | 差 |
| 9 | Phi3 Mini | 2.2 GB | 玉林山 | 390m | 很差 |
| 10 | DeepSeek-R1 1.5B | 1.1 GB | 珠穆朗瑪峰 | 8,858m | 很差 |
| 11 | SmolLM2 135m | 270 MB | 答非所問 | - | 很差 |
詳細觀察
冠軍:Qwen2.5 1.5B
回答:玉山,3952米
這是最讓我意外的結果。不到 1GB 的模型,打敗了一堆 2GB+ 的對手。
阿里巴巴的 Qwen 系列確實針對中文做了優化,效果很明顯。
ollama pull qwen2.5:1.5b
亞軍:Gemma2 2B
回答:玉山,3,952公尺
Google 出品,表現穩定。如果不想用中國大陸模型,這是最好的替代方案。
令人失望:Qwen3 系列
Qwen3 1.7B 回答:玉山,3,497m(誤差 455m)
這是我最意外的發現。Qwen3 是 2025 年的新模型,結果反而比 Qwen2.5 退步了。
新版本不一定更好,這個教訓很深刻。
嚴重翻車:DeepSeek-R1 1.5B
回答:珠穆朗瑪峰,8,858m
直接把「台灣」理解成「中國大陸」了?珠穆朗瑪峰在西藏/尼泊爾邊界,跟台灣完全沒關係。
幻覺問題:Phi3 Mini
回答:玉林山,390m
「玉林山」這座山根本不存在。這是典型的 AI 幻覺,小模型更容易出現這種問題。
五個重要發現
1. 體積不是關鍵
986MB 的 Qwen2.5 打敗了 2.5GB 的 Phi4-mini。參數量不等於能力。
2. 新版本可能退步
Qwen3 比 Qwen2.5 差,Gemma3 比 Gemma2 差。別盲目追新。
3. 500MB 是底線
低於 500MB 的模型(SmolLM2 135m、Qwen3 0.6B),中文能力嚴重不足。
4. 專注訓練很重要
Qwen 系列專為中文優化,整體表現最好。Llama 系列偏弱。
5. 幻覺問題依然存在
小模型更容易胡說八道,使用時要多驗證。
安裝方式
# 安裝 Ollama
winget install Ollama.Ollama # Windows
brew install ollama # macOS
# 下載推薦模型
ollama pull qwen2.5:1.5b # 首選
ollama pull gemma2:2b # 備選
# 測試
ollama run qwen2.5:1.5b "台灣最高的山是什麼?"
結論
推薦清單
| 需求 | 推薦模型 | 理由 |
|---|---|---|
| 中文任務 | Qwen2.5 1.5B | 冠軍,無懸念 |
| 不用中國大陸模型 | Gemma2 2B | Google 出品 |
| VRAM 有限 | Qwen2.5 1.5B | 僅需 986MB |
避雷清單
| 模型 | 問題 |
|---|---|
| DeepSeek-R1 1.5B | 地理認知錯誤 |
| SmolLM2 系列 | 中文能力太弱 |
| Phi3 Mini | 嚴重幻覺 |
最終建議
就用 Qwen2.5 1.5B。體積小、速度快、中文強,沒有更好的選擇了。
測試結果基於單一問題,僅供參考。實際表現可能因任務不同而有差異。