一句话总结:纯推理优先看显存与 INT8/AWQ 支持;微调需更大显存与 NVLink。信创场景选昇腾/海光,通用场景 NVIDIA A100/H800 仍是主流。
推理 vs 微调
| 场景 | 显存需求 | 说明 |
|---|---|---|
| 7B 推理 | 16–24 GB | 消费级可起步 |
| 70B AWQ 推理 | 40–80 GB | 需 A100 级 |
| 7B 全参微调 | 40 GB+ | LoRA 可降低 |
| 70B LoRA | 多卡 80G | 需专业集群 |
主流硬件对比
| 硬件 | 适用 | 备注 |
|---|---|---|
| RTX 4090 | POC、7B 推理 | 性价比 high,无 NVLink |
| A100 80G | 生产推理/微调 | 生态成熟 |
| H800/H100 | 高并发、大模型 | 供应与合规需评估 |
| 昇腾 910 | 信创全栈 | 需适配 CANN 框架 |
采购建议
- 先 POC 后扩容:2–4 周验证再批采购
- 留 30% 显存余量:防峰值 OOM
- 考虑 3 年 TCO:含电费、机房、运维人力
泽衍科技服务
提供硬件选型咨询、压测报告与 vLLM/Ollama 部署调优,避免「买错卡、跑不满」。