一句话总结:vLLM 通过 PagedAttention 与连续批处理,是企业私有化 LLM 推理的主流选择。7B 模型单卡可跑,70B 需多卡张量并行 + 负载均衡。
为什么选择 vLLM?
- 吞吐高于原生 HuggingFace 推理 2–4 倍
- 支持 OpenAI 兼容 API,业务层无缝切换
- 活跃社区,DeepSeek/Qwen/Llama 均有成熟配置
硬件参考
| 模型规模 | 量化 | 推荐配置 |
|---|---|---|
| 7B | FP16 / INT8 | 1× RTX 4090 / A10 |
| 14B–32B | AWQ / GPTQ | 1–2× A100 80G |
| 70B+ | AWQ 4bit | 2–4× A100/H800 TP |
部署 checklist
- 模型权重与 license 合规
-
--max-model-len与业务上下文匹配 - 限流与并发控制(防 OOM)
- 健康检查 + 多实例 + 反向代理
- 日志脱敏(请求不含明文敏感字段)
性能调优
- 调整
max_num_seqs平衡吞吐与延迟 - 启用 prefix caching(多轮对话场景)
- 压测目标:P95 延迟 < 3s(7B)、QPS 满足业务峰值