Skip to content

[日期] 预计学习时间:20-25 小时

9.1 推理框架

框架特点大厂使用
vLLMPagedAttention,吞吐量最高[OK] 生产部署首选
SGLangRadixAttention,更快的推理[热门] 2025 新星
TGIHuggingFace 出品[OK]
LMDeploy商汤出品,国产优化[OK]
Ollama一键部署开发测试
llama.cppCPU/GPU 混合,量化友好边缘设备

9.2 量化(Quantization)

方法显存节省效果损失大厂使用
GPTQ50%[OK]
AWQ50%更小[OK]
GGUF50-75%本地部署
INT4/INT850-75%[OK]

学习资料清单

GitHub:

课程: