1.2 LLM 原理 | AI Learning Path

1.2 大语言模型（LLM）原理

预训练（Pre-training）： 在海量文本上做"下一个词预测"。

微调（Fine-tuning）方法对比：

关键概念：

上下文窗口： GPT-4o 128K，Claude 3.5 200K，Gemini 2.0 1M，DeepSeek V3 128K，Qwen 2.5 128K
Temperature： Agent 场景通常用 0-0.3
涌现能力（Emergent Abilities）： 模型规模达到临界点后突然出现的能力（如 CoT 推理）