1.1 Transformer 架构 + 1.4 开源vs闭源选型

[日期] 预计学习时间：30-40 小时

1.1 Transformer 架构

Transformer 是现代大语言模型的基础架构，2017 年由 Google 在论文《Attention Is All You Need》中提出。你不需要从头推导数学公式，但需要理解以下核心概念：

自注意力机制（Self-Attention）： 模型在处理一个词时，会"关注"输入序列中的其他词，计算它们之间的相关性。

核心组件：

编码器 vs 解码器架构对比：

架构	代表模型	适用任务	大厂考察重点
Encoder-only	BERT	分类、NER、相似度	理解原理即可
Decoder-only	GPT、DeepSeek、Qwen	生成、对话、Agent	重点掌握
Encoder-Decoder	T5、BART	翻译、摘要	了解即可

建议： 开发阶段用闭源 API，面试准备了解国产模型生态，生产部署评估开源模型。

视频课程：

3Blue1Brown《But what is a GPT?》系列（B站有中文字幕）：https://www.youtube.com/watch?v=wjZofJX0v4M
Andrej Karpathy《Let's build GPT: from scratch》（YouTube，B站有搬运）：https://www.youtube.com/watch?v=kCc8FmEb1nY
李沐《Transformer 论文逐行精读》（B站有中文字幕）：https://www.bilibili.com/video/BV1pu411o7BE

论文：

"Attention Is All You Need"（Transformer 原始论文）：https://arxiv.org/abs/1706.03762
"The Illustrated Transformer" by Jay Alammar（图解版）：https://jalammar.github.io/illustrated-transformer/

GitHub：

karpathy/nanoGPT — 最小化 GPT 训练代码：https://github.com/karpathy/nanoGPT
deepseek-ai/DeepSeek-V3 — DeepSeek 官方仓库：https://github.com/deepseek-ai/DeepSeek-V3
QwenLM/Qwen2.5 — 通义千问官方仓库：https://github.com/QwenLM/Qwen2.5

书籍：