Skip to content

[日期] 预计学习时间:30-40 小时

1.1 Transformer 架构

Transformer 是现代大语言模型的基础架构,2017 年由 Google 在论文《Attention Is All You Need》中提出。你不需要从头推导数学公式,但需要理解以下核心概念:

自注意力机制(Self-Attention): 模型在处理一个词时,会"关注"输入序列中的其他词,计算它们之间的相关性。

核心组件:

  • Tokenization(分词): BPE 是主流方法,GPT 系列使用 tiktoken 库。中文字符约 1-3 个 token
  • Embedding(词嵌入): 将 token 转换为高维向量(如 4096 维)
  • 多头注意力(Multi-Head Attention): 同时从多个"视角"关注输入
  • 位置编码(Positional Encoding): 告诉模型词的位置信息
  • FFN(前馈网络): 每一层中的全连接网络

编码器 vs 解码器架构对比:

Transformer三大架构分支
架构代表模型适用任务大厂考察重点
Encoder-onlyBERT分类、NER、相似度理解原理即可
Decoder-onlyGPT、DeepSeek、Qwen生成、对话、Agent重点掌握
Encoder-DecoderT5、BART翻译、摘要了解即可

1.4 开源 vs 闭源模型选型

维度闭源 API开源自部署
成本按量付费,初期低GPU 硬件成本高
延迟网络依赖可控
数据安全数据出域数据不出域
定制化有限完全可控
大厂偏好原型开发、快速验证生产部署、成本敏感

建议: 开发阶段用闭源 API,面试准备了解国产模型生态,生产部署评估开源模型。

学习资料清单

视频课程:

论文:

GitHub:

书籍:

  • 《动手学深度学习》(李沐):https://zh.d2l.ai — 在线免费,中文版,PyTorch 代码配套
  • 《Build a Large Language Model (From Scratch)》by Sebastian Raschka