Skip to content

[日期] 预计学习时间:15-20 小时

8.1 视觉理解

现代 LLM 都支持图像输入。Agent 可以"看"截图、文档、UI 界面。

8.2 音频与语音

8.3 实时语音 Agent

[!] 腾讯混元特别关注多模态,招聘"Hunyuan Multimodal Algorithm Researcher"

学习资料清单