第 13 篇:多模态与前沿
第 13 篇:多模态与前沿
一句话导读:这篇要讲透——多模态怎么"塞"进 Transformer(视觉 encoder + 投影层 + LLM 拼接的真实结构);早 / 中 / 晚融合的本质差异;扩散模型与自回归生成在数学目标上的根本分别;OpenAI o1 / DeepSeek-R1 这类"推理模型"靠什么 RL 训练范式产生的;世界模型 / AGI / Embodied AI 这些前沿名词到底意味着什么。读完你能从架构层面看明白多模态模型在做什么、前沿研究的脉络,而不只是看报告吹牛。
前置阅读:第 01 篇:大模型基础(Transformer / 注意力)
适合读者:要做多模态应用的工程师;想理解 o1 / R1 这类推理模型背后机制的人;关注 LLM 之外前沿方向的人。
篇幅说明:约 1.1 万字,重原理直觉,不拘泥具体公式。
一、多模态:把"非文本"塞进 LLM
1.1 核心问题:模态之间没有通用语言
文本 LLM 的世界很简单——输入输出都是 token 流。多模态要解决的根本问题:
图像 / 音频 / 视频和文本 token 不是同一种东西,怎么让 Transformer 处理它们?
主流答案:用专门的 encoder 把非文本转成"伪 token",再拼到文本 token 流里。所有现代多模态模型几乎都是这一路。
1.2 视觉 LLM 的典型架构
以 LLaVA / Qwen-VL / GPT-4V 这类视觉 LLM 为例:
图 1:视觉 LLM 的"三段式"架构
三个核心组件:
组件 1:视觉 Encoder
把图像转成特征向量。最常用:
- CLIP ViT(OpenAI):用 4 亿图文对训练的 ViT,特征空间天然和文本"对齐"
- SigLIP(Google):CLIP 的改进,用 sigmoid loss 替代 softmax,效果更好
- EVA-CLIP / DFN-CLIP 等改进版
为什么用 CLIP 类 Encoder:因为它在训练时已经学过把图像和文本特征对齐——LLaVA 接上 LLM 时不用从零学跨模态对齐。
组件 2:投影层(连接器)
把 ViT 输出的特征(比如 576×1024)投影到 LLM 的 embedding 维度(比如 4096)。两种主流做法:
- MLP(最简单):两层 MLP,简单粗暴,LLaVA 用这个
- Q-Former(BLIP-2 提出):用一组可学习的"query" 注意力压缩图像特征到固定数量 token
实证:训练数据足够时简单 MLP 就够,Q-Former 收益不明显。LLaVA 系列、Qwen-VL 用 MLP 系,BLIP-2 系用 Q-Former。
组件 3:LLM 主体
照常的文本 Transformer。接收图像伪 token + 文本 token 的拼接序列,注意力机制统一处理。
输入序列示意:
[图像伪token1][图像伪token2]...[图像伪tokenN][用户问题token1][用户问题token2]... → [回答]1.3 早 / 中 / 晚融合:本质差异
多模态融合按"模态什么时候相互看"划分:
| 类型 | 怎么融 | 特点 | 例子 |
|---|---|---|---|
| 晚融合(Late Fusion) | 各模态分别处理出特征向量,最后一层拼接做决策 | 简单、模态独立性强、效果有限 | 早期检索系统 |
| 中融合(Middle Fusion) | 共享 Transformer 处理"伪 token 化"后的多模态序列 | 目前主流,效果好 | LLaVA / Qwen-VL / GPT-4V |
| 早融合(Early Fusion) | 在原始输入层就把模态混合(统一 tokenizer) | 上限高、训练难、需大规模重新训练 | Gemini / 4o(部分原生多模态) |
为什么从晚融合到早融合是"上限提升"
- 晚融合:模态间只能浅层交互,复杂跨模态推理(比如"图里第二个红色物体右边那个是什么")难
- 中融合:注意力机制让每层都能跨模态交互,能力强很多
- 早融合:从最底层就是统一表示,理论上限最高——但需要从头训练一个原生多模态模型,成本巨大
GPT-4o、Gemini 1.5 这类"原生多模态"模型走的是早融合方向——它们能直接接受图像 / 音频 / 视频混合输入并直接输出多模态。
1.4 多模态训练的几个阶段
LLaVA 风格训练通常分两步:
阶段 1:预训练投影层(冻结其他)
- 数据:海量图文对
- 训练:仅投影层
- 目标:让 ViT 输出能"翻译"成 LLM 能理解的伪 token
- 不动 ViT 和 LLM——它们已经各自训练好
阶段 2:指令微调(端到端 SFT)
- 数据:图文指令对("看这张图,描述...")
- 训练:投影层 + LLM(ViT 仍冻结或小学习率微调)
- 目标:让模型学会"看图说话""看图回答问题""看图执行指令"
训练量级:阶段 1 几百万对,阶段 2 几十万到一百万指令对,比从头训练 LLM 便宜几个数量级。这就是为什么 LLaVA 风格能让小团队做出可用的多模态模型。
1.5 视觉 LLM 的能力边界
能做得好:
- 看图描述
- 看图问答(VQA)
- OCR + 文档理解
- 图表理解
- 看 UI 截图操作(GUI Agent 基础)
还困难:
- 精准计数(数图里有几个人)
- 精确空间位置(坐标级)
- 高分辨率细节(小字、远处物体)—— 部分模型用"切图"策略缓解
- 多帧时序推理(视频理解,依赖切帧 + 上下文长度)
高分辨率切图策略
原生 ViT 输入分辨率有限(CLIP 224×224 / SigLIP 384×384)。看高分辨率图片需要切图:
4K 图片 → 切成 16 个 ~448×448 sub-image
每个 sub-image 过 ViT → 各自得到一组伪 token
全部拼到序列里给 LLM代价:上下文 token 数线性增长。看一张 4K 图可能消耗几千 token。
主流模型的切图策略:
- LLaVA-1.5/Next:2×2 切图
- Qwen2-VL:动态分辨率(按图比例切)
- GPT-4V:详细模式 vs 低细节模式(控制切图数量)
二、其他模态:语音 / 视频 / 3D
2.1 语音
ASR(Automatic Speech Recognition,语音转文字)和 TTS(Text-to-Speech,文字转语音)传统是独立模型,现在正在和 LLM 融合:
2.1.1 语音输入
- Whisper(OpenAI):通用 ASR 模型,多语言强,开源
- GPT-4o / Gemini 原生语音:直接把音频 token 化输入 LLM,不需要先转文字
- 收益:保留语调 / 情绪 / 停顿信息
- 难点:音频 token 化方案(VQ-VAE / 离散编码)
2.1.2 语音输出
- 传统 TTS:Tacotron / FastSpeech / VITS
- 神经声码器:HiFi-GAN / WaveNet
- LLM 一体化:直接生成音频 token
2.1.3 实时语音对话
GPT-4o 的实时语音模式让端到端延迟降到 ~300ms(人类对话级)。技术关键:
- 端到端建模(不再 ASR → LLM → TTS 三段)
- 流式 token 化与生成
- 双工(同时听 + 说)支持打断
2.2 视频
视频理解 = 多帧图像 + 时序:
- 抽帧法(最常见):每秒抽 1~4 帧,每帧当图像处理;时序用 LLM 上下文承载
- 视频 Encoder:VideoMAE / TimeSformer 等专门处理时序
- 流式视频:实时处理直播流的研究还在早期
挑战:长视频上下文爆炸(1 小时视频抽帧 ≈ 几万 token)。长上下文 + 切片处理是实用路径。
2.3 3D / 点云 / 机器人
- 3D 视觉:Point-LLM、3D-LLaVA 等把点云作为输入
- Vision-Language-Action(VLA)模型:RT-1/RT-2/Open-X,把机器人动作也当 token 学
- 世界模型:从视觉输入预测未来帧(预测下一帧 = 机器人版"下一 token 预测")
详见后面"前沿"章节。
2.4 主流多模态模型一览
表 1:主流多模态模型(2025)
| 模型 | 模态 | 特色 | 开源 |
|---|---|---|---|
| GPT-4o / GPT-4V | 文 / 图 / 音 | 综合最强 | 否 |
| Gemini 1.5/2.0 | 文 / 图 / 音 / 视频 | 长上下文(1M+) | 否 |
| Claude 3.5/3.7 Sonnet | 文 / 图 | 视觉推理强 | 否 |
| Qwen2-VL / Qwen2.5-VL | 文 / 图 / 视频 | 国产开源最强 | 是 |
| LLaVA-Next | 文 / 图 | 学术开源主流 | 是 |
| InternVL 2/3 | 文 / 图 | 商汤系,性能强 | 是 |
| Pixtral | 文 / 图 | Mistral 多模态 | 是 |
| Whisper(v3) | 语音 → 文 | ASR 业界标杆 | 是 |
| SAM 2 | 图 / 视频分割 | 视觉基础模型 | 是 |
三、生成模型:扩散 vs 自回归的根本差异
文本 LLM 是自回归(AR)——一个 token 一个 token 生成。但图像 / 视频生成主流是扩散模型(Diffusion)。两者数学目标不同。
3.1 自回归生成(AR)
P(x_1, x_2, ..., x_n) = ∏ P(x_i | x_<i)逐个生成,每个新 token 依赖之前所有 token。适合离散序列(文本、代码)。
3.2 扩散生成
3.2.1 直觉
正向:清晰图像 →[加噪声]→ 越来越糊 →[加噪]→ 完全噪声
反向:完全噪声 →[去噪]→ 模糊 →[去噪]→ 清晰图像训练目标:让模型学会**"给定一个糊掉的图,预测原图(或噪声)"**。
生成时:从纯随机噪声出发,反复迭代去噪 N 步(典型 20~100 步),最终得到一张图。
3.2.2 为什么图像生成扩散模型胜出
- 图像是连续值,每个像素 0~255 的浮点——扩散模型天然处理连续空间
- 全局结构 vs 局部细节——扩散每步都看整张图,不会像自回归那样"前面错后面跟着错"
- 质量上限更高(FID 等指标长期 SOTA)
3.2.3 主流扩散架构
- DDPM → Stable Diffusion (Latent Diffusion) → SDXL / SD3 → Flux
- DiT(Diffusion Transformer):用 Transformer 替代 U-Net 当骨干(Sora、SD3、Flux 都用)
- Latent Diffusion:先把图压到 latent 空间(VAE)再扩散,省算力
3.3 视频生成
视频 = 图像 + 时序,主流也是扩散:
- Sora(OpenAI):DiT 骨干,把视频切成 spacetime patches 当 token,扩散去噪
- 可灵(快手)/ Runway Gen-3 / Pika / Luma / Kling:商业产品
- Wan / HunyuanVideo / 混元:国产开源
世界模型方向:把视频生成看作"对物理世界的模拟"——给定开头几秒,预测后续。这是通向 AGI / 机器人的潜在路径。
3.4 自回归图像生成的回归
最近(2024-2025)自回归图像生成又被关注:
- Parti / Chameleon(Meta)/ 4o 原生图像:把图像 token 化(VQ-VAE),用自回归生成
- LlamaGen / Emu3:开源版本
收益:和文本统一架构——同一个 Transformer 既生成文本又生成图像。
代价:速度慢(自回归一个 token 一个 token),质量目前不如顶级扩散模型。
长期方向:早期融合 + 自回归图像生成统一架构是大势所趋;扩散模型在专门领域仍有优势。
四、推理模型:o1 / R1 范式
2024-2025 一个重要新方向:推理模型(Reasoning Models)——OpenAI o1、DeepSeek-R1、Qwen QwQ 等。
4.1 它和普通 Chat 模型有啥区别
普通 Chat 模型:
用户问 → 模型立刻回答推理模型:
用户问 → 模型先内部"思考"(生成大量推理 token)→ 给出最终答案效果上:在数学(AIME)、编程(Codeforces)、科学(GPQA)等需要严谨推理的任务上显著优于同尺寸普通模型。
4.2 关键技术:RL 训练 + 长 CoT
4.2.1 训练范式(DeepSeek-R1 论文揭示的核心)
传统 SFT + DPO:教模型"模仿好答案"。
o1 / R1 风格:用 RL 让模型自己摸索"怎么推理"。
简化流程:
1. 给一批可验证答案的题(数学题/代码题)
2. 模型生成完整 CoT + 最终答案
3. 用规则验证答案对错(数学:答案 == 标答;代码:单元测试通过)
4. 答对的样本 reward 高,答错低
5. 用 GRPO(DeepSeek 提出,类似 PPO 简化版)更新模型
6. 重复关键点:没有 reward model,用确定性规则给 reward——避免 reward hacking。
训练过程中模型的 CoT 长度会自发增长——从几百 token 涨到几千上万 token,且会出现"反思"、"验证"、"换思路"等行为。这不是被人工标注教的,是 RL 自己学出来的。
4.2.2 为什么 RL + 可验证 reward 这么有效
- 数学 / 代码题有客观对错——reward 信号干净
- 模型尝试不同 CoT 路径,对的路径被强化
- 长 CoT 给了模型"思考空间"——比一步出答案有更多机会改正
4.2.3 R1-Zero 的特殊价值
DeepSeek-R1-Zero 直接从 base 模型纯 RL 训练(没经过 SFT),证明了:
- 不需要 CoT 数据标注——RL 能让模型自己学会推理
- 基础能力 + 验证机制 = 推理能力涌现
但 R1-Zero 输出可读性差(语言混乱、跳步),实用版本(R1)在 RL 之外加了少量 SFT 修语言。
4.3 推理模型的代价和适用
代价:
- 推理时延极长(一次回答可能 10s~5min)
- token 成本高(思考 token 都要算钱)
- 不适合所有任务——闲聊、客服等不需要深度推理的场景反而拖累体验
适用:
- 数学 / 科学问题
- 编程难题
- 复杂规划(多步骤策略)
- 严谨论证 / 法律 / 学术
4.4 工程上怎么用
OpenAI 把 o1 系列定位为"难题专家",常见实践:
- 路由:简单问题走 GPT-4o,难题路由到 o1
- Agent 中作为"规划器":复杂规划用 o1,工具调用用 GPT-4o
- 隐藏思考过程:UI 上只展示最终答案(OpenAI 默认隐藏 CoT)
- 预算控制:限制最大思考 token 数
五、Agent 与 Embodied AI:从聊天到行动
5.1 GUI Agent / Computer Use
让模型直接操作电脑界面(看屏幕截图 + 控制鼠标键盘):
- Anthropic Computer Use(2024.10):Claude 3.5 看屏幕 + 操作
- OpenAI Operator(2025):浏览器内 agent
- Browser Use / AutoGLM / CogAgent 等开源方向
技术关键:
- 视觉 LLM 看 UI 截图理解界面
- 输出鼠标点击坐标 / 键盘输入
- 多步骤循环(每步看屏幕、做动作、再看反馈)
挑战:
- 精确坐标(高分辨率屏 + 视觉模型分辨率限制)
- 复杂操作(拖拽、双击、键盘组合)
- 错误恢复(误点了怎么办)
- 安全(避免 Indirect Injection 通过网页诱导误操作——详见第 12 篇)
5.2 机器人 / Embodied AI
把 LLM / VLM 能力延伸到物理世界:
- VLA 模型(Vision-Language-Action):Google RT-2、Open-X、Figure 01/02 等
- 输入:相机图像 + 自然语言指令
- 输出:机械臂 / 移动底盘的动作 token
5.3 世界模型 / Embodied 路径
"世界模型"是 LeCun、OpenAI 等人提的方向:
AGI 需要一个能"模拟物理世界"的内部模型——给定当前状态和动作,预测下一状态。
流派:
- 生成式世界模型:Sora 类视频生成模型当作世界模拟器
- JEPA(LeCun):联合嵌入预测架构,不在像素空间预测,在 latent 空间预测
- DreamerV3:模型基础的强化学习
进展和争议:
- 视频生成模型的"物理一致性"还远不够(手指错位、物体穿透等)
- 仍是研究方向,距离生产应用有距离
六、其他前沿方向
6.1 混合专家(MoE)
详见第 01 篇。MoE 已经成为主流大模型的常见架构(DeepSeek-V3、Mixtral、Qwen2.5-MoE、GPT-4 传闻):
- 同等"激活参数"成本,参数总量更大
- 推理时只激活部分 expert
- 训练与负载均衡技巧成熟(auxiliary loss-free 等新方法)
6.2 Mamba / State Space Models(SSM)
挑战 Transformer 的方向:
- Mamba / Mamba 2:选择性状态空间模型,训练 O(n)、推理 O(1) 状态
- 优势:线性复杂度,长序列优势
- 现状:在中等规模下能匹敌 Transformer,超大规模下不如 Transformer
- 混合架构:Jamba(Mamba + Transformer)等是实用折中
6.3 长上下文 / 无限上下文
技术演化:
- 2023:4K 主流
- 2024:128K~1M(Gemini 1.5 Pro 1M / 2M)
- 2025:原生 10M+ 上下文出现
技术:
- 位置编码扩展(RoPE 系列、YaRN)
- 稀疏注意力(Sliding Window、Strided)
- 分层 / 检索增强(用 RAG 模拟无限上下文)
但长上下文不等于长上下文用得好——典型 NIAH(Needle in a Haystack)测试中,长上下文模型在中段位置经常"遗忘"细节。生产用法仍需 RAG 配合。
6.4 模型小型化与本地化
- 小语言模型(SLM):Phi-3.5(Microsoft)、Qwen2.5-3B、Llama 3.2-1B/3B
- 端侧推理:手机 NPU / Apple Silicon 直跑 7B 模型
- 应用:隐私敏感场景、离线、超低延迟
6.5 Test-Time Compute Scaling
新 Scaling Law:推理时多花算力也能提升效果——不只是训练时 scaling。
具体方法:
- 多次采样投票(self-consistency)
- 思维树搜索(ToT)
- 推理模型的长 CoT
- Best-of-N 采样
意义:模型大小不再是唯一变量——同一个模型,多花推理算力可以达到更好效果。
6.6 自我改进与递归迭代
- Self-Reward 训练:模型自己给自己当 reward model
- Self-Play:模型对抗自身生成更难数据
- 持续自学习:在线增量学习
这些方向把"训练 - 推理"的边界打破,是通往更通用 AI 的潜在路径。
6.7 AGI / 通用人工智能
行业大致共识:
- 当前不是 AGI——LLM 在某些任务超人类,在某些任务不如儿童
- 路径不清楚——纯 scaling、推理模型、世界模型、Embodied 哪条对,没定论
- 时间表分歧大——从"几年内"到"几十年"都有专家持有
工程角度:别等 AGI,就用现有模型把业务做好。AGI 真到了,再调整也来得及。
七、踩坑提醒
坑 1:直接给视觉 LLM 4K 图当输入,token 爆炸
- 现象:调 GPT-4V 看一张高分辨率截图,单次请求消耗几千 token,成本和延迟都炸。
- 原因:高分辨率切图策略默认开,token 数线性涨。
- 规避方法:图像预处理(压缩 / 裁剪到必要区域);用"低细节"模式(GPT-4V 的
detail: low)做粗判,需要细节再上 high;OCR + 文本传递替代直接看图(数据 / 表格类)。
坑 2:视频用整段交给 LLM
- 现象:一段 30 分钟视频按 4 fps 抽帧后塞进 LLM 上下文,单次请求 10w+ token。
- 原因:没做合理的关键帧 / 切片处理。
- 规避方法:先做关键帧检测(场景切换 / 内容变化);分段总结再合并;用专门的视频理解模型(Qwen2-VL / Gemini)而非通用 LLM。
坑 3:用推理模型做闲聊场景
- 现象:客服系统接了 o1,用户问"你好"也要等 30 秒。
- 原因:推理模型不分任务难度都"深度思考"。
- 规避方法:路由层先分类——简单 → GPT-4o-mini;难题 → o1;用 system prompt "只对复杂问题深度思考" 部分有效但不可靠;预算上限。
坑 4:自训多模态模型只训投影层就上线
- 现象:训了 LLaVA 阶段 1 投影层就上,发现效果远不如 SFT 后版本。
- 原因:投影层预训练只是让 ViT 和 LLM"能对话",没学具体任务能力,必须阶段 2 指令微调。
- 规避方法:完整两阶段训练;指令数据要覆盖业务场景;评测分项查(描述 / 问答 / OCR / 推理各自打分)。
坑 5:扩散模型生成图含 NSFW 上线被举报
- 现象:用 SDXL 部署给用户用,没装内容过滤,生成违规内容。
- 原因:开源扩散模型默认无内容过滤;用户 prompt 可能引导生成 NSFW。
- 规避方法:必装 SafeDiffusion-style 过滤器;输入 prompt 审核 + 输出图像审核(NSFW 分类器);国内服务必接合规审核(详见第 12 篇)。
坑 6:Computer Use Agent 真的把电脑搞坏了
- 现象:让 Computer Use Agent 帮忙清理桌面,它把重要文件删了;或被网页 Indirect Injection 引到下载恶意程序。
- 原因:Agent 直接操作真实环境,没有沙箱隔离。
- 规避方法:跑在虚拟机 / 容器里;危险操作(删除 / 下载 / 提交表单)HITL;URL 白名单;详见第 12 篇 Agent 安全。
坑 7:长上下文模型实际"中段失忆"
- 现象:1M 上下文模型在文档中段的信息常常被遗忘。
- 原因:长上下文位置编码外推效果不均匀,中段注意力弱。
- 规避方法:重要信息放头尾(U 型分布优于中段);超长文档仍用 RAG 切片检索;NIAH 测试自家场景的真实表现。
八、选型建议与实践要点
8.1 多模态选型决策
图 2:多模态 / 前沿选型
8.2 关注前沿但别盲从
每年都有新模型 / 新方法,但生产级应用要稳健。建议:
- Benchmark 之外做自家场景测试——前沿模型在通用 bench 强,业务上不一定
- 量化收益和代价——推理模型贵 5~10 倍 token,值不值得场景看
- 保持架构灵活——模型抽象层 + 网关让你随时切换(详见第 08 篇)
- 关注开源跟进——开源社区追赶速度极快(往往新闭源能力 6~12 个月内被开源跟上)
九、延伸阅读
- 系列内:
- 第 01 篇:大模型基础(Transformer / MoE)
- 第 06-07 篇:Agent(GUI Agent / Computer Use)
- 第 12 篇:安全与合规(多模态注入 / NSFW)
- 外部参考(注明发表时间):
- 论文《Visual Instruction Tuning (LLaVA)》(Liu et al., 2023)
- 论文《CLIP: Learning Transferable Visual Models》(Radford et al., 2021)
- 论文《SigLIP: Sigmoid Loss for Language-Image Pre-training》(Zhai et al., 2023)
- 论文《Denoising Diffusion Probabilistic Models》(Ho et al., 2020)
- 论文《Sora: Video generation models as world simulators》(OpenAI 技术报告,2024)
- 论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》(DeepSeek-AI, 2025)
- 论文《OpenAI o1 System Card》(OpenAI, 2024)
- 论文《Mamba: Linear-Time Sequence Modeling》(Gu et al., 2023)
- LeCun 关于 World Models / JEPA 的演讲与论文系列
附:本篇覆盖的知识点清单
来自原清单第 14 章 + 部分前沿章节: