技术架构

4.1 原生多模态：统一理解文本、图像、音频、视频、代码

本页主题：**4.1 原生多模态：统一理解文本、图像、音频、视频、代码**。这篇内容会把相关信息按“先理解 → 再操作 →…

文档中心

导读

本页主题：4.1 原生多模态：统一理解文本、图像、音频、视频、代码。这篇内容会把相关信息按“先理解 → 再操作 → 最后排错/扩展”的顺序组织，帮助你用更短时间建立全局认知，再决定下一步怎么学、怎么用。

覆盖重点：关键机制、性能/质量权衡、多模态链路与工程落地视角。

你会得到什么

你将获得：结构化梳理 + 最小可行路径 + 排错清单
适合人群：希望按步骤落地、避免踩坑
阅读建议：先理解术语，再按流程操作
备注：链接与界面可能更新，以官方为准

快速开始（建议 3 分钟）

先浏览本页目录，找到与你目标最接近的小节
按步骤完成一次最小操作（例如：打开入口/创建 Key/跑通一次调用）
遇到问题先看“注意事项/常见问题”，再回到对应小节核对条件

4.1 原生多模态：统一理解文本、图像、音频、视频、代码

多模态联合训练：Gemini 在训练阶段就混合了文本、图像、音频、视频和代码数据，而不是后期拼接，这使其在跨模态推理上更自然。能力表现：在语音识别（ASR）和语音翻译（AST）任务上，Gemini Pro 在多数据集上显著优于 OpenAI Whisper 和 Google 自家的 USM。在多模态理解基准（如 MMMU-Pro、Video-MMMU）上，Gemini 3 系列达到业界领先水平。

四、技术架构：多模态、MoE 与长上下文

4.3 长上下文：从“几千 token”到“百万级”