技术架构

4.1 原生多模态:统一理解文本、图像、音频、视频、代码

本页主题:**4.1 原生多模态:统一理解文本、图像、音频、视频、代码**。这篇内容会把相关信息按“先理解 → 再操作 →…

文档中心

导读

本页主题:4.1 原生多模态:统一理解文本、图像、音频、视频、代码。这篇内容会把相关信息按“先理解 → 再操作 → 最后排错/扩展”的顺序组织,帮助你用更短时间建立全局认知,再决定下一步怎么学、怎么用。

覆盖重点:关键机制、性能/质量权衡、多模态链路与工程落地视角。

你会得到什么

  • 你将获得:结构化梳理 + 最小可行路径 + 排错清单
  • 适合人群:希望按步骤落地、避免踩坑
  • 阅读建议:先理解术语,再按流程操作
  • 备注:链接与界面可能更新,以官方为准

快速开始(建议 3 分钟)

  • 先浏览本页目录,找到与你目标最接近的小节
  • 按步骤完成一次最小操作(例如:打开入口/创建 Key/跑通一次调用)
  • 遇到问题先看“注意事项/常见问题”,再回到对应小节核对条件

4.1 原生多模态:统一理解文本、图像、音频、视频、代码

多模态联合训练:Gemini 在训练阶段就混合了文本、图像、音频、视频和代码数据,而不是后期拼接,这使其在跨模态推理上更自然。 能力表现: 在语音识别(ASR)和语音翻译(AST)任务上,Gemini Pro 在多数据集上显著优于 OpenAI Whisper 和 Google 自家的 USM。 在多模态理解基准(如 MMMU-Pro、Video-MMMU)上,Gemini 3 系列达到业界领先水平。