模型演进

3.2 Gemini 1.5：MoE + 超长上下文

本页主题：**3.2 Gemini 1.5：MoE + 超长上下文**。这篇内容会把相关信息按“先理解 → 再操作 →…

文档中心

导读

本页主题：3.2 Gemini 1.5：MoE + 超长上下文。这篇内容会把相关信息按“先理解 → 再操作 → 最后排错/扩展”的顺序组织，把复杂信息拆成可执行的步骤，避免“看完很多却不知道从哪下手”。

覆盖重点：版本差异、能力边界、适用场景与选型建议（结合上下文窗口与成本）。

你会得到什么

你将获得：核心概念图谱 + 关键入口 + 可执行步骤
适合人群：新手快速上手 / 已用过但想系统化
阅读建议：先看“导读/要点”，再按小节逐个核对
备注：以官方页面与产品实际可用性为准

快速开始（建议 3 分钟）

先浏览本页目录，找到与你目标最接近的小节
按步骤完成一次最小操作（例如：打开入口/创建 Key/跑通一次调用）
遇到问题先看“注意事项/常见问题”，再回到对应小节核对条件

3.2 Gemini 1.5：MoE + 超长上下文

发布与定位：2024 年 3 月，Google 发布 Gemini 1.5 论文，强调“解锁百万级 token 上下文的多模态理解”。架构创新：采用稀疏 Mixture-of-Experts (MoE) Transformer，在总参数增加的同时，只激活一小部分专家，从而提升计算效率。支持高达 100 万 token 的上下文窗口，可在一次调用中处理长文档、整段视频、大型代码库等。能力亮点：在长文档 QA、长视频 QA、长上下文语音识别等任务上，接近或超过 Gemini 1.0 Ultra 的性能，但训练算力更省。支持“混合模态输入”：在一个提示中同时塞入文本、图像、音频、视频和代码，由模型统一理解与推理。

3.1 Gemini 1.0：原生多模态的开端

3.3 Gemini 2.x：走向“智能体时代”