模型演进

3.1 Gemini 1.0：原生多模态的开端

本页主题：**3.1 Gemini 1.0：原生多模态的开端**。这篇内容会把相关信息按“先理解 → 再操作 →…

文档中心

导读

本页主题：3.1 Gemini 1.0：原生多模态的开端。这篇内容会把相关信息按“先理解 → 再操作 → 最后排错/扩展”的顺序组织，把关键概念、入口与注意事项放在同一页里，方便你快速查阅与回看。

覆盖重点：版本差异、能力边界、适用场景与选型建议（结合上下文窗口与成本）。

你会得到什么

你将获得：核心概念图谱 + 关键入口 + 可执行步骤
适合人群：新手快速上手 / 已用过但想系统化
阅读建议：先看“导读/要点”，再按小节逐个核对
备注：以官方页面与产品实际可用性为准

快速开始（建议 3 分钟）

先浏览本页目录，找到与你目标最接近的小节
按步骤完成一次最小操作（例如：打开入口/创建 Key/跑通一次调用）
遇到问题先看“注意事项/常见问题”，再回到对应小节核对条件

3.1 Gemini 1.0：原生多模态的开端

发布背景：2023 年 12 月，Google 正式发布 Gemini 1.0，被定位为“我们最大、能力最强的 AI 模型”。核心特征：原生多模态：从模型结构上就是多模态设计，而不是“先文本模型再外挂视觉/音频模块”。可同时处理文本、图像、音频、视频和代码。多尺寸版本：包括 Nano（端侧）、Pro（通用）、Ultra（旗舰），分别面向设备本地、云端服务和最复杂任务。技术意义： Gemini 1.0 标志着 Google 从“单模态大模型 + 多模态外挂”转向统一多模态架构，为后续长上下文和智能体能力打下基础。

三、模型演进：从 1.0 到 3.x 的“三步走”

3.2 Gemini 1.5：MoE + 超长上下文