版本介绍:
- gemini-3-pro-image-preview(按量计费模式)
- gemini-3-pro-image-preview-bs(按次计费模式,推荐)
您可以访问 JuheNext 的 AI Studio >> 模块,快速使用此模型。
Nano Banana Pro 被定位为 Nano Banana(Gemini 2.5 Flash Image)的后继版本,在原有图像编辑基础上,更强调理解、推理以及对现实世界知识的利用。此前的 Nano Banana 已能完成诸如老照片修复、创作迷你人偶等任务;而 Nano Banana Pro 旨在应对更复杂的可视化需求、更丰富的画面组合,并在最终效果上提供更细致的可控性。
基于 Gemini 3 Pro,立足于真实世界的知识
Nano Banana Pro 构建在 Gemini 3 Pro 之上,目标是将 Gemini 的推理能力和知识能力引入图像生成与编辑。根据介绍,这使模型能够
- 以更细致的方式解读用户指令。
- 将事实性和实时信息融入图像中。
- 制作不仅美观,而且与用户内容或现实世界事实相符的视觉效果。
该模型可以连接到谷歌搜索,以便生成的图像能够反映当前信息,例如:
- 用于静态天气信息图的实时天气数据。
- 最新的体育或其他直播信息。
- 食谱详情,以分步骤指南的形式呈现。
实际上,这使得 Nano Banana Pro 适合将文本或数据转化为视觉说明,而不仅仅是生成纯装饰性的图像。
可视化想法、概念和信息
Nano Banana Pro 被定位为一个通用的工具,用于可视化想法和设计。它可以用于生成以下类型的图像:
- 早期原型和产品概念。
- 数据可视化和信息图表。
- 从文本或手写笔记中提取的图表。
给定一个主题或一段内容,模型可以创建“富有上下文”的图表和信息图。描述中的示例包括:
- 一张关于室内植物的信息图,重点介绍其起源、护理要点和生长模式。
- 制作豆蔻茶(elaichi chai)的逐步视觉指南,展示了该模型如何将真实世界的食谱转化为结构化的视觉说明。
- 一幅波普艺术风格的天气信息图,通过谷歌搜索将图像与实时天气数据相结合生成。
这些场景展示了该模型预期具备的能力,即结合:
- 内容理解(文本或数据的主题),
- 事实依据(基于当前或一般知识的信息),
- 以及单张图片中的视觉设计(布局、图标和构图)。
图片内的文字:清晰、富有表现力且支持多语言
Nano Banana Pro 的核心重点是直接在图像中呈现文本。产品描述将其定位为该系列中最适合生成以下内容的最佳型号:
- 正确渲染的文本(例如,更少的拼写错误或断裂的字母)。
- 清晰易读的文本,包括较长的段落,而不仅仅是简短的标签。
- 使用 Gemini 的多语言推理处理多种语言的文本。
这旨在对以下对象有用:
- 海报、模型、分镜头脚本以及其他依赖清晰排版的布局。
- 结合插图和文案的视觉内容,例如活动概念或书籍封面。
- 需要多种语言或本地化变体的设计。
这些示例突出了其文本功能的几个方面:
- 分镜脚本:生成一个黑白分镜脚本,包含多个画面(远景、中景、特写、视角镜头),展示模型能够按顺序组织文本和视觉节奏。
- 综合排版:将单词“BERLIN”融入街道两旁建筑的立面,同时保持建筑物作为房屋的可识别性,并使字母形态保持低调。
- 富有表现力的字母设计:创建极简主义的文字标志,使每个单词的形状在视觉上反映其含义(例如,拟声词如“crash”或“roar”),并使用不同的纹理和字体风格。
- 设计中的翻译:将一组带有英文文字的饮料罐上的所有英文内容翻译成韩文,同时保持图像中的其他部分不变。
- 复古图形设计:设计一个“TYPOGRAPHY”图形,采用加粗、紧凑的字母,叠加明亮的蓝色和粉色层次,配以半色调点状图案和复古印刷美学。
- 作为素材的文本:用木头碎片组成单词,在砍木头的场景中呈现绕口令“如果土拨鼠能扔木头,土拨鼠会扔多少木头”。
综合来看,这些例子表明 Nano Banana Pro 不仅被设计用来“书写”图像中的文字,还能:
- 处理更长且更密集的文本段落。
- 支持多种视觉风格(矢量、纹理、书法)
- 以创意方式将文本与纹理、材质和场景结合起来。
- 支持多语言输出及图像内的翻译。
高保真多图像合成与角色一致性
Nano Banana Pro 还扩展了组合性和一致性功能。该模型被描述为能够:
- 将多达 14 张输入图像融合成一个连贯的场景。
- 保持作品中最多 5 个人物的一致性和相似度。
这旨在帮助弥合创意与最终视觉效果之间的差距,使用户能够:
- 将手绘草图转化为更精美的产品图像。
- 将建筑或产品蓝图转换为逼真或 3D 风格的渲染图。
- 通过组合独立的物体、人物和环境,构建复合生活场景。
- 保持多个元素之间的品牌或角色风格一致。
提供的示例展示了这些功能:
- 一个场景中的 14 个角色:十四个来自不同输入的毛茸茸角色聚集在沙发和地板上,在一个温馨、昏暗的客厅里观看一台复古电视。尽管角色数量众多,但它们的外观和质感在这个复杂的整体构图中保持一致。
- 生活方式合成图:将不同的照片(例如礼服、植物和椅子)合成为一个统一的电影场景,同时更换模特身上的礼服以匹配指定的参考礼服。
- 超现实环境:通过结合多张输入图像并将它们排列成宽屏格式(16:9)的电影场景,构建一个未来感的日落景观。
- 时尚编辑照片中的人物与一只狗:将来自不同照片的五个人和一只狗整合到一张时尚编辑风格的图片中,同时保持:
- 每个人的身份和服装。
- 所有主体均呈现自然的光线和色彩。
- 相机角度和距离的合理变化。
这些例子展示了该模型在同时处理多个元素的能力,同时保持视觉连续性,尤其是对于人类主体。
工作室风格的创意控制和输出格式
Nano Banana Pro 包含更高级的控制功能,使用户能够对图像进行细化,而不仅仅是一次性生成。该模型支持:
- 本地化编辑:
- 选择并转换图像的特定区域。
- 仅在场景的部分区域细化细节,而不改变其余部分。
- 相机和对焦调整:
- 改变摄像机角度以改变视角。
- 在前景和背景元素之间切换焦点。
- 颜色和照明控制:
- 应用复杂的色彩分级来调整氛围或风格。
- 变换场景照明,例如:
- 将白天场景转换为夜晚。
- 添加散景效果(背景模糊),营造浅景深效果。
- 灵活的输出格式:
- 支持适用于不同平台的多种宽高比(例如,宽银幕电影格式或更方形/垂直的格式)。
- 提供更高分辨率的输出,包括适合细节查看和打印准备的 2K 和 4K 选项。
这些工具旨在让创作者对最终视觉效果拥有更多控制权,使他们能够反复调整和完善图像,适用于从社交媒体到更正式或专业的展示等多种用途。
从 Nano Banana 到 Nano Banana Pro
总之,Nano Banana Pro(Gemini 3 Pro 镜像)在早期的 Nano Banana 型号基础上进行了改进:
- 通过 Gemini 3 Pro 和 Google 搜索增加更深入的推理和事实依据。
- 强调图像内文本的准确性、易读性和风格灵活性,包括多语言和翻译文本。
- 扩展合成功能以处理多张输入图像,并保持多个人物和元素之间的一致性。
- 提供更细致的创意控制,用于编辑和修饰图像,包括局部编辑、相机和焦点调整、色彩分级以及光线变化。
在此描述中,Nano Banana Pro 被定位为一款能够帮助用户将各种想法——从粗略草图和手写笔记到实时数据和复杂设计方案——转化为定制视觉内容的模型。















