Nano Banana Pro — почему это прорывная модель генерации и редактирования изображений? Проверяем на реальных примерах
Краткое резюме
Nano Banana Pro — улучшенная версия модели для генерации и редактирования изображений на базе Gemini 3 Pro. Она создаёт изображения в разрешении до 4K, умеет интегрировать актуальные данные и генерировать чёткий текст на нескольких языках.
20 ноября состоялся запуск улучшенной версии модели Nano Banana — Nano Banana Pro (Gemini-3-Pro-Image-Preview) на базе Gemini 3 Pro. Тестирование доступно бесплатно на сайте Gemini и в AI Studio. Мы рассмотрим нововведения и на примерах покажем, чем модель отличается от предшественников.
Nano Banana Pro — это не просто инструмент для создания изображений, а более серьёзное решение. Рассмотрим ключевые изменения:
1. **Улучшенное качество вывода.** В отличие от оригинальной Nano Banana, которая ограничена скоростью до ~1024 пикселей, новая версия может генерировать изображения в разрешении 1K, 2K и даже 4K.
2. **Расширенные возможности рассуждения и интеграции знаний.** Благодаря Gemini 3, модель может объединять данные поиска в реальном времени (например, погоду, спортивные события) для создания инфографики с насыщенным контекстом и точных образовательных диаграмм. Это достигается за счёт многоэтапного процесса рассуждения для сложных запросов и доступа к реальным знаниям через поиск Google.
3. **Чёткий текст на изображениях.** Nano Banana Pro решает проблему искажённого текста на изображениях, создаваемых ИИ. Модель может генерировать высокоточный, легко читаемый текст на нескольких языках, с разными шрифтами и текстурами, будь то слоганы или длинные абзацы.
4. **Расширенный контроль над созданием изображений.** Модель поддерживает до 14 входных эталонных изображений, сохраняя согласованность для 5 персонажей в сложных композициях. Одновременно с этим открывается регулировка угла наклона камеры, управление фокусным расстоянием и вывод разрешения 4K. Можно выбрать часть изображения и попросить модель изменить её или с помощью запроса поменять соотношение сторон, угол камеры, глубину резкости и освещение.
В официальных тестах производительности Nano Banana Pro получил оценку New SOTA в категориях «Преобразование текста в изображение» и «Редактирование изображений».
Чтобы понять, на что способна модель, рассмотрим примеры её работы:
* **Скриншот рабочего стола компьютера.** Пользователь X @CaomuQ625 опубликовал сгенерированный скриншот Windows 11, на котором уже открыт браузер Google Chrome и в окне браузера отображается миниатюра видео Mr. Beast с веб-сайта YouTube. Большинство моделей генерации изображений до сих пор не могут правильно воспроизвести такой запрос.
* **Создание инфографики с текстом.** Модель может создавать дизайн инфографики в стиле ретро-комиксов 50-х годов с пошаговым руководством и пронумерованными иллюстрациями.