Силиконовый Мешок

Начнем сезон с обзора Nano Banana 🍌

По правде говоря, неделя без компьютера и нормального интернета — это тяжело, особенно когда выходит Nano Banana и хочется быстрее ее потыкать и пощупать. Но я добрался до цивилизации, поэтому ловите краткий «банановый обзорчик».

26 августа 2025 года Google представила Gemini 2.5 Flash (внутреннее название Nano Banana) — свою новую модель для генерации и редактирования изображений. И это не очередной генератор картинок, а полноценная визуальная экосистема, способная понимать сложный контекст, поддерживать согласованность персонажей и объектов и, что самое главное, точно следовать инструкциям пользователя.

Я пользуюсь «Бананой» в Google AI Studio, там все просто и нативно. Переходите на aistudio.google.com и дальше:
1) Выбираете модель Gemini 2.5 Flash
2) Нажимаете на иконку изображения, чтобы прикрепить референсные картинки
3) Пишете промпты на любом языке, но английский модель понимает лучше
4) Можете поиграть с «температурой» (рекомендуется 0.4–0.8 для изображений).
5) Я поставил максимальное количество токенов на выходе для более детальной генерации.

Еще доступ к Gemini 2.5 Flash можно получить тут:
- Gemini API — для разработчиков (оплата за использование).
- Vertex AI — корпоративное решение с расширенными функциями.
- Gemini Native Image в чате Gemini — нажмите «Создать изображение».
- Adobe Firefly — полная интеграция (20 бесплатно в месяц, затем безлимитно с Creative Cloud).
- Adobe Express — удобный интерфейс для пользователей.
- Freepik — интеграция с инструментами ИИ для изображений.
- Poe by Quora — доступ к нескольким моделям, включая Gemini.

Цены и лимиты
При использовании через API/Studio/Vertex:
- $0.039 за изображение (в среднем 1290 токенов).
- Лимиты: 10 запросов в минуту (бесплатный тариф), 60 запросов в минуту (платный).
- Максимум на входе: 5 изображений одновременно.
- Разрешение на выходе: до 4K (4096×4096).

Через Adobe Firefly:
- 20 бесплатных изображений в месяц для всех пользователей.
- Безлимитно до 1 сентября для платных подписчиков Creative Cloud.
- После 1 сентября: пользователи Express получают безлимитный доступ.

Что мне больше всего понравилось в Nano Banana по сравнению с FLUX Kontext:
- Может объединить от 2 до 5 изображений в одну картинку.
- Очень хорошо удерживает «идентичность» персонажа при итерациях.
- Добавление и удаление объектов.
- Может изменять конкретные элементы через промпт.
- Есть знания о мире, и модель реально понимает культурные отсылки.
- Время генерации — 2–4 секунды.
- Отрисовка текста — действительно пишет слова правильно.
- Понимание 3D-пространства — поворачивает объекты, меняет перспективу.
- Понимает, какой свет должен быть в разное время суток.
- Реалистично изменяет текстуры.
- Создавать в нем скетчи — одно удовольствие.

Если интересно, могу следующим постом рассказать про бизнес-кейсы и «домашнее» использование Gemini 2.5 Flash. Просто дайте знать нашим тайным способом — 🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥180❤19👍10🤣33🍌2❤‍🔥1👏1🤗1😘1

4.79K viewsedited 12:33

Силиконовый Мешок

Начнем сезон с обзора Nano Banana 🍌 По правде говоря, неделя без компьютера и нормального интернета — это тяжело, особенно когда выходит Nano Banana и хочется быстрее ее потыкать и пощупать. Но я добрался до цивилизации, поэтому ловите краткий «банановый…

Как задавать нужные позы в Nano Banana?

Я немного устал рисовать референсы карандашом на бумаге и нашел такой сайт: https://posemy.art/ - там можно изменять позы, крутить тело в любую сторону и все это в 3D. А еще бесплатно.

Дальше я кидаю два изображения в «Банану» с таким промптом:

Have the character in Figure 1 pose as shown in Figure 2, keeping their appearance, clothing, and style unchanged; adjust only the movements.

Еще можно использовать ИИ-апскейлеры, чтобы с исходных 900px дотащить до 4K.

Обратите внимание: если вы загружаете два референсных изображения, лучше всего, чтобы у них было одинаковое соотношение сторон. Если у изображений разные соотношения сторон, итоговое изображение будет с параметрами последнего.

5❤46🔥29👏65⚡2

5.33K views17:48

Силиконовый Мешок

Искал готовые решения для создания коротких рекламных роликов в формате UGC на базе Nano Banana и Veo3 и перекопал кучу воркфлоу в n8n — пока это лучшее из того, что мне попадалось.

Процесс довольно простой: закидываешь в телеграм-бота референс (изображение товара), короткое пожелание к рекламе — и через пару минут у тебя готовый ролик. По стоимости выходит около 1–1,5 доллара за видео.

Здесь можно взять JSON-файл для n8n. Если что-то непонятно, я нашёл хороший туториал на YouTube.

Вот только композинг (сборку видео) я бы заменил на это API — мне больше понравилось, как оно собирает.

3🔥64❤13✍8👏5⚡1

5.78K viewsedited 13:56

Силиконовый Мешок

Если у вас есть активный PayPal - можно получить годовой Pro-аккаунт Perplexity бесплатно. А если нет, то действуем по старому сценарию.

2🔥37❤12👍8👏43😇2😘2🦄1

6.68K views06:06

Силиконовый Мешок

Сегодня обнаружил себя в трёх десятках рабочих телеграм-чатов. И в каждом кипит жизнь: люди что-то обсуждают, взаимодействуют и договариваются. А я просто хожу по этим чатам и собираю информацию: до чего договорились, когда решили созвониться, что вообще делаем дальше. И что-то я устал.

Уже открыл N8N, чтобы запилить автоматизацию процесса сбора саммари из рабочих чатов, но вовремя себя одёрнул. Может, уже давно существует решение моей проблемы? Поделитесь находками в нашем сообществе @prompt_chat

❤13✍8🔥7💯3🙏2

5.03K views09:22

Силиконовый Мешок

Вчера же еще NotebookLM обновился, жду когда на мои аккаунты раскатают. Но мне понравилось, как переосмыслили генерацию подкастов. Будет доступно четыре вида аудиообзора (подкаста):
1. Краткий обзор (Brief): Обзор на 1-2 минуты, помогает быстро ознакомиться с основными идеями темы

2. Глубокое погружение (Deep Dive): Стандартный и более подробный обзор темы, обычно длительностью 10-15 минут. В этом режиме можно задавать вопросы прямо во время прослушивания подкаста

3. Дебаты (Debate): Два ИИ-агента обсуждают и спорят на заданную тему, представляя разные точки зрения. Длительность примерно такая же, как у "глубокого погружения"

4. Критика (Critique): ИИ анализирует и проверяет предоставленные документы, например, эссе или презентации, и даёт целевую обратную связь для их улучшения

Раньше я все это через промпт к подкасту пытался указывать и не всегда получалось, сейчас удобнее конечно.

1👏43❤17🔥15🙏1🤗1

4.59K views11:19

Силиконовый Мешок

Perplexity говорят, что с сегодняшнего дня дали доступ к браузеру Comet всем Pro-аккаунтам. У кого-то еще не работает?

Ого, уже предрегестрация на Comet от Perplexity для андроидов появилась.

👍11🔥4❤3⚡1❤‍🔥1👏1🤯1

4.11K views14:00

Силиконовый Мешок

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Вот! Вот о чем я говорю! В этой безумной гонке врапперов (оберток вокруг API моделей) делать свой стартап - безумие. Ну только если у вас оригинальная и гениальная идея.

Буквально вчера я вам рассказывал про воркфлоу на N8N, чтобы генерировать UGC-видео при помощи Nano Banana и Veo3, а сегодня Higgsfield релизнул UGC Factory на базе этих же моделей.

💯18❤13🤣11👎1

4.56K views14:15

Силиконовый Мешок

Не ожидал, что этим постом открою ~~портал в ад~~ такое бурное обсуждение. Оказывается, не один я сталкиваюсь с проблемой отслеживания десятков рабочих и личных групп.

За пару дней мне в личку написали больше двадцати человек с рассказами о том, как они решали эту проблему. Даже мои старые знакомые, которые раньше занимались автоматизациями заводов, запилили стартап на эту тему — www.smart-digest.ru, — тоже отталкиваясь от личной боли.

Всё довольно просто: заходишь к ним в бота @smart_digest2025_bot (там реферальная ссылка, это не чтобы я на вас заработал, а чтобы вы бесплатно 14 дней пользовались), выбираешь, какие группы нужно мониторить, указываешь, во сколько нужен дайджест, и получаешь от него сообщения в формате «что обсудили, к чему пришли, кто делает и к какому сроку».

А, ещё мне понравилось, что бот голосовые сразу распознаёт, и тоже учитывает в выжимках. А то у меня есть пара чатов, где общаются только голосовыми (я раньше туда вообще не заходил).

Кстати, много обсуждали безопасность: где эти данные обрабатываются, в какую LLM улетают и кто имеет к ним доступ. Оказывается, они могут запустить своё решение даже on-prem (во внутреннем контуре) и с локальной LLM, так как бизнес часто об этом просит.

Так что я закинул в бота все свои группы и уже даже получил первые дайджесты. Мне кайф

🔥28❤13👍5🙏1💯1🦄11

3.99K views11:50

About

Blog

Apps

Platform