Начнем сезон с обзора Nano Banana 🍌
По правде говоря, неделя без компьютера и нормального интернета — это тяжело, особенно когда выходит Nano Banana и хочется быстрее ее потыкать и пощупать. Но я добрался до цивилизации, поэтому ловите краткий «банановый обзорчик».
26 августа 2025 года Google представила Gemini 2.5 Flash (внутреннее название Nano Banana) — свою новую модель для генерации и редактирования изображений. И это не очередной генератор картинок, а полноценная визуальная экосистема, способная понимать сложный контекст, поддерживать согласованность персонажей и объектов и, что самое главное, точно следовать инструкциям пользователя.
Я пользуюсь «Бананой» в Google AI Studio, там все просто и нативно. Переходите на aistudio.google.com и дальше:
1) Выбираете модель Gemini 2.5 Flash
2) Нажимаете на иконку изображения, чтобы прикрепить референсные картинки
3) Пишете промпты на любом языке, но английский модель понимает лучше
4) Можете поиграть с «температурой» (рекомендуется 0.4–0.8 для изображений).
5) Я поставил максимальное количество токенов на выходе для более детальной генерации.
Еще доступ к Gemini 2.5 Flash можно получить тут:
- Gemini API — для разработчиков (оплата за использование).
- Vertex AI — корпоративное решение с расширенными функциями.
- Gemini Native Image в чате Gemini — нажмите «Создать изображение».
- Adobe Firefly — полная интеграция (20 бесплатно в месяц, затем безлимитно с Creative Cloud).
- Adobe Express — удобный интерфейс для пользователей.
- Freepik — интеграция с инструментами ИИ для изображений.
- Poe by Quora — доступ к нескольким моделям, включая Gemini.
Цены и лимиты
При использовании через API/Studio/Vertex:
- $0.039 за изображение (в среднем 1290 токенов).
- Лимиты: 10 запросов в минуту (бесплатный тариф), 60 запросов в минуту (платный).
- Максимум на входе: 5 изображений одновременно.
- Разрешение на выходе: до 4K (4096×4096).
Через Adobe Firefly:
- 20 бесплатных изображений в месяц для всех пользователей.
- Безлимитно до 1 сентября для платных подписчиков Creative Cloud.
- После 1 сентября: пользователи Express получают безлимитный доступ.
Что мне больше всего понравилось в Nano Banana по сравнению с FLUX Kontext:
- Может объединить от 2 до 5 изображений в одну картинку.
- Очень хорошо удерживает «идентичность» персонажа при итерациях.
- Добавление и удаление объектов.
- Может изменять конкретные элементы через промпт.
- Есть знания о мире, и модель реально понимает культурные отсылки.
- Время генерации — 2–4 секунды.
- Отрисовка текста — действительно пишет слова правильно.
- Понимание 3D-пространства — поворачивает объекты, меняет перспективу.
- Понимает, какой свет должен быть в разное время суток.
- Реалистично изменяет текстуры.
- Создавать в нем скетчи — одно удовольствие.
Если интересно, могу следующим постом рассказать про бизнес-кейсы и «домашнее» использование Gemini 2.5 Flash. Просто дайте знать нашим тайным способом —🔥
По правде говоря, неделя без компьютера и нормального интернета — это тяжело, особенно когда выходит Nano Banana и хочется быстрее ее потыкать и пощупать. Но я добрался до цивилизации, поэтому ловите краткий «банановый обзорчик».
26 августа 2025 года Google представила Gemini 2.5 Flash (внутреннее название Nano Banana) — свою новую модель для генерации и редактирования изображений. И это не очередной генератор картинок, а полноценная визуальная экосистема, способная понимать сложный контекст, поддерживать согласованность персонажей и объектов и, что самое главное, точно следовать инструкциям пользователя.
Я пользуюсь «Бананой» в Google AI Studio, там все просто и нативно. Переходите на aistudio.google.com и дальше:
1) Выбираете модель Gemini 2.5 Flash
2) Нажимаете на иконку изображения, чтобы прикрепить референсные картинки
3) Пишете промпты на любом языке, но английский модель понимает лучше
4) Можете поиграть с «температурой» (рекомендуется 0.4–0.8 для изображений).
5) Я поставил максимальное количество токенов на выходе для более детальной генерации.
Еще доступ к Gemini 2.5 Flash можно получить тут:
- Gemini API — для разработчиков (оплата за использование).
- Vertex AI — корпоративное решение с расширенными функциями.
- Gemini Native Image в чате Gemini — нажмите «Создать изображение».
- Adobe Firefly — полная интеграция (20 бесплатно в месяц, затем безлимитно с Creative Cloud).
- Adobe Express — удобный интерфейс для пользователей.
- Freepik — интеграция с инструментами ИИ для изображений.
- Poe by Quora — доступ к нескольким моделям, включая Gemini.
Цены и лимиты
При использовании через API/Studio/Vertex:
- $0.039 за изображение (в среднем 1290 токенов).
- Лимиты: 10 запросов в минуту (бесплатный тариф), 60 запросов в минуту (платный).
- Максимум на входе: 5 изображений одновременно.
- Разрешение на выходе: до 4K (4096×4096).
Через Adobe Firefly:
- 20 бесплатных изображений в месяц для всех пользователей.
- Безлимитно до 1 сентября для платных подписчиков Creative Cloud.
- После 1 сентября: пользователи Express получают безлимитный доступ.
Что мне больше всего понравилось в Nano Banana по сравнению с FLUX Kontext:
- Может объединить от 2 до 5 изображений в одну картинку.
- Очень хорошо удерживает «идентичность» персонажа при итерациях.
- Добавление и удаление объектов.
- Может изменять конкретные элементы через промпт.
- Есть знания о мире, и модель реально понимает культурные отсылки.
- Время генерации — 2–4 секунды.
- Отрисовка текста — действительно пишет слова правильно.
- Понимание 3D-пространства — поворачивает объекты, меняет перспективу.
- Понимает, какой свет должен быть в разное время суток.
- Реалистично изменяет текстуры.
- Создавать в нем скетчи — одно удовольствие.
Если интересно, могу следующим постом рассказать про бизнес-кейсы и «домашнее» использование Gemini 2.5 Flash. Просто дайте знать нашим тайным способом —
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥187❤20👍10🤣3 3🍌2❤🔥1👏1🤗1😘1
Силиконовый Мешок
Начнем сезон с обзора Nano Banana 🍌 По правде говоря, неделя без компьютера и нормального интернета — это тяжело, особенно когда выходит Nano Banana и хочется быстрее ее потыкать и пощупать. Но я добрался до цивилизации, поэтому ловите краткий «банановый…
Как задавать нужные позы в Nano Banana?
Я немного устал рисовать референсы карандашом на бумаге и нашел такой сайт: https://posemy.art/ - там можно изменять позы, крутить тело в любую сторону и все это в 3D. А еще бесплатно.
Дальше я кидаю два изображения в «Банану» с таким промптом:
Еще можно использовать ИИ-апскейлеры, чтобы с исходных 900px дотащить до 4K.
Обратите внимание: если вы загружаете два референсных изображения, лучше всего, чтобы у них было одинаковое соотношение сторон. Если у изображений разные соотношения сторон, итоговое изображение будет с параметрами последнего.
Я немного устал рисовать референсы карандашом на бумаге и нашел такой сайт: https://posemy.art/ - там можно изменять позы, крутить тело в любую сторону и все это в 3D. А еще бесплатно.
Дальше я кидаю два изображения в «Банану» с таким промптом:
Have the character in Figure 1 pose as shown in Figure 2, keeping their appearance, clothing, and style unchanged; adjust only the movements.
Еще можно использовать ИИ-апскейлеры, чтобы с исходных 900px дотащить до 4K.
Обратите внимание: если вы загружаете два референсных изображения, лучше всего, чтобы у них было одинаковое соотношение сторон. Если у изображений разные соотношения сторон, итоговое изображение будет с параметрами последнего.
5❤49🔥29👏6 5⚡2
Искал готовые решения для создания коротких рекламных роликов в формате UGC на базе Nano Banana и Veo3 и перекопал кучу воркфлоу в n8n — пока это лучшее из того, что мне попадалось.
Процесс довольно простой: закидываешь в телеграм-бота референс (изображение товара), короткое пожелание к рекламе — и через пару минут у тебя готовый ролик. По стоимости выходит около 1–1,5 доллара за видео.
Здесь можно взять JSON-файл для n8n. Если что-то непонятно, я нашёл хороший туториал на YouTube.
Вот только композинг (сборку видео) я бы заменил на это API — мне больше понравилось, как оно собирает.
Процесс довольно простой: закидываешь в телеграм-бота референс (изображение товара), короткое пожелание к рекламе — и через пару минут у тебя готовый ролик. По стоимости выходит около 1–1,5 доллара за видео.
Здесь можно взять JSON-файл для n8n. Если что-то непонятно, я нашёл хороший туториал на YouTube.
Вот только композинг (сборку видео) я бы заменил на это API — мне больше понравилось, как оно собирает.
3🔥69❤15✍8👏5⚡1
Если у вас есть активный PayPal - можно получить годовой Pro-аккаунт Perplexity бесплатно. А если нет, то действуем по старому сценарию.
2🔥39❤12👍8👏4 3😇2🦄2😘2
Сегодня обнаружил себя в трёх десятках рабочих телеграм-чатов. И в каждом кипит жизнь: люди что-то обсуждают, взаимодействуют и договариваются. А я просто хожу по этим чатам и собираю информацию: до чего договорились, когда решили созвониться, что вообще делаем дальше. И что-то я устал.
Уже открыл N8N, чтобы запилить автоматизацию процесса сбора саммари из рабочих чатов, но вовремя себя одёрнул. Может, уже давно существует решение моей проблемы? Поделитесь находками в нашем сообществе @prompt_chat
Уже открыл N8N, чтобы запилить автоматизацию процесса сбора саммари из рабочих чатов, но вовремя себя одёрнул. Может, уже давно существует решение моей проблемы? Поделитесь находками в нашем сообществе @prompt_chat
❤15✍8🔥7💯3🙏2
Вчера же еще NotebookLM обновился, жду когда на мои аккаунты раскатают. Но мне понравилось, как переосмыслили генерацию подкастов. Будет доступно четыре вида аудиообзора (подкаста):
1. Краткий обзор (Brief): Обзор на 1-2 минуты, помогает быстро ознакомиться с основными идеями темы
2. Глубокое погружение (Deep Dive): Стандартный и более подробный обзор темы, обычно длительностью 10-15 минут. В этом режиме можно задавать вопросы прямо во время прослушивания подкаста
3. Дебаты (Debate): Два ИИ-агента обсуждают и спорят на заданную тему, представляя разные точки зрения. Длительность примерно такая же, как у "глубокого погружения"
4. Критика (Critique): ИИ анализирует и проверяет предоставленные документы, например, эссе или презентации, и даёт целевую обратную связь для их улучшения
Раньше я все это через промпт к подкасту пытался указывать и не всегда получалось, сейчас удобнее конечно.
1. Краткий обзор (Brief): Обзор на 1-2 минуты, помогает быстро ознакомиться с основными идеями темы
2. Глубокое погружение (Deep Dive): Стандартный и более подробный обзор темы, обычно длительностью 10-15 минут. В этом режиме можно задавать вопросы прямо во время прослушивания подкаста
3. Дебаты (Debate): Два ИИ-агента обсуждают и спорят на заданную тему, представляя разные точки зрения. Длительность примерно такая же, как у "глубокого погружения"
4. Критика (Critique): ИИ анализирует и проверяет предоставленные документы, например, эссе или презентации, и даёт целевую обратную связь для их улучшения
Раньше я все это через промпт к подкасту пытался указывать и не всегда получалось, сейчас удобнее конечно.
1👏48❤18🔥17🙏1🤗1
Силиконовый Мешок
Perplexity говорят, что с сегодняшнего дня дали доступ к браузеру Comet всем Pro-аккаунтам. У кого-то еще не работает?
Ого, уже предрегестрация на Comet от Perplexity для андроидов появилась.
👍12❤5🔥5⚡1❤🔥1👏1🤯1
Силиконовый Мешок
Искал готовые решения для создания коротких рекламных роликов в формате UGC на базе Nano Banana и Veo3 и перекопал кучу воркфлоу в n8n — пока это лучшее из того, что мне попадалось. Процесс довольно простой: закидываешь в телеграм-бота референс (изображение…
This media is not supported in your browser
VIEW IN TELEGRAM
Вот! Вот о чем я говорю! В этой безумной гонке врапперов (оберток вокруг API моделей) делать свой стартап - безумие. Ну только если у вас оригинальная и гениальная идея.
Буквально вчера я вам рассказывал про воркфлоу на N8N, чтобы генерировать UGC-видео при помощи Nano Banana и Veo3, а сегодня Higgsfield релизнул UGC Factory на базе этих же моделей.
Буквально вчера я вам рассказывал про воркфлоу на N8N, чтобы генерировать UGC-видео при помощи Nano Banana и Veo3, а сегодня Higgsfield релизнул UGC Factory на базе этих же моделей.
💯22❤14🤣11👎1
Не ожидал, что этим постом открою портал в ад такое бурное обсуждение. Оказывается, не один я сталкиваюсь с проблемой отслеживания десятков рабочих и личных групп.
За пару дней мне в личку написали больше двадцати человек с рассказами о том, как они решали эту проблему. Даже мои старые знакомые, которые раньше занимались автоматизациями заводов, запилили стартап на эту тему — www.smart-digest.ru, — тоже отталкиваясь от личной боли.
Всё довольно просто: заходишь к ним в бота @smart_digest2025_bot (там реферальная ссылка, это не чтобы я на вас заработал, а чтобы вы бесплатно 14 дней пользовались), выбираешь, какие группы нужно мониторить, указываешь, во сколько нужен дайджест, и получаешь от него сообщения в формате «что обсудили, к чему пришли, кто делает и к какому сроку».
А, ещё мне понравилось, что бот голосовые сразу распознаёт, и тоже учитывает в выжимках. А то у меня есть пара чатов, где общаются только голосовыми (я раньше туда вообще не заходил).
Кстати, много обсуждали безопасность: где эти данные обрабатываются, в какую LLM улетают и кто имеет к ним доступ. Оказывается, они могут запустить своё решение даже on-prem (во внутреннем контуре) и с локальной LLM, так как бизнес часто об этом просит.
Так что я закинул в бота все свои группы и уже даже получил первые дайджесты. Мне кайф
За пару дней мне в личку написали больше двадцати человек с рассказами о том, как они решали эту проблему. Даже мои старые знакомые, которые раньше занимались автоматизациями заводов, запилили стартап на эту тему — www.smart-digest.ru, — тоже отталкиваясь от личной боли.
Всё довольно просто: заходишь к ним в бота @smart_digest2025_bot (там реферальная ссылка, это не чтобы я на вас заработал, а чтобы вы бесплатно 14 дней пользовались), выбираешь, какие группы нужно мониторить, указываешь, во сколько нужен дайджест, и получаешь от него сообщения в формате «что обсудили, к чему пришли, кто делает и к какому сроку».
А, ещё мне понравилось, что бот голосовые сразу распознаёт, и тоже учитывает в выжимках. А то у меня есть пара чатов, где общаются только голосовыми (я раньше туда вообще не заходил).
Кстати, много обсуждали безопасность: где эти данные обрабатываются, в какую LLM улетают и кто имеет к ним доступ. Оказывается, они могут запустить своё решение даже on-prem (во внутреннем контуре) и с локальной LLM, так как бизнес часто об этом просит.
Так что я закинул в бота все свои группы и уже даже получил первые дайджесты. Мне кайф
🔥34❤16👍5🙏2💯1🦄1 1
Личный ИИ-Ассистент
Скажу сразу, что Json’а воркфлоу в N8N тут не будет - это не мой проект, но он мне очень понравился, так как примерно тоже самое я собираю для себя уже год. Правда, у меня это разрозненные процессы, которые я никак не могу объеденить в одну систему. Ну и мой проект - это ИИ-Ассистент для СДВГ’шника.
Вернемся к проекту с картинки, что это такое: это персональный ИИ-компаньона, который понимает контекст, помнит «вашу» историю и проактивно помогает в личном развитии.
Ключевая архитектура:
Система построена на нескольких ключевых элементах, предназначенных для создания глубокого, контекстуального понимания:
- Движок личности: Это сердце системы. Это не статичная персона. Он использует векторную базу данных с ~100 чертами личности и «фрагментами персоны». С каждым сообщением он агрегирует эти черты, чтобы создать оптимальный ответ, делая взаимодействие естественным и адаптивным.
- Журнал: Он объединяет количественные данные с кольца Oura (сон, вариабельность сердечного ритма, активность) с дневниковыми записями, введенными вручную. Это дает ему мультимодальное представление о физическом и ментальном состоянии человека.
Многоуровневая память и база знаний:
- Краткосрочная память: Простые пары «ввод -> вывод» и «действие -> реакция» из каждого взаимодействия.
- Долгосрочная память: Отобранная база данных с конкретными фактами и агрегированными инсайтами из краткосрочной памяти.
- База знаний: Обрабатывает длинные тексты (статьи, заметки) и обогащает их информацией из Perplexity.
- Дневник сновидений: Отдельный журнал специально для снов, используемый для перекрестных ссылок с основным журналом для поиска потенциальных корреляций между подсознательными темами и реальной жизнью.
Проактивные и автономные функции:
Он активно участвует в жизни:
- Ночные «сны»: Ночью он запускает процесс, который по сходству агрегирует векторы из взаимодействий за день. Это его форма консолидации памяти, позволяющая находить скрытые связи между темами сновидений и другими данными.
- Утренний отчет: Каждое утро выгружает кастомный отчет по темам, которые указаны как важные (например, анализ качества сна в сравнении с уровнем стресса вчера или новости про ИИ).
- Проактивное планирование: Он анализирует календарь и задачи, а затем проактивно предлагает временные блоки для работы или отмечает потенциальные конфликты в расписании.
- Контекстуальные уведомления: Он отправляет одно проактивное сообщение в день в случайное время, тема которого соответствует текущей активности в календаре (например, ссылка на релевантную статью перед встречей по проекту).
- Глобальная обработка ошибок: Система для корректного управления сбоями API и непредвиденными проблемами.
Технологический стек
Все это работает на куче API и селф-хосте инструментов:
⁃ Оркестрация: n8n
⁃ Интерфейс: Telegram
⁃ Векторная БД: Qdrant
⁃ Данные/Инструменты: Google Calendar, Tasks, Gmail, Drive, Oura Ring API, Perplexity AI
Как я понял, главная цель проекта сделать «движок счастливых случайностей» (The Serendipity Engine)
Короче создать бэкенд, сфокусированный на рассуждениях более высокого уровня.
⁃ Логика и дедукция через Google Mangle.
⁃ КПТ: Выявлять повторяющиеся негативные мыслительные циклы или модели поведения из дневниковых записей и мягко оспаривать их.
⁃ Проактивно предлагать новые привычки, идеи или точки зрения на основе заявленных целей и наблюдаемых паттернов.
⁃ Отслеживать фитнес и питание: Интегрировать и анализировать эти данные для предоставления инсайтов о здоровье.
Скажу сразу, что Json’а воркфлоу в N8N тут не будет - это не мой проект, но он мне очень понравился, так как примерно тоже самое я собираю для себя уже год. Правда, у меня это разрозненные процессы, которые я никак не могу объеденить в одну систему. Ну и мой проект - это ИИ-Ассистент для СДВГ’шника.
Вернемся к проекту с картинки, что это такое: это персональный ИИ-компаньона, который понимает контекст, помнит «вашу» историю и проактивно помогает в личном развитии.
Ключевая архитектура:
Система построена на нескольких ключевых элементах, предназначенных для создания глубокого, контекстуального понимания:
- Движок личности: Это сердце системы. Это не статичная персона. Он использует векторную базу данных с ~100 чертами личности и «фрагментами персоны». С каждым сообщением он агрегирует эти черты, чтобы создать оптимальный ответ, делая взаимодействие естественным и адаптивным.
- Журнал: Он объединяет количественные данные с кольца Oura (сон, вариабельность сердечного ритма, активность) с дневниковыми записями, введенными вручную. Это дает ему мультимодальное представление о физическом и ментальном состоянии человека.
Многоуровневая память и база знаний:
- Краткосрочная память: Простые пары «ввод -> вывод» и «действие -> реакция» из каждого взаимодействия.
- Долгосрочная память: Отобранная база данных с конкретными фактами и агрегированными инсайтами из краткосрочной памяти.
- База знаний: Обрабатывает длинные тексты (статьи, заметки) и обогащает их информацией из Perplexity.
- Дневник сновидений: Отдельный журнал специально для снов, используемый для перекрестных ссылок с основным журналом для поиска потенциальных корреляций между подсознательными темами и реальной жизнью.
Проактивные и автономные функции:
Он активно участвует в жизни:
- Ночные «сны»: Ночью он запускает процесс, который по сходству агрегирует векторы из взаимодействий за день. Это его форма консолидации памяти, позволяющая находить скрытые связи между темами сновидений и другими данными.
- Утренний отчет: Каждое утро выгружает кастомный отчет по темам, которые указаны как важные (например, анализ качества сна в сравнении с уровнем стресса вчера или новости про ИИ).
- Проактивное планирование: Он анализирует календарь и задачи, а затем проактивно предлагает временные блоки для работы или отмечает потенциальные конфликты в расписании.
- Контекстуальные уведомления: Он отправляет одно проактивное сообщение в день в случайное время, тема которого соответствует текущей активности в календаре (например, ссылка на релевантную статью перед встречей по проекту).
- Глобальная обработка ошибок: Система для корректного управления сбоями API и непредвиденными проблемами.
Технологический стек
Все это работает на куче API и селф-хосте инструментов:
⁃ Оркестрация: n8n
⁃ Интерфейс: Telegram
⁃ Векторная БД: Qdrant
⁃ Данные/Инструменты: Google Calendar, Tasks, Gmail, Drive, Oura Ring API, Perplexity AI
Как я понял, главная цель проекта сделать «движок счастливых случайностей» (The Serendipity Engine)
Короче создать бэкенд, сфокусированный на рассуждениях более высокого уровня.
⁃ Логика и дедукция через Google Mangle.
⁃ КПТ: Выявлять повторяющиеся негативные мыслительные циклы или модели поведения из дневниковых записей и мягко оспаривать их.
⁃ Проактивно предлагать новые привычки, идеи или точки зрения на основе заявленных целей и наблюдаемых паттернов.
⁃ Отслеживать фитнес и питание: Интегрировать и анализировать эти данные для предоставления инсайтов о здоровье.
3❤65🔥34🤯19👍9😁7❤🔥3✍3👏2🙏2⚡1
Пока идет презентация Apple… А вы знали, что в андроиде можно поменять голосового ассистента Google на ChatGPT?
Хотя в новых iPhone (c 16-го вроде) тоже можно сделать, что-то подобное: Settings -> Action Button -> Shortcut, потом ищите ChatGPT и вам доступны разные опции, например “Start a voice chat”.
Хотя я у себя эту кнопку за Perplexity оставил, не зря же я его купил за копейки.
Хотя в новых iPhone (c 16-го вроде) тоже можно сделать, что-то подобное: Settings -> Action Button -> Shortcut, потом ищите ChatGPT и вам доступны разные опции, например “Start a voice chat”.
Хотя я у себя эту кнопку за Perplexity оставил, не зря же я его купил за копейки.
🔥25👍8❤6🤣2❤🔥1😁1🙏1😍1💯1
Второй день наблюдаю за прикольным тредом на Реддите. Там чувак рассказывает, что решил в эти выходные проанализировать расходы компании и обнаружил, что на API OpenAI они тратят 1200 долларов в месяц. Процитирую:
Дальше парень хвастается тем, что просто переключил всё на gpt-4o-mini и счёт снизился до 200 долларов, такой вот он мамкин оптимизатор.
Но в первом же комментарии у него спросили, а не считает ли он странным использовать LLM для изменения регистра текста или извлечения номеров телефонов из писем? Возможно, более умным решением было бы попросить у ChatGPT поискать или написать решение для этого. Ну и там полетел холивар на сотни комментариев.
А я читаю всё это и понимаю, что знаю как минимум десяток компаний, которые используют LLM-ки примерно для таких же задач и абсолютно счастливы.
И не нужен им никакой «design doc» с описанием изменений — зачем они нужны (мотивация), каковы цели и нецели (что сознательно не делаем), какие метрики, логирование, зависимости и прочее. Ну и инженерное ревью тоже не делается, просто платят OpenAI деньги за API, потому что всё это многократно перекрывается выручкой компании. А когда перестанет, можно и штатное расписание пересмотреть.
«Я, честно говоря, думал, что это просто издержки бизнеса, пока не посмотрел, на что мы на самом деле используем gpt-4. И это же серьёзная трата денег: извлечение номеров телефонов из имейлов, проверка текста на ненормативную лексику, переформатирование JSON и, буквально, перевод текста в ВЕРХНИЙ РЕГИСТР».
Дальше парень хвастается тем, что просто переключил всё на gpt-4o-mini и счёт снизился до 200 долларов, такой вот он мамкин оптимизатор.
Но в первом же комментарии у него спросили, а не считает ли он странным использовать LLM для изменения регистра текста или извлечения номеров телефонов из писем? Возможно, более умным решением было бы попросить у ChatGPT поискать или написать решение для этого. Ну и там полетел холивар на сотни комментариев.
А я читаю всё это и понимаю, что знаю как минимум десяток компаний, которые используют LLM-ки примерно для таких же задач и абсолютно счастливы.
И не нужен им никакой «design doc» с описанием изменений — зачем они нужны (мотивация), каковы цели и нецели (что сознательно не делаем), какие метрики, логирование, зависимости и прочее. Ну и инженерное ревью тоже не делается, просто платят OpenAI деньги за API, потому что всё это многократно перекрывается выручкой компании. А когда перестанет, можно и штатное расписание пересмотреть.
🤣37👍28🔥8❤5😁3💯3❤🔥2⚡1👏1🤯1😘1
Ого, генератор видео Hailuo рассщедрился и дает каждому бесплатно и безлимитно создавать видео целую неделю. Так, что если вам нужно для какого-то проекта нафигачить контента - хватайте. Я там обычно за деньги генерирую, качество мне очень нравится.
1❤30🔥16👍3🙏3😍3
Комьюнити-ноды в n8n
Я вам настоятельно рекомендую заглянуть в раздел «Community Nodes» в n8n, если вы этого еще не делали. Именно там я в последнее время нахожу самую мякотку. Чтобы их установить, просто зайдите в Settings > Community Nodes, нажмите Install и введите название нужной ноды. Вот мои фавориты:
n8n-nodes-apify — отличная штука для вытаскивания сложных (структурированных) данных с сайтов, чтобы не изобретать велосипед. Вы же пользуетесь этим кладезем апишечек на https://apify.com/?
n8n-nodes-google-pagespeed — удобная нода для автоматизации проверок Core Web Vitals прямо внутри воркфлоу.
n8n-nodes-firecrawl — мощный инструмент для скрапинга и краулинга в больших масштабах, особенно для сайтов, где не нужен такой продвинутый скрапинг, как в Apify. Значительно упрощает создание контентных воркфлоу.
Я вам настоятельно рекомендую заглянуть в раздел «Community Nodes» в n8n, если вы этого еще не делали. Именно там я в последнее время нахожу самую мякотку. Чтобы их установить, просто зайдите в Settings > Community Nodes, нажмите Install и введите название нужной ноды. Вот мои фавориты:
n8n-nodes-apify — отличная штука для вытаскивания сложных (структурированных) данных с сайтов, чтобы не изобретать велосипед. Вы же пользуетесь этим кладезем апишечек на https://apify.com/?
n8n-nodes-google-pagespeed — удобная нода для автоматизации проверок Core Web Vitals прямо внутри воркфлоу.
n8n-nodes-firecrawl — мощный инструмент для скрапинга и краулинга в больших масштабах, особенно для сайтов, где не нужен такой продвинутый скрапинг, как в Apify. Значительно упрощает создание контентных воркфлоу.
🔥33👍12❤5✍4🙏1💯1⚡1
Помните, я вам про JSON-промптинг рассказывал? Так вот, оказывается, его можно использовать и в Nano Banana, например для апскейла изображений. Но ещё раз: кроме того, что в таком формате инструкция получается более структурированной, никакого волшебства нет. Всё то же самое можно описать и «человеческим» языком. А вот и промпт:
{
"task": "upscale_and_restore",
"parameters": {
"preserve_composition": true,
"preserve_features": true,
"preserve_color_palette": true,
"preserve_lighting": true,
"max_sharpness": true,
"max_detail": true,
"enhance_micro_contrast": false,
"optical_corrections": {
"remove_halos": true,
"remove_chromatic_aberrations": true,
"restore_highlights": true,
"restore_textures": true,
"adjust_black_level": false,
"no_geometric_distortion_correction": true,
"no_panorama": true,
"no_edge_expansion": true,
"no_background_change": true
},
"noise_reduction": {
"color_noise": true,
"luminance_noise": true,
"remove_grain": true,
"remove_moire": true,
"remove_large_film_defects": true,
"red_eye_removal": true
},
"motion_blur_correction": true,
"restrictions": {
"no_object_addition": true,
"no_object_removal": true,
"no_camera_angle_change": true,
"no_object_movement": true,
"no_parallax_change": true,
"no_geometry_change": true,
"no_image_scaling": true,
"no_aspect_ratio_change": true,
"no_camera_position_change": true,
"no_field_of_view_change": true,
"no_camera_movement": true,
"no_camera_tilt": true,
"no_focal_length_change": true,
"no_aperture_change": true,
"no_lighting_change": true,
"no_color_balance_change": true,
"no_cropping": true,
"no_focal_plane_change": true,
"exact_position_match": true,
"exact_edge_match": true
}
}
}
❤31👍10🔥9✍4💯2🦄2🙏1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
Новая фича в Perplexity для изучения языков
Я тут часто пишу, как использую ИИ в своем обучении испанскому(блин, 7 лет учу, никак выучить не могу).
Например, иногда прошу Perplexity объяснить мне какие-то моменты в граматике. И сегодня обнаружил, что он не только стал объяснять, но и озвучивать произношение.
Видимо, эту фичу еще не анонсировали и раскатали на небольшое количество пользователей. Это же репетитор за несколько баксов в год!
Я тут часто пишу, как использую ИИ в своем обучении испанскому
Например, иногда прошу Perplexity объяснить мне какие-то моменты в граматике. И сегодня обнаружил, что он не только стал объяснять, но и озвучивать произношение.
Видимо, эту фичу еще не анонсировали и раскатали на небольшое количество пользователей. Это же репетитор за несколько баксов в год!
🔥74❤11👏7👍6🤯2🙏1🦄1😘1
This media is not supported in your browser
VIEW IN TELEGRAM
На концерте Massive Attack запустили видео с распознанием лиц людей из зала в реальном времени.
🔥62🤯23❤8🤗5🤓3✍1👍1👏1