VAI
2.99K subscribers
441 photos
76 videos
4 files
124 links
15 лет в компьютерной графике, 6 лет - арт-директор.
Работал над десятками проектов.
Изучаю ИИ для развития и собираю здесь свой опыт, находки и эксперименты.
Присоединяйтесь!
Личный контакт - @AlexBakakin
Boosty - boosty.to/vai_art

AI l ИИ
Download Telegram
Не GPT единым! Крутая новость! 🔥🔥🔥

Qwen(разработка Alibaba) вчера под вечер релизнули собственную Image Edit модель

Qwen Image 20B была выпущена 4 августа и является основной моделью. В свою очередь, версия Edit предназначена специально для редактирования изображений: изменения стиля, корректировки деталей, добавление или удаление объектов, а также изменение поз и других элементов.

Если кому то интересно веса и гитхаб .

Теперь у нас есть еще один опенсорсный редактор изображений, и судя по примерам, он вполне хороший. Пока, как я понял, кириллица не поддерживается в редактировании на самих изображениях, но думаю, со временем это добавят.

Так же можно попробовать в чате (в нем есть ограничения).

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4
Решил рассмотреть одну достаточно простую тему — создание баннеров, карточек и тому подобного, что включает в себя сразу изображение и текст, используя референс.
Конечно, это не имеет прямого отношения к творчеству, но сам процесс достаточно простой. Плюс, не всегда можно быть очень креативным, а сам процесс отличается от подбора референсов и использования принципа "кради как художник" лишь тем, что благодаря современным инструментам это можно сделать значительно быстрее и проще. 🧐

В общем, расскажу, как легко создать что-то по уже готовому референсу.

Как это сделать:

● ищу подходящий референс — тот, который нравится и подходит под задачу
● загружаю его в ИИ, который может расшифровать изображение и разложить его на промпт. Я обычно использую GPTChat, но есть и куча др. сервисов. Дополняю запрос уточнениями, чтобы ИИ обратило внимание на важные детали, такие как цвет, композиция, которые мне нужны. Это улучшает результат
● переношу получившийся промпт и референс в Sora. Референс важен, потому что, помимо текста, он помогает Sora точнее ориентироваться и создавать результат, приближенный к нужному

И всё — на выходе получаем изображение, похожее на референс. 💪

Дальше, если нужно:

● хотите добавить текст? Просто указывайте его в описании или добавьте позже в Photoshop
● меняйте промпт, если хотите изменить цвет, форму и другие параметры
● добавляйте дополнительные объекты. Для этого можно использовать такие инструменты, как Flux Kontext, например, чтобы на изображение добавить именно то, что вам нужно
● небольшие правки руками в Photoshop или похожих программах
● пройдите апскейлером, и получите финальный дизайн

Этот процесс можно варьировать, настраивать и адаптировать под любые задачи, но главный плюс — минимальное время, которое вы затратите для достижения результата.

Берите на вооружение и пользуйтесь!🔥🔥🔥

P.S. Оба изображение были сгенерированы.

@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91
🟥🟥🟥Новости на ночь!

Google открыл бесплатный доступ к Veo 3 — генератору видео, который наделал много шума.

На один аккаунт доступно всего 6 попыток, но, как мы знаем, чем больше аккаунтов, тем больше шансов 😉

Акция действует только в выходные. Если давно хотели протестировать Veo 3 — самое время.

👉 Попробовать можно здесь.

P.S. Я уже протестировал — всё работает. Нужен VPN.

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Как я понял из опроса, большинству самых активных участников группы (кстати, спасибо за активность!) хочется, чтобы рубрика новостей была. Меньшая часть высказалась за то, чтобы новости публиковались по мере их появления.
У обоих вариантов есть свои плюсы и минусы. Поэтому я думаю попробовать вести единый новостной формат, но немного доработать его. Например, добавлять заголовки вроде «3D» или «Видеогенераторы», чтобы можно было сразу читать именно ту часть, которая интересна.
Так информация будет лучше структурирована, а всё новостное полотно за неделю станет проще воспринимать.

К новостям! Их не так много — разве что после прошлой недели, когда вышел генератор миров в Genie 3, внезапно прорвалось целое множество подобных решений. Но всё же давайте кратко пройдемся.

🔹Qwen выпустили опенсорсную модель, которая предназначена специально для редактирования изображений: изменения стиля, корректировки деталей, добавление или удаление объектов, а также изменение поз и других элементов.

🔹DeepSeek-V3.1. Наш любимый DeepSeek обновился до новой версии. Все давно ждут новое поколение этой LLM, но, если верить новостям, у ребят хватает проблем: от окупаемости (ведь модель опенсорсная) до перехода на новые чипы для обучения. Отдельная боль для китайцев — то, что американцы, почувствовав конкуренцию, начали жестко регулировать рынок чипов. Надеюсь, они справится со всеми трудностями и еще не раз нас удивит. А пока они немного подтянули и улучшили свою основную версию модели.

🔹В сети активно обсуждают новую модель для редактирования изображений, но пока никто не знает, откуда она появилась, кто её создал и главное — почему её назвали Nano Banana 🙂. По тестам, которые я видел, работает она очень неплохо: местами даже Qwen, GPTChat или Flux Kontext выглядят хуже.

Ждём объяснений и официальных заявлений. Пока же протестировать её можно только в одном месте. Это lmarena.ai-это публичная веб-платформа для независимого сравнения и оценки моделей через парное голосование сообщества.
Пользователи вводят один и тот же запрос двум анонимным моделям, выбирают лучший ответ — после чего раскрывается, какая модель победила, и рейтинг обновляется.

🔹Rodin Gen-2 вышел в бету. Один из неплохих 3д генераторов. Не смог найти только где запрос кидать на доступ. Если найдете, то кидайте)

🔹Kling 2.1. В крайней версии одного из самых лучших видео генераторов появилась возможность добавления первого и последнего кадра. На примерах, которые видел получается очень неплохой морфинг и переходы. Прикрепил один из примеров в комментарии.

🔹Runway. Одна из моделей для видео генераций. Видимо устали бороться с конкурентами и решили стать платформой(по типу Krea), на которой можно использовать и другие модели. Также выпустили свою версию создание игровых миров.

🔹Mirage 2. Реально работающий генератор игровых миров в браузере от компании Dynamics Lab, позволяющий создавать и исследовать 3D-миры в реальном времени на основе загруженных изображений. Система работает на текстовых промптах: вы можете начать, например, с пейзажа Дикого Запада, а затем с помощью команд преобразовать его в городской пейзаж. Mirage 2 поддерживает мультиплеер и позволяет сохранять и делиться игровыми мирами с другими пользователями.

🔹Worldlabs. Еще одна модель генерации миров, которая создает их из обычных изображений, выводя генеративный ИИ на новый, пространственный уровень. Пока в бэтке.

Да что говорить я даже в Hunyuan3d нашел возможность генерировать миры. Видимо какой то тренд, в общем как и писал неделя генераторов миров ).

@VAI_ART
#VAI_News
🔥53👍2
Для тех, кто хочет запускать у себя опенсорсные модели, составил (исходя из рейтингов и своего опыта) два списка. 😎

Локальные приложения для запуска моделей на своём компьютере (удобно и без сложных настроек):

🔹 LM Studio — удобный UI для запуска LLM (LLama, Gemma, Qwen, DeepSeek и тд.) локально и приватно
🔹 Jan.ai — open-source чат-ассистент, работающий offline, который также позволяет запустить на своем компьютере разные опенсорсные модели
🔹 Ollama — простой локальный фреймворк с GUI и CLI, подходит для Mac/Windows/Linux


По локальным из списка также уже есть приложения с предустановленными моделями. Т.е. вам даже искать ничего не надо. Нашли нужную модель в списке - нажали скачать - можно пользоваться.🔥

Сервисы облачных GPU по API:

🔹 Runpod — облачная платформа для запуска AI-моделей с GPU за пару минут
🔹 Vast.ai — маркетплейс аренды GPU
🔹 Immers.cloud — облачные серверы с RTX и Tesla, посекундная тарификация и отличная производительность


Так как ИИ требует серьёзных вычислительных ресурсов, сторонние сервисы предоставляют свои мощности в аренду. У них есть разные тарифы, и это очень удобно, если нужно сделать что-то быстро и относительно недорого. Сразу скажу: это не реклама, а реально работающие и полезные сервисы, которые могут помочь в работе.

Пишите, если знаете ещё хорошие и достаточно простые способы устанавливать и использовать опенсорсные решения в области ИИ. 🤔

@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3👌1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Может быть боян, но я в отпуске насохранял себе интересных новостей, вывалю их на вас, возможно кто-то не видел.

Интересная ИИ-фишка теперь есть в Adobe Illustrator - называется Turntable.

То есть можно поворачивать ПЛОСКИЙ вектор в 3Д! Вокруг своей оси.
ИИ дорисует третье измерение (бока, спину).

Работает неидеально, контура иногда дрожат или едут, но сама фишка удивляет.

Ну и конечно, лучше брать нейтральный фон (отсутствие оного), четкие контуры и простые объекты, которые были в датасете для обучения.

@cgevent
🔥5👍31👌1
This media is not supported in your browser
VIEW IN TELEGRAM
🟥🟥🟥 Сегодня разошелся 😀. Но не могу не поделиться еще одной новостью.

Писал в новостях за прошлую неделю про редактор изображений под названием Nano - Banana.

Nano Banana — это новая модель от Google (все таки Google, долго шифровались) для редактирования изображений с помощью искусственного интеллекта. Она позволяет не только создавать картинки с нуля по описанию, но и аккуратно редактировать уже готовые фото: менять детали, добавлять или убирать объекты, комбинировать два изображения. Главное — она хорошо понимает текстовые запросы и сохраняет важные детали (например, лицо человека или стиль сцены).

Сам еще много его не тестировал. По первым тестам достаточно неплохо редактирует изображения.

Из плюсов выкатили его бесплатно (скорее всего с ограничениями). Из минусов нужен VPN (желательно США или Канада).

Если кто-то потестит его, выкладывайте свои результаты.

Смотреть тут.

Ну и сервисы вроде Krea и других тоже начали внедрять к себе. Если у кого-то есть доступ — можно попробовать..

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
🔹Nano Banana. Конечно же, главная новость этой недели — выход новой модели от Google. Я уже писал про неё тут, в понедельник выйдет отдельный пост с подробностями. А пока, вкратце: это очень мощный инструмент, который способен на многое и значительно упрощает работу, а частично и повседневную жизнь.

🔹Waver 1.0. У нас новая модель генерации изображений и видео подъехала:)Не устали еще? Модель от ByteDance. Модель поддерживает создание видео по тексту и изображениям, генерируя ролики длиной 5–10 секунд в 720p и 1080p. Она умеет отображать реалистичные движения в масштабных сценах с людьми и животными, создавать нарративные видео с несколькими последовательными кадрами, а также работать в разных художественных стилях — от гиперреализма до анимации и плюшевых игрушек. Кроме того, модель справляется со сложными движениями (например, в спорте) и поддерживает многокамерное повествование, сохраняя единый стиль и атмосферу.

🔹Moises AI Studio. Новый музыкальный генератор. Он умеет создавать стемы — отдельные дорожки для разных инструментов — на основе вашего аудио с одним треком (голос, гитара или что угодно).ИИ сам делает аранжировку к вашей мелодии: можно доверить всё автоматике (режим audio2audio) или управлять процессом через промпт.Платформа также включает генератор текстов и инструменты для мастеринга. По сути, это полноценная ИИ-студия для музыкантов.
Есть бесплатный тариф — достаточно, чтобы попробовать

🔹VibeVoice. Новая модель преобразования текста в речь (TTS) для длительных разговоров с несколькими голосами от Microsoft.

🔹NotebookLM: Video Overviews. Понемногу дополняют свою модель для презентаций. Доработали озвучку и добавили языков. Можно делать длинные презентации. Просто закидываете в любом формате исходник, модель делает выжимку и презентацию. Аудио озвучка делает подкасты до 25 минут. Закинул пример, который нашел в сети в комментарии. Очень полезный инструмент для структурирования любой информации.

🔹Krea.ai. Сделали генерацию видео в реальном времени. Выглядит интересно. Также интересно будет наблюдать, что из этого получится. Закинул в комментарии пример.

🔹Hailuo Minimaх. Добавили ключевые кадры. Очень часто слышу и читаю от людей, которые занимаются видео контентом, что это одна из лучших моделей для работы. Тоже не стоят на месте и понемногу обновляются.

🔹Anthropic сделали Claude-агента. Выглядеть это будет примерно как на видео, которое я приложил в комментарии: агент сможет выполнять какие-то действия непосредственно в браузере или выступать компаньоном-консультантом. В общем, если кто пользовался Comet от Perplexity – это плюс минус то же самое.
Единственная грустная новость: пока расширение доступно только в research preview для 1000 юзеров. Стартап хочет собрать достаточно ОС перед тем как выпускать продукт в массы. Вейтлист тут.

🔹OpenAI выпустили новую speech2speech модель gpt-realtime и сделали Realtime API общедоступным. Теперь можно создавать голосовых ботов и ассистентов с минимальной задержкой, естественной речью, следованием инструкциям и доступом к инструментам/базам знаний. В API добавили MCP, поддержку картинок, новые голоса и снизили цены на 20% при улучшенных метриках. Послушать и протестировать можно здесь и тут.

@VAI_ART
#VAI_News
👍71
ИИ для редактирования изображений.

Так, давайте пройдемся по ИИ для редактирования изображений. Думаю, нужно подсобрать всё. Сейчас у нас есть очень неплохой набор инструментов, которые могут помочь в реализации широкого спектра задач — как для работы, так и для личных целей.🫡

Что именно у нас есть из инструментов сейчас:

GPTChat — работает в платном тарифе, но есть бесплатные генерации с ограничениями каждый день.
Flux.Kontext — на данный момент представлена в 3 моделях: две доступны через агрегаторы и являются платными, одна (самая простая) — опенсорсная и бесплатная.
Grok 4 — работает в платном тарифе, но есть бесплатные генерации с ограничениями каждый день.
Qwen — открытая и бесплатная модель.
Nano Banana (тестовое название) / Gemini Native Image — на данный момент бесплатная, но нужен VPN (американский или канадский).

Эти нейросети понимают картинку и команды пользователя (обычно в текстовом виде) и могут вносить изменения: менять детали, стиль, цвет, убирать или добавлять объекты, объединять изображения. Их задача — сделать редактирование максимально простым: вместо ручной работы в Photoshop достаточно описать словами, что нужно изменить, и модель сама подстроит картинку под запрос, сохраняя её реалистичной и цельной. 🔥🔥🔥

Говоря про эти инструменты, возможно, не все понимают весь спектр их возможностей. Да, у каждого из них есть свои проблемы и ограничения. Но, во-первых, почти все они сейчас представлены в первых версиях (кроме ChatGPT), а во-вторых, при правильном использовании и понимании сильных и слабых сторон конкретного инструмента многие проблемы можно обходить.

От появления первых функций редактирования в ChatGPT до того, что сейчас вытворяет Nano Banana, прошло всего полгода — а прогресс огромный. А что будет еще через пол года? 🥸

Будущее приходит не за один щелчок, а постепенно. И вот мы уже в точке, где старые инструменты всё больше отходят на второй план, оставаясь в основном для доработки полученных генераций.

Я думаю, по прикреплённым к посту изображениям видно, на что способны эти модели. Но это лишь небольшая часть — многое ещё предстоит переосмыслить в стандартных подходах к работе.

Напишите, может уже использовали что-то и у вас есть какие то интересные нетривиальные решения задач. 🧐

Всем крутой недели! Погнали!💪

P.S. Скорее всего чуть меньше буду писать пару недель. В ближайшее время будет очень много работы. Постараюсь поддерживать контентом. Не теряйтесь!

P.P.S. Я как-то писал, что есть посты, которые пока лежат «в столе». По первым тестам Nano Banana удалось решить одну проблему — не до конца, но уже заметен хороший рабочий процесс, который можно использовать. Готовьтесь: это может немного сбить привычное восприятие, основанное на старых подходах. Постараюсь на неделе показать.

@VAI_ART
#VAI_General
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82🤩1
Получено подтверждение — мы в зоне ИИ-сингулярности
Только что вышел шокирующий отчет, переворачивающий наше понимание скорости развития ИИ

Вспомните мир до ChatGPT. Кажется, это было целую вечность назад. Именно тогда, летом 2022 года, лучшие умы планеты — «суперпрогнозисты» и ведущие отраслевые эксперты — собрались на турнир, чтобы предсказать будущее на ближайшие 2-3 года. Они делали ставки на прогнозы экзистенциальных рисков для человечества. И уже тогда было очевидно, что один из таких рисков – бурный прогресс в области ИИ.
И вот сегодня вышел новый отчет, анализирующий точность тех прогнозов (Assessing Near-Term Accuracy in the Existential Risk Persuasion Tournament).
И стало ясно, - все прогнозы провалились. Катастрофически.


Масштаб недооценки поражает

Математические способности (MATH Dataset):
• ИИ достиг 87,8% в апреле 2024
• Эксперты давали вероятности этого всего 21%
• Суперпрогнозисты — 9%

Общие знания (MMLU):
• ИИ набрал 88,7% к середине 2024
• Эксперты оценивали это в 25%
• Суперпрогнозисты - давали 7%

Математическая олимпиада:
• ИИ получил золото в июле 2025
• Эксперты думали это случится после 2030
• Суперпрогнозисты — после 2035
• Вероятность, что это случится в 2025, была, по их мнению - 8,6% и 2,3%

Вычислительная мощность:
• Суперпрогнозисты недооценили в 5 РАЗ

Что это означает
Турнир закончился ДО выхода ChatGPT в ноябре 2022. Именно тогда началось безумие.
Мы вошли в фазу технологической сингулярности: скорость прогресса стала настолько высокой, что любые прогнозы теряют смысл из-за систематических недооценок.

Малоприятный вывод
Если лучшие эксперты мира недооценивают скорость развития ИИ в 5-10 раз, то:
текущие прогнозы достижения человеческого уровня к 2030 году (типа «мягкой сингулярности Сэма Альтмана»), могут осуществиться уже в 2026


Тогда вопрос на на много триллионов $
Готовы ли мы к тому, что ИИ человеческого уровня появится не через 5 лет, а через год?


Ведь если даже лучшие эксперты не могут предсказать прогресс на 2 года вперёд, может быть, пора признать, что никто больше не контролирует скорость происходящего?

Наше авто как будто несется на немыслимой скорости в густом тумане, и педаль акселератора вжата в пол. А этот отчет — первое реальное доказательство того, что все мы внутри этого авто.

#Сингулярность #Техносингулярность
9👍3💯1
Forwarded from ИИгорь
Media is too big
VIEW IN TELEGRAM
Видос про установку и тест 2х плагинов с нейронками для фотошопа, а именно Nano-Banana И ComfyUi. Записан экспромтом в моем обычном стиле, поэтому лучше смотреть на 1.5 скорости.

Установка Nano-Banana на 6:30.
Начало про Comfy на 14:50.

🍌 Скрипт для Nano-Banana и Flux Context: Гамроуд
🎷 Плагин c Comfy UI: Гитхаб
Тут надо скачать Required Files, сам плагин отсюда качать на надо, т.к. он старый, кривой и больше не пашет.
🐪 Вот тут починенный мной плагин: Гугол диск

Там 2 папки и файл json.

Папку comfyui-photoshop кладем в
\ComfyUI\custom_nodes

Папку Ai-Comfy кладем в
c:\Program Files\Adobe\Adobe Photoshop 2025\Plug-ins

Воркфлоу кладем либо сюда, либо перетаскиваем в комфи и сохраняем.
\ComfyUI\user\default\workflows\PHOTOSHOP.json

Ну и, конечно, надо будет обновить сам комфи до последней версии и установить недостающие ноды через менеджер.
🔥85😱21