VAI
2.77K subscribers
441 photos
75 videos
4 files
124 links
15 лет в компьютерной графике, 6 лет - арт-директор.
Работал над десятками проектов.
Изучаю ИИ для развития и собираю здесь свой опыт, находки и эксперименты.
Присоединяйтесь!
Личный контакт - @AlexBakakin
Boosty - boosty.to/vai_art

AI l ИИ
Download Telegram
Способы генерация изображений 🔥🔥🔥

При генерации изображений до сих пор не получается получить нужный результат с первого прохода. Чаще всего это комбинация разных ИИ и подходов, и, конечно, доработки руками. Даже так это в разы ускоряет работу.

Получить что-то абстрактное или близкое к нужному — да, но конкретную идею приходится добивать.

Существует несколько способов генерации изображений. По сути различается только начальная стадия, все зависит от задачи и исходных материалов.

1. Генерация изначально около подходящего изображения:

- я ищу подходящий референс или использую уже найденный (у меня есть база изображений, которые мне нравятся). Загружаю это изображение в языковую модель, которая умеет считывать изображения, и прошу её составить промпт. Дальше дорабатываю его, чтобы получить нужный результат.

- ChatGPT или Sora (работают только по подписке). Почему я использую именно их? Эти модели поддерживают русский язык, и не нужно думать, как бы это написать на английском. Мне важно делать всё максимально просто, и модели позволяют это. Иногда помогает грубый скетч, иногда можно просто общаться с моделью — всё ситуативно и зависит от задачи.

- так же через ChatGPT составляю промпт и иду в Midjourney. Это всё ещё лучший инструмент в плане художественности и понимания стилей. С его помощью получаю нужный результат в плане общего вида, настроения и стиля. Но, как обычно, результат получается не идеальным — тут цвет нужно поправить, здесь форма не такая, как хотелось бы и тд.

2. Доработка с помощью inpaint/outpaint

В итоге обычно получается результат, близкий к нужному, но всё равно требующий доработки. Дальше в ход обычно шли инструменты inpaint или outpaint, о которых я уже писал. Почему раньше? С появлением Flux Kontext, про который я тоже упоминал, игра изменилась. С его консистентностью править изображения стало гораздо проще.

3. Ручная доработка

Подправить косяки или совместить элементы из разных получившихся вариантов.

4. Апскейлеры

В конце — апскейлеры. Всё зависит от результата: можно попросить увеличить качество изображения или добавить немного креативности. Также он помогает соединить и зашлифовать стыки, если до этого не сильно прорабатывались детали.

Этот пайплайн нужен, если нужно получить хороший и контролируемый результат для дальнейшей работы. Если просто хочется красивую случайную картинку, то можно так не заморачиваться.

Опять же все зависит от того что требуется. Если нужно что-то с нашими локальными особенностями (панельки, балалайки, матрешки и т.д.), то можно использовать Reve, она отлично работает с советскими/российскими деталями. Если нужно вставить что-то конкретное, можно использовать Gen-4 References в Runway. Например, если у вас есть фото машины, человека и окружения, этот инструмент комбинирует все три изображения и создаёт из них одно, также используя описание, которое добавляется.

Как и говорил все зависит от ситуации.

А как вы делаете? Буду рад услышать новые решения 🙂

@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
Некоторые сны — как плохая генерация? 🧐

На днях снилась такая дичь, проснулся с мыслью — а не работает ли наш мозг во сне как нейросеть, у которой не хватает «мощности» и данных?

Да, это происходит не всегда. А что, если "качество самой картинки" зависит от ресурсов, которые мозг выделяет на конкретный сон?

У каждого бывали такие сны, в которых происходят абсурдные, нелогичные вещи. Сюжеты скачут. Люди превращаются в других. Пространства сливаются.
А потом ты смотришь видео, сгенерированное какой-нибудь ИИ-моделью, и ловишь себя на том же ощущении.

Ведь мозг во время сна отключен от внешнего мира, но продолжает перерабатывать внутренние переживания, мысли, воспоминания.
И делает это, в своем латентном (скрытом) пространстве.

Он берёт фрагменты из памяти, складывает их, дополняет, интерпретирует.
В результате и получаются те самые сны, в которых сюжеты, пространства, объекты сливаются и перемешиваются.

Может быть, сны — это и есть биологическая генерация, основанная на внутренних промптах: "что я чувствовал", "о чём думал", "что не успел пережить".
Мозг собирает из этого сюжет — так же, как генератор собирает видео из текста.

Подумалось, что это интересная точка для размышлений. Ведь чисто на математическом уровне нейросети копируют поведение нейронов в мозгу.

Есть над чем подумать. 😀

@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6💯21🦄1
🟥🟥🟥По Flux.Kontext многие писали, что ссылки, которые я присылал раньше, уже не работают. Пообещал, что если найду что-то новое, то поделюсь. Нашёл! Пользуйтесь — в районе 12-ти генераций в день, по 4 варианта изображения за каждую. Ну и как обычно, чем больше аккаунтов Google, тем больше возможностей!

Также, наконец то вышел Flux Kontext Dev. Это локальная версия для компьютера. Ставится как обычно через ConfyUI и тд. Если кто-то любит спагетти-налетайте 😉

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Хотел выпустить другой пост, но не успел доделать — видимо, уже на следующей неделе. 🧐

Зато есть хорошие новости! Очень рад, что и в 3D начали происходить сдвиги. Недавний Hunyuan3D наделал шума — и не зря, модель действительно крутая. Мы уже начинаем использовать её в работе для ряда задач — и это сильно ускоряет процесс.

Но за последнее время появились ещё две новинки: Hitem3D и Sparc3D. Sparc3D правда сейчас лежит, подвергся какой-то атаке, но обещают восстановить доступ. Как я понял, обе модели сделаны одними и теми же ребятами, так как ссылка с Huggingface Sparc3D, ведет на Hitem3D. По тем тестам, что я видел, они лучше работают с деталями, относительно Hunyuan3D (тут надо тестировать). Хотя, по слухам, скоро выйдет третья версия Hunyuan3D — и вот тогда, скорее всего, будет жара.

Из “минусов” — на выходе только геометрия: без развертки и текстур.

В каждой есть бесплатные генерации. Пробуйте!


Тесты нужно по ним сделать или сами справитесь?

Всем хороших выходных! 👋

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👌32👍1
Не все эксперименты удачны — на то они и эксперименты. Это работает примерно так же, как и с созданием арта: куча всего уходит «в стол». Что-то — насовсем, что-то превращается в долгострой и просто ждёт своего времени.

Потестил Sora — хотел получить сочные, необычные рекламные изображения. Как по мне, получилось хорошо! Особенно радует работа с кириллицей — в 90% случаев нет ни ошибок, ни опечаток. Более того, у меня пару раз было, что я сам делал опечатку в слове, а Sora исправляла и писала правильно 😅

Пример промпта
A hyper-realistic, ultra-detailed 3D digital advertisement showcasing a Butterfly Pea flower "VAI" with candy looks like a shit soda can torn open at its center, revealing a burst of indigo blue "Освежает от сухого AI" petals slices spilling out. The can's metallic surface is rendered with sharp, realistic textures, including condensation droplets and lifelike reflections. The petals appear juicy and vibrant, with some flying outward in a dynamic explosion of creamy, light-red liquid and scattered droplets. The composition features a radiant indigo gradient background with subtle volumetric lighting, complemented by fresh candy leaves adding a tropical, organic touch. Cinematic depth of field and motion blur emphasize the explosive energy of the scene, rendered in ultra-crisp 4K UHD with global illumination, HDR lighting, and realistic shadows. The style evokes premium beverage advertising, using advanced rendering techniques such as Unreal Engine and Octane Render for a striking, dramatic presentation.


Всегда, если спрашивают, советую оформить подписку на ChatGPT. За относительно небольшую сумму — 10 долларов (сейчас около 800 рублей) — вы получаете доступ к Sora, причем с неограниченным количеством генераций (на бесплатном тарифе они дают 3 генерации в день). Плюс куча других полезных фич в довесок. Можно скинуться на двоих, троих — и использовать совместно. Проверено, это работает. 🤓

Кстати! На прошлой неделе Google открыл бесплатный доступ к своей модели Imagen 4. Она чем-то похожа на Sora: тоже даёт качественные картинки, хорошо понимает промпты, есть поддержка русского языка (можно писать промты на русском). Но с кириллицей пока беда. Для использования нужен VPN. В интерфейсе справа есть список версий — переключитесь сразу на Ultra, в ней результат заметно лучше.

P.S. Не забывайте про
таблицу с ИИ, которую я веду. Она уже разрослась настолько, что скоро придётся делать вкладки — становится слишком много всего. 🙂

@VAI_ART
#VAI_Gallery
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥1
Провел сравнение 3D-генераторов, которые на данный момент являются топовыми.

Сравнивал:

- Hunyuan3D
- Hitem3D
- Sparc3D

Сравнение было по пунктам:

- Объект техники, реализм (мотоцикл)
- Объект стилизованный (сундук)
- Стилизованный персонаж (улитка)
- Реалистичный персонаж (бюст)
- Растительность стилизованная (дерево)

Реалистичную растительность не включил в список, так как там пока всё не очень — но это пока. 🙃

Все генераторы показали неплохой результат. Уже сейчас они могут заменить часть работы, что не может не радовать.

Все тесты строились на изображении с одного ракурса.

Как и предполагалось, Hitem3D и Sparc3D показали лучшую передачу форм и детализацию. Также они лучше достраивают скрытую часть (ту, которой не было видно на изображении). Из этих двоих я бы сказал, что Sparc3D лучше выдает детализацию и формы. Hitem3D показал себя похуже.
Hunyuan3D упрощает очень сложную геометрию — например, тот же мотоцикл. Зато у него есть небольшой плюс — автоматическая генерация развёртки и текстурных карт (в тесте я не стал включать текстуры, сравнивал модели только на уровне форм). Да, многим не нравится, как он делает эту часть работы, но она есть и уже заменяет часть пайплайна.

Подробно про Hunyuan3D писал в отдельном посте — там и плюсы генерации текстур расписаны.

В общем, как писал раньше: хорошие генераторы для базы. Если речь идёт о полноценном пайплайне для игр в 3D — это отличное начало. И неплохая часть пайплайна, если речь про 3D под обрисовку.

По моим тестам победил 🥇 Sparc3D🥇. А значит, что на данный момент это топовый генератор в 3D-графике (из доступных).

И для примера — пост с результатами трёхмесячной давности. Помните, что там было? И что уже сейчас показывает эта тройка? А что будет ещё через пару-тройку месяцев? Лично мне очень интересно!

В комментарии закинул файлик с этими объектами — если кому-то вдруг захочется покрутить и лично посмотреть, что получилось. Файл очень тяжелый, так как сами объекты очень тяжелые по сетке.

@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
Я тут на неделю выпал. Прошу понять-простить 🤓.

По ИИ изучал, смотрел, но было очень лень писать. Лето, солнце + много дел накопилось. Постараюсь наверстать.

За эту неделю канал преодолел 1000 подписчиков. Не устану говорить спасибо за доверие! ❤️

Как и писал — планов много. Осталось найти свободное время, чтобы всё реализовать 🙂.

Рвём дальше! 🚀🚀🚀 Мы только в самом начале пути!

P.S. После 1000 подписчиков Telegram сам начинает вставлять рекламу в канал (если у вас нет Premium). Знайте — это не я.
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥3🎉2
Forwarded from Data Secrets
Kimi-K2 – новая звездная китайская модель, рвущая бенчмарки. Главное:

Модель открытая и в ней 1 триллион параметров. Не пугайтесь: это MoE и активных из них всего 32В. Архитектура похожа на DeepSeek V3, в этом разработчики сами признаются в блогпосте. Выложили и Base, и Instruct.

Не ризонинг, но с отличными агентскими способностями. Обучение использованию инструментов добавляли прямо в пайплайн с помощью интересного конвейера: в разных доменах стимулируются сотни сред с синтетическими и реальными инструментами, и агент учится в них действовать. Ну и, конечно, шлифуется все RL.

Модель – SOTA в кодинге среди не-ризонинг моделей. Обходит даже GPT-4.1, Gemini 2.5 Flash и Sonnet 4 без thinking. Ну и цена на API, ожидаемо, в несколько раз ниже.

В очередной раз респектуем китайскому опенсорсу и ждем ризонинг-версию

Веса | Блогпост | Репа | Попробовать модель
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Интересно было посмотреть возможности ИИ в паттернах и текстурных поверхностях. Посидел в Sora — и как по мне, справляется хорошо. 💪

Тут сразу три вещи:
- возможность создания паттернов и текстур
- понимание тонкостей разных росписей — тут и Гжель, и Хохлома. Как выяснилось, Sora понимает даже такие штуки. Чем отличается Семёновская роспись от Полхов-Майданской? Не парьтесь — Sora знает это за вас. И речь не только про наши региональные виды росписи. Я пробовал характерные росписи других стран, получается также хорошо
- возможность смешивания разных типов росписи с разными стилями и темами

Итог: можно делать такие штуки, которые действительно могут помочь — например, при создании текстурных поверхностей для моделей или для дизайнеров, которые хотят реализовать даже на первый взгляд несовместимые идеи и стили с помощью ИИ. 🔥🔥🔥

@VAI_ART
#VAI_Gallery
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102