VAI
2.88K subscribers
441 photos
75 videos
4 files
124 links
15 лет в компьютерной графике, 6 лет - арт-директор.
Работал над десятками проектов.
Изучаю ИИ для развития и собираю здесь свой опыт, находки и эксперименты.
Присоединяйтесь!
Личный контакт - @AlexBakakin
Boosty - boosty.to/vai_art

AI l ИИ
Download Telegram
Год продолжается серией запусков новых видео-генераторов. За последние несколько дней вышло много интересных обновлений, и думаю, стоит с вами ими поделиться:

🔹Seedance — новая видео модель
🔹Minimax — обновился до версии Hailuo 02
🔹Midjourney — решился двигаться дальше и запустил свою видео модель
🔹Higgsfield — добавили поддержку Flux.Kontext

Видео с каждой моделью прикреплены к посту и расставлены по порядку(относительно описания выше), чтобы вам было понятно, какое видео к какой модели относится.

На деле, пока не понятно, нужно будет оценить их эффективность после тестов.

Скорее всего, каждая из них займёт свою нишу и будет выполнять свой набор задач. Это, в принципе, уже происходит с множеством других видео-генераторов и ИИ-инструментов.

Основная проблема сегодняшнего времени — огромное количество ИИ, но ни один из них не может закрыть весь стэк задач в своей нише. Все эти модели обучались по-разному и на различных датасетах, каждая имеет свои плюсы и минусы. Это касается не только видео-генераторов, но и всех ИИ-сетей в целом.

Сейчас важно иметь базу ИИ-сетей и чёткое понимание, что каждая из них умеет. Это позволит максимально эффективно использовать их.

В будущем мы, конечно, получим много крутых моделей, но пока что ситуация выглядит так.

Может составить топ ИИ-сетей, где и как их можно использовать?

@VAI_ART
#VAI_News
👍107
Слушай, а ловко ты это придумал, я даже в начале и не понял. ©

Или история о том, как сжечь месячную подписку в Midjourney за час. 😅

Решил немного сделать быстрых тестов. Получилось достаточно неплохо. Особенно хорошо работает с художественными стилями: как-то разбирает всю кашу в изображениях и даже не теряет суть.

Старт очень хороший, несмотря на то, что пока 480p и 5 секунд хронометража. Точно будет интересно понаблюдать за развитием данного ИИ.

По традиции, всем хороших и тёплых выходных. ❤️

@VAI_ART
#VAI_Gallery
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
Наконец то добрался до Eleven labs, которая специализируется на генеративном аудио и голосовом синтезе с помощью ИИ.😎

Большое количество функций, таких как:

- Text-to-Speech. Создает реалистичные голосовые озвучки с естественной интонацией и эмоциями. Поддержка более 70 языков и тысячи голосов
- Voice Cloning. Копирует даже уникальные голоса по короткому аудиосэмплу — от простого до профессионального качества
- Speech-to-Text. Преобразует речь в текст с высокой точностью (~98 %) и умеет определять разных говорящих .
- Conversational AI & Dubbing. Голосовые ассистенты, дубляж и озвучка видео с сохранением эмоций и смысла исходного материала.
- Sound Effects. Генерация звуковых эффектов по описанию.

Получается достаточно хорошо. Я раньше скидывал аналогичный сервис от Google, но в Eleven Labs, например, озвучка текста выглядит лучше. Есть звуковые растяжки, ускорение или замедление речи и т.д., что делает голос ещё более естественным. Ну и у них также есть расстановка акцентов по типу смеха, страха, шёпота, крика и т.д. Работает не всегда — бывает, что не реагирует на такие вставки. Делается это просто: в квадратных скобках указывается эмоция, например [смех] или [laughter]. Полный список доступен в руководстве.

Многие функции работают в бесплатном режиме.

Также на днях Minimax выпустили свою модель — со всеми функциями, которые перечислял выше у Eleven Labs.

Спектр применения довольно широк — от копирования любого голоса, до генерации звуков и озвучки роликов и подкастов. Думаю, каждый найдёт для себя способ использования такого типа ИИ.

В общем, достаточно хороший инструмент для работы с голосом и звуками. Пользуйтесь! 🔥

В комментариях пример генерации голоса. Как по мне, очень выразительный и органичный и уже практически не различимый с человеческим.

P.S. ElevenLabs и Google работают только через VPN, а вот Minimax не выпендривается и заводится без всего.

@VAI_ART
#VAI_General
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54
Forwarded from Нейронично
День на генерацию 2д-концептов предметов и модульного окружения в ChatGPT и Sora.
Полтора дня на генерацию 3д в нейронке Hunyuan 2.5.
Полтора дня на сборку и свет в анриле.

Я в шоке, что 4 дня назад гуляла по этой локации у себя в голове, а теперь вот гуляю в анриле.

Из-за очень плотной сетки такой способ пока работает для превиза в геймдеве и стиллов под дальнейшую анимацию в нейронках. И ещё как новый инструмент для концепт-арта, потому что собрать такой драфтовый уровень в анриле теперь быстрее, чем нарисовать. Проблемы с сеткой скорее всего будут решены или значительно оптимизированы в течение года.

Всего было сгенерено 150 пропсов, в самой сцене использовано примерно 130. Руками правились только текстура на портрете Теслы и ковры, всё остальное - чистые 3д-генерации из хуньяня.

#3d_Aironically
👍4🔥32
Способы генерация изображений 🔥🔥🔥

При генерации изображений до сих пор не получается получить нужный результат с первого прохода. Чаще всего это комбинация разных ИИ и подходов, и, конечно, доработки руками. Даже так это в разы ускоряет работу.

Получить что-то абстрактное или близкое к нужному — да, но конкретную идею приходится добивать.

Существует несколько способов генерации изображений. По сути различается только начальная стадия, все зависит от задачи и исходных материалов.

1. Генерация изначально около подходящего изображения:

- я ищу подходящий референс или использую уже найденный (у меня есть база изображений, которые мне нравятся). Загружаю это изображение в языковую модель, которая умеет считывать изображения, и прошу её составить промпт. Дальше дорабатываю его, чтобы получить нужный результат.

- ChatGPT или Sora (работают только по подписке). Почему я использую именно их? Эти модели поддерживают русский язык, и не нужно думать, как бы это написать на английском. Мне важно делать всё максимально просто, и модели позволяют это. Иногда помогает грубый скетч, иногда можно просто общаться с моделью — всё ситуативно и зависит от задачи.

- так же через ChatGPT составляю промпт и иду в Midjourney. Это всё ещё лучший инструмент в плане художественности и понимания стилей. С его помощью получаю нужный результат в плане общего вида, настроения и стиля. Но, как обычно, результат получается не идеальным — тут цвет нужно поправить, здесь форма не такая, как хотелось бы и тд.

2. Доработка с помощью inpaint/outpaint

В итоге обычно получается результат, близкий к нужному, но всё равно требующий доработки. Дальше в ход обычно шли инструменты inpaint или outpaint, о которых я уже писал. Почему раньше? С появлением Flux Kontext, про который я тоже упоминал, игра изменилась. С его консистентностью править изображения стало гораздо проще.

3. Ручная доработка

Подправить косяки или совместить элементы из разных получившихся вариантов.

4. Апскейлеры

В конце — апскейлеры. Всё зависит от результата: можно попросить увеличить качество изображения или добавить немного креативности. Также он помогает соединить и зашлифовать стыки, если до этого не сильно прорабатывались детали.

Этот пайплайн нужен, если нужно получить хороший и контролируемый результат для дальнейшей работы. Если просто хочется красивую случайную картинку, то можно так не заморачиваться.

Опять же все зависит от того что требуется. Если нужно что-то с нашими локальными особенностями (панельки, балалайки, матрешки и т.д.), то можно использовать Reve, она отлично работает с советскими/российскими деталями. Если нужно вставить что-то конкретное, можно использовать Gen-4 References в Runway. Например, если у вас есть фото машины, человека и окружения, этот инструмент комбинирует все три изображения и создаёт из них одно, также используя описание, которое добавляется.

Как и говорил все зависит от ситуации.

А как вы делаете? Буду рад услышать новые решения 🙂

@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
Некоторые сны — как плохая генерация? 🧐

На днях снилась такая дичь, проснулся с мыслью — а не работает ли наш мозг во сне как нейросеть, у которой не хватает «мощности» и данных?

Да, это происходит не всегда. А что, если "качество самой картинки" зависит от ресурсов, которые мозг выделяет на конкретный сон?

У каждого бывали такие сны, в которых происходят абсурдные, нелогичные вещи. Сюжеты скачут. Люди превращаются в других. Пространства сливаются.
А потом ты смотришь видео, сгенерированное какой-нибудь ИИ-моделью, и ловишь себя на том же ощущении.

Ведь мозг во время сна отключен от внешнего мира, но продолжает перерабатывать внутренние переживания, мысли, воспоминания.
И делает это, в своем латентном (скрытом) пространстве.

Он берёт фрагменты из памяти, складывает их, дополняет, интерпретирует.
В результате и получаются те самые сны, в которых сюжеты, пространства, объекты сливаются и перемешиваются.

Может быть, сны — это и есть биологическая генерация, основанная на внутренних промптах: "что я чувствовал", "о чём думал", "что не успел пережить".
Мозг собирает из этого сюжет — так же, как генератор собирает видео из текста.

Подумалось, что это интересная точка для размышлений. Ведь чисто на математическом уровне нейросети копируют поведение нейронов в мозгу.

Есть над чем подумать. 😀

@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6💯21🦄1
🟥🟥🟥По Flux.Kontext многие писали, что ссылки, которые я присылал раньше, уже не работают. Пообещал, что если найду что-то новое, то поделюсь. Нашёл! Пользуйтесь — в районе 12-ти генераций в день, по 4 варианта изображения за каждую. Ну и как обычно, чем больше аккаунтов Google, тем больше возможностей!

Также, наконец то вышел Flux Kontext Dev. Это локальная версия для компьютера. Ставится как обычно через ConfyUI и тд. Если кто-то любит спагетти-налетайте 😉

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Хотел выпустить другой пост, но не успел доделать — видимо, уже на следующей неделе. 🧐

Зато есть хорошие новости! Очень рад, что и в 3D начали происходить сдвиги. Недавний Hunyuan3D наделал шума — и не зря, модель действительно крутая. Мы уже начинаем использовать её в работе для ряда задач — и это сильно ускоряет процесс.

Но за последнее время появились ещё две новинки: Hitem3D и Sparc3D. Sparc3D правда сейчас лежит, подвергся какой-то атаке, но обещают восстановить доступ. Как я понял, обе модели сделаны одними и теми же ребятами, так как ссылка с Huggingface Sparc3D, ведет на Hitem3D. По тем тестам, что я видел, они лучше работают с деталями, относительно Hunyuan3D (тут надо тестировать). Хотя, по слухам, скоро выйдет третья версия Hunyuan3D — и вот тогда, скорее всего, будет жара.

Из “минусов” — на выходе только геометрия: без развертки и текстур.

В каждой есть бесплатные генерации. Пробуйте!


Тесты нужно по ним сделать или сами справитесь?

Всем хороших выходных! 👋

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👌32👍1
Не все эксперименты удачны — на то они и эксперименты. Это работает примерно так же, как и с созданием арта: куча всего уходит «в стол». Что-то — насовсем, что-то превращается в долгострой и просто ждёт своего времени.

Потестил Sora — хотел получить сочные, необычные рекламные изображения. Как по мне, получилось хорошо! Особенно радует работа с кириллицей — в 90% случаев нет ни ошибок, ни опечаток. Более того, у меня пару раз было, что я сам делал опечатку в слове, а Sora исправляла и писала правильно 😅

Пример промпта
A hyper-realistic, ultra-detailed 3D digital advertisement showcasing a Butterfly Pea flower "VAI" with candy looks like a shit soda can torn open at its center, revealing a burst of indigo blue "Освежает от сухого AI" petals slices spilling out. The can's metallic surface is rendered with sharp, realistic textures, including condensation droplets and lifelike reflections. The petals appear juicy and vibrant, with some flying outward in a dynamic explosion of creamy, light-red liquid and scattered droplets. The composition features a radiant indigo gradient background with subtle volumetric lighting, complemented by fresh candy leaves adding a tropical, organic touch. Cinematic depth of field and motion blur emphasize the explosive energy of the scene, rendered in ultra-crisp 4K UHD with global illumination, HDR lighting, and realistic shadows. The style evokes premium beverage advertising, using advanced rendering techniques such as Unreal Engine and Octane Render for a striking, dramatic presentation.


Всегда, если спрашивают, советую оформить подписку на ChatGPT. За относительно небольшую сумму — 10 долларов (сейчас около 800 рублей) — вы получаете доступ к Sora, причем с неограниченным количеством генераций (на бесплатном тарифе они дают 3 генерации в день). Плюс куча других полезных фич в довесок. Можно скинуться на двоих, троих — и использовать совместно. Проверено, это работает. 🤓

Кстати! На прошлой неделе Google открыл бесплатный доступ к своей модели Imagen 4. Она чем-то похожа на Sora: тоже даёт качественные картинки, хорошо понимает промпты, есть поддержка русского языка (можно писать промты на русском). Но с кириллицей пока беда. Для использования нужен VPN. В интерфейсе справа есть список версий — переключитесь сразу на Ultra, в ней результат заметно лучше.

P.S. Не забывайте про
таблицу с ИИ, которую я веду. Она уже разрослась настолько, что скоро придётся делать вкладки — становится слишком много всего. 🙂

@VAI_ART
#VAI_Gallery
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥1