VAI
2.8K subscribers
431 photos
75 videos
4 files
122 links
15 лет в компьютерной графике, 6 лет - арт-директор.
Работал над десятками проектов.
Изучаю ИИ для развития и собираю здесь свой опыт, находки и эксперименты.
Присоединяйтесь!
Личный контакт - @AlexBakakin
Boosty - boosty.to/vai_art

AI l ИИ
Download Telegram
Media is too big
VIEW IN TELEGRAM
Немного про вайбкодинг во вторник. Зато работает😁

@VAI_ART
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13🔥10
Напишу сюда планы на развитие как небольшое обещание себе. 🙂

Все требует развития. Невозможно сидеть в одних рамках все время. Это нужно для движения во всем. Тут также нужно развиваться и двигаться. Поэтому я поставил некоторые планы на этот год.

1️⃣ Купить наконец-то микрофон и начать записывать посты голосом также.
2️⃣ Купить камеру, чтобы записывать полноценные видеоролики.
3️⃣ Запустить страницу на Boosty. Буду там размещать более подробные посты с полным разбором пайплайнов через ИИ.
4️⃣ Запустить канал на YouTube. Буду размещать полноценные видеоролики (но это не точно).

Тут главное не порвать штаны. 😁

В ТГ всё останется так же. Надеюсь, его не прикроют. 🤞На том же Boosty будут разборы и применение инструментов на практике. Так как такие вещи отнимают очень много времени, я решил брать за применение таких инструментов символическую плату.

P.S.Кстати, буду благодарен за наводки по микрофону и камере (цена/качество).

P.P.S.Пост про генерацию локации будет на следующей неделе, уже начал подготовку.

@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍5
Интересное интервью с одним из создателей Higgsfield. Хотя к самой платформе есть некоторые вопросы, ребята из Казахстана все равно большие молодцы.

Это на выходные расслабиться. 🙂

@VAI_ART
Please open Telegram to view this post
VIEW IN TELEGRAM
💩5👍3🔥21
Ох.Праздники прошли и начинается сумасшедший карнавал новостей.То,про что говорил в конце года.Происходит очень много всего и везде.Быстро пробежимся по самому интересному.

🔹 Kling анонсировал новую версию 3.0.Поддержка 4K-разрешения и частоты 60 кадров в секунду без потери качества.Модель получила обновленный физический движок, который исправил ошибки при взаимодействии объектов,увеличила длительность роликов до 60 секунд и внедрила глубокую консистентность персонажей для создания серийных видео.Все это работает на базе архитектуры Omni,позволяющей генерировать видео сразу с синхронизированным звуком и управлять процессом через интерактивный холст.

Появится уже скоро.Должна быть хорошей моделью,которая будет либо лучше,либо конкурировать с VEO и Sora.

🔹 Google запустили Project Genie.Новый экспериментальный сервис от Google,который превращает текстовое описание или обычную картинку в интерактивные 3d миры.В отличие от обычных нейросетей,которые просто создают видео,Genie выстраивает полноценную модель мира:вы придумываете локацию и персонажа,а затем можете буквально бегать по этому пространству,управляя героем с клавиатуры в реальном времени, также позволяет создавать короткие 60-секундные игровые сессии.Пока доступна для владельцев подписки Google AI Ultra(в США).

Много было постов на неделе.
Презентация и пару примеров в комментариях.

🔹 HunyuanImage 3.0-Instruct.Открытая нейросеть от Tencent.Благодаря встроенному механизму рассуждений она понимает сложные команды на человеческом языке и идеально подходит для точного редактирования:вы можете попросить её добавить предмет,переодеть человека или объединить детали из трёх разных фото в одно,при этом остальная часть картинки останется нетронутой.Протестировать можно тут. Гитхаб тут.Хагингфэйс тут.
Презентация в комментариях.

🔹 Suno запускают Sounds.Заходят на поляну генераторов звуков.
Презентация в комментариях

🔹 Интересное событие.Обновился сервис decart.ai.Его интересная особенность-это захват движения в реальном времени с переносов на референсное изображение.
Презентация в комментариях.

🔹 Два обновления за неделю в LLM моделях.Что примечательно,обе модели являются открытыми и уже практически на уровне топовых закрытых моделей,которыми мы все пользуемся.

1. Вышла Qwen3-Max-Thinking.Флагманская нейросеть от Alibaba,которая обладает интеллектом уровня топовых моделей.С её 1 триллионом параметров она специализируется на сложнейшей математике,программировании и научном анализе,выстраивая длинные логические цепочки и самостоятельно исправляя свои ошибки в процессе рассуждения.Модель работает как опытный эксперт:она сама решает,когда нужно заглянуть в интернет или запустить код,чтобы выдать максимально точный и проверенный результат.Пробуем тут.
Графики в комментариях.

2. Вышла Kimi-K2.Мощный мультимодальная модель,которая умеет запускать рой из 100 субагентов для мгновенного решения задач:от превращения видео в живой фронтенд до анализа 100-страничных отчетов со сложными таблицами.Главная фишка в том,что нейросеть обучалась через систему,позволяющую ей самостоятельно принимать решения и исправлять собственный код,буквально посмотрев на результат в браузере.Она понимает медиафайлы и документы целиком,работая быстрее конкурентов за счет уникальной архитектуры, объединяющей зрение и логику в одном «теле».Попробовать тут.Гитхаб тут.
Презентация и графики в комментариях.

🔹 Hunyuan 3D 3.1 теперь доступен на 3d.hunyuanglobal.com.Многие писали,что сложно с китайской версией работать.Ваш день настал.🫡

🔹 Anthropic прикрутила Claude прямо в Microsoft Excel.Очень удобно для тех кто работает с таблицами.Ведь теперь можно автоматизировать практически все.
Презентация в комментариях.

🔹 Google Chrome и агент на основе Gemini 3.Встроенный «автопилот»,который сам кликает по сайтам:он может забронировать отель,сравнить цены или заполнить анкеты по одной команде.Агент видит содержимое вкладок,понимает ваши данные из Google-сервисов и выполняет рутинные задачи в браузере за вас,требуя лишь подтверждения.

Может еще что то интересное пропустил?

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🤝21
Продолжаем тему генерации от концепта до модели.Уже писал про концепт персонажей,локации и создание модели персонажа.Сейчас на очереди генерация моделей для локаций.

В генерации моделей ИИ пока не в состоянии вытащить полный пайплайн,так как в 3D очень много технических моментов.Но тем не менее,даже при частичном использовании, он сейчас помогает в создании моделей и локаций.

Можно:

1️⃣ Генерировать под обрисовку.Сейчас генераторы практически идеально подходят под этот тип задач.Можно сгенерировать нужный объект и обрисовать.
2️⃣ Создание полноценных 3D-концепций.Сейчас можно за относительно короткий срок собрать локацию любой сложности Да,с проблемной сеткой и разверткой,но это для таких задач и неважно.Расстояние от идеи до полноценной локации, по которой можно уже пробежаться и ощутить всю полноту, сокращается практически до точки.
3️⃣ Для несложных проектов в техническом плане. Для таких проектов генераторы уже неплохо справляются.В той же Nano Banana можно вытащить карты нормалей,рафнеса и т. д.Писал тут.
4️⃣ Для сложных проектов.Сгенерированные объекты можно также доскульптить или использовать как болванку с массами для моделирования под сабдив.И в том,и в другом варианте это экономит время на первоначальном этапе формирования масс.Да,с очень сложными моделями, где много форм, пока всё еще могут возникать проблемы.Но как вариант,эти объекты можно делить на подобъекты на концепте и генерировать по частям,а затем уже собирать всю модель целиком в редакторе.

Мы используем ИИ сейчас в основном для создания первичного представления локации.Я сажусь и по концепту за 3-4 дня собираю игровую локацию.В первую очередь это помогает избежать большого количества правок, так как локация, которая отдается на доработку,с визуальной составляющей уже практически готова.И 3D-моделлеры на основе созданной локации дорабатывают модели.Раньше всегда в процесс вмешивался обычный человеческий фактор:неправильно понятое ТЗ,непонимание,как объект должен выглядеть в конце,и т.д.Я часто слышал от ребят,что начинать очень сложно,так как сложно начать подстраиваться под новую локацию,и первые этапы зачастую шли долго.Но когда общий визуал выстраивался,доработка шла намного быстрее.

Когда собираю локацию,стараюсь сразу сделать и сетку,и текстуры (с разверткой всё еще беда).Это получается не всегда, так как модели пока плохо контролируются в технических факторах,но периодически удается.

Как выглядит пайплайн:

🔹 Про концептирование локаций я уже писал ранее.Так как концепты,по сути,уже есть,вынимаем через Banana каждый объект отдельно.Делается это несложно.Добавляем каждый объект на однотонный фон и там,где требуется,генерируем ракурсы.
🔹 Получаем модель.По максимуму пытаемся вытащить хорошую сетку и текстуру (чтобы потом перепечь).Инструменты постоянно развиваются,но пока это получается с переменным успехом.
🔹 Дальше берем модель,дорабатываем сетку,пере разворачиваем и запекаем текстуру (текстуру также дорабатываем,исправляем косяки).
🔹 Заменяем все эти объекты и настраиваем локацию.

Как я и писал,пока не получилось полностью заменить весь пайплайн,но и сейчас это сокращает разработку локации,убрав непонимание и тупняк в самом начале.

В этом году мы,скорее всего,увидим уже полные пайплайны - не идеальные,но уже работающие,которые позволяют практически на 100% делать всё через ИИ.Это видно:почти каждую неделю есть новости про новые инструменты,видно,как они развиваются,а к наиболее удачным даже присматриваются крупные игроки для внедрения к себе.

Сейчас у разных ИИ-сервисов есть свои сильные и слабые стороны, поэтому можно собирать пайплайны,используя разные ИИ.Но это, как по мне,дорога в никуда,так как нужно постоянно изучать разные сервисы и держать руку на пульсе,потому что инструменты в таком подходе очень быстро устаревают и заменяются.

Для работы также использую Hunyuan и их 3d Studio (там дается больше контроля над созданием модели,но это также не всегда нормально работает).

Ну и по традиции:если у кого-то есть свои способы и методы,буду рад,если вы поделитесь.

В комментариях допишу еще пару моментов.

@VAI_ART
#VAI_Practice
👍113🔥2🦄1
Ну что, думаю, многие уже знают, что вышел Kling 3.0.
Весь вечер и утро смотрел, что выкладывают в сети, и это выглядит очень круто.

До генерации полноценных фильмов осталось 3... 2... 1.

Посмотрите второе видео. 🧐

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍51🥱1
Думаю ещё периодически рассказывать про игры,которые мы сделали и делаем сейчас. Ведь сам по себе офлайновый VR (и особенно офлайновые VR-шутеры) - направление не особо распространённое. Тема интересная. Вам было бы интересно об этом почитать?
Anonymous Poll
70%
Да
19%
Леха, только ИИ
13%
Пу-пу-пу
👍5👎3
Рубрика самых интересных новостей в ИИ за неделю. Все по плану. Погнали!

🔹 Вышел Kling 3.0. Самое важное:
● Режим Мульти-шот.
Большинство нейросетей делают видео одним дублем. Kling 3.0 умеет сам монтировать ролик внутри одной генерации.
В итоге вы получаете готовый мини-фильм со сменой планов, а не просто "движущуюся картинку".
● Видео сразу со звуком.
Но русский не заявлен и работает очень смешно.
Kling 3.0 создает звук синхронно с видео. Если персонаж говорит - губы двигаются в такт. Если машина едет - слышен шум мотора.
● Клон голоса.
Вы можете загрузить пример чьего-то голоса (видео от 3 до 8 секунд), и нейросеть озвучит сгенерированного персонажа именно этим голосом.
​● Стабильность.
Он лучше помнит, как выглядит персонаж, даже если он поворачивается спиной или камера меняет ракурс.
​● Длительность и разрешение.
Можно создавать ролики до 15 секунд в высоком разрешении (1080p) за один раз, без склеек из коротких кусков.


Закинул еще пару примеров в комментарии.

Так же прикреплю руководство по промптингу нового Клинга.

🔹 ByteDance показали свою обновленую модель Seedance 2.0. Релиз в в ближайшее время. Посмотрите на примерах (которые в комментариях), что это модель может. Посмотрим по факту, но с виду это очень круто. Главное:

​● Мультимодальность. Понимает текст, картинки, видео и аудио одновременно.
​● Длительность и качество. Генерирует видео до 30+ секунд в разрешении 2K .
​● Звук. Создает видео сразу со звуком, эффектами и синхронизацией губ .
​● Контроль. Умеет копировать движения с референсного видео и сохранять лицо персонажа .


🔹 Grok Imagine обновился до 1.0. Что в ней нового:
● Генерирует 10-секундные ролики.
● Разрешение 720p.
● Генерирует видео сразу со звуком (нативное аудио).
● Лучшее понимание физики и послушность сложному промпту.

Пишут, что модель очень неплохая, а на llm-stats она сейчас вообще на первом месте. Это звучит как серьёзная заявка: получается, она обогнала все существующие видео генераторы.

🔹Вышел Claude Opus 4.6 - самая новая и мощная нейросеть от Anthropic. Главное:
● Лучший кодер. Пишет сложный код точнее и чище всех конкурентов.
● Автономность. Умеет сама управлять компьютером (клики, работа в программах) и выполнять длинные задачи без подсказок.
● Гигантская память. Помнит огромные объемы информации (до миллиона токенов) - можно загрузить целую книгу или базу кода.
● Логика. Сильно поумнела в планировании и решении сложных задач, меньше ошибается.

По сути: идеальный инструмент для программистов и сложной аналитики.

Графики в комментариях.

🔹 Вышел GPT-5.3 Codex. Главное:
● Полный цикл. Не просто пишет код, а делает всю работу инженера: отлаживает, пишет документацию, запускает приложения и управляет задачами.
● Скорость. Работает на 25% быстрее предшественников.
● Самоисправление. Сама находит и чинит баги в коде без помощи человека.
● Умный агент. Можно вмешиваться в её работу на лету - она поймет и подстроится.
● Помнит всё. Держит в голове огромные проекты целиком (1 млн токенов).
По сути: это автономный виртуальный разработчик, который может взять на себя рутинную работу целиком.

Также OpenAI выпустили десктопное приложение Codex. Пока только macOS.

Графики в комментариях.

🔹 MiniMax тоже сделали десктопного агента. Сейчас это модно). Приложение для macOS и Windows работает фоном: сам залезает в браузер, открывает локальные файлы и софт. Может сохранить отчет на диск или построить сложный сценарий, связав почту, календарь и рабочие сервисы в одну цепочку. Скачать тут.

Презентация в комментариях.

🔹 Под конец - просто одновременно и смешная, и интересная новость. Появился маркетплейс, где AI‑агенты арендуют людей для выполнения физических задач в реальном мире (курьерка, встречи, дела по городу и т.п.). В общем, можно теперь работать на ИИ). Ищем подходящие вакансии для себя). Сайт тут.

P.S. Аудиоверсия в комментариях.

@VAI_ART
#VAI_News
👍62🔥2
Что прикольного в Kling 3.0
Часть 1

Делюсь наблюдениями после -7к токенов в новой модели, один важный инсайт по элементам.

Самый интересный апдейт — это элементы. Клинги сделали все по-красоте и уникально. Теперь в каждое видео словно в коктейль можно добавлять щепотку персонажей, окружение или продуктов.

Вео3, сиданс, сора, / еще кто-то / имеют свои элементы. Но не такие. В клинге можо загружать и стартовый кадр и + элементы. Это значит, можно удержать примерно все в кадре.

Это таблетка против "расплывчатости" текстов на этикетках, изменения лиц сразу после первой секунды анимации и еще Х типичных проблем, которые были до сих пор.


По элементам:
▪️ можно создавать персонажа, добавляя видео-референс (это новинка), изображения с разных ракурсов, образца голоса. Такой возможности нет больше нигде. Можно добавлять животных, характеров, локации, эффекты (!), продукты и тд.
▪️ ❗️на конкретное применение элемента зависит описание в элементе, пишите ограничения — игнорировать фон/позу (которая в вашем референсе) или что важно: сохранить это это. Это можно менять, если надо перестать игнорировать фон, в новой генерации отредактируйте элемент без этого и ок.
▪️ Ракурсы тоже влияют, при отсутствии уточнений будет пихать его именно с этой стороны.
▪️ Если нужно показать персонажа в полный рост, то в элемент лучше добавлять тоже полный рост.
▪️ о3 позволяет взять готовое видео для изменений внутри него, и тут тоже не нужно городить стартовые фреймы или подгружать кадры, элемент сам по себе сущность более емкая, уточняем, меняем.
▪️ теперь можно очень многое в кадре удержать, что будет оставаться консистентным от генерации к генерации, если объект важный, просто колотим из него элемент и подгружаем.

Принцип такой, мы делаем видео, создаем для него важные элементы — персонажей, окружение, продукты, объекты, и используем их при генерациях. Миксуем как хотим, прописываем роль для каждого. Как результат — максимально сохраняем узнаваемость и похожесть.

Честно, я кайфую прям дико и хочется генерить и генерить.

Этот апдейт кажется мимоходным, но он серьезно подкачнет видео, нейрорекламу (уж надеюсь), не говоря про ai-кинцо от коллег по цеху. Ждем приколдесов!

Тесты в посте:
1. Элементы (машина и перс) + мультишот (без уточнения конкретных кадров).
2. Элементы перс + продукт.
3. Элементы перс + машина + продукт + мультишот.
4. Элементы перс + машина + продукт + еще один перс + мультишот.
5. Тут монтаж 3 видео, исходное (стартфрейм + элемент перс + элемент интерфейс), замена персонажа.
6. Замена перса в готовом видео через элемент. Слегка сожрал фон и изменил микрофон, но это дело уточнений и попыток.


тесты на примере локального мема-маскота нейробитвы, догадались кто это

Запишу инструкцию, куда что добавлять
👍4😁4👀1