Naumov Blog | Леша и Gen AI

LTX-2 🎬

Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.

Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:

→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами

Скорость работы — офигенная, реально blazingly fast.

TEXT-TO-VIDEO & IMAGE-TO-VIDEO

Где попробовать: fal.ai или wavespeed.ai

Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2

Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"

Из минусов — голос пока никак не контролируется вообще.

А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291

VIDEO-TO-VIDEO

Тут интересно — три разных режима контроля:

→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight

По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.

Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai

ИТОГО

Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.

Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.

❤‍🔥4❤2🔥2

103 views10:40

Channel name was changed to «Naumov Blog | Леша и Gen AI»

11:03

Naumov Blog | Леша и Gen AI

Фановая штука - персы из Stranger Things with literally me!
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт

Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону


Make a miniature, full-body, isometric, realistic figurine of this person, wearing ABC, doing XYZ, on a white background, minimal, 4K resolution

🔥2❤1

82 views21:19

Naumov Blog | Леша и Gen AI

0:10

This media is not supported in your browser

This media is not supported in your browser

VIEW IN TELEGRAM

там higgsfield выкатили прикольную фичу для добавления эффектов на видео
Хоть штука кажется и очень простой, но толком не найти моделек/процессинг апи, которые добавят эффекты на видосы
Мне нрав картинка! Но цена какая-то неадекватно высокая - получается порядка нескольких $ за видосик, если делать 24 фпс. Видимо они делают nano banana обработку для каждого фрейма и сшивают в видео - отсюда и цена как крыло боинга

🔥1

89 views00:07

Naumov Blog | Леша и Gen AI

мой коллега и товарищ @maxon_ans_cs на этой неделе пошарил очень крутой воркфлоу для claude code, который я протестил вчера.
Промпт ниже.
Описываем Claude таску и просим проинтервьюировать вас
После этого клод будет задавать 500 тыс вопросов, по итогу интервью просим написать план, который кормим на вход в новой сессии.

Сегодня эта штука помогла мне заваншотить очень большую фичу (хоть и ценой PR с git diff размером с штат Техас - о чем в последствии я сильно пожалел)

Промпт:


interview me in detail using the AskUserQuestionTool about literally anything: technical implementation, UI & UX, concerns, tradeoffs, etc. but make sure the questions are not obvious be very in-depth and continue interviewing me continually until it's complete, then write the spec to the file.

❤3🔥3

111 views21:55

Naumov Blog | Леша и Gen AI

1.5 года назад, когда мы только начинали Unreal Labs (до великих времен нашей карьеры в ИИ рекламе), нашей ранней идеей было создавать automated AI тикток аккаунты и делать их популярными.
У нас это тогда не очень получилось и мы дропнули идею, а аккаунты оставили заброшенными.

Позавчера случайно зашел на один из них и удивился - оказывается за 1.5 года они набрал нормально так engagement - в сумме на каждом из каналов по несколько миллионов просмотров

Вот такие пироги!

80 viewsedited 00:03

Naumov Blog | Леша и Gen AI

Вчера мне товарищ подсказал что оказывается можно промптить напрямую Claude Code сколько нужно (и каких) субагентов запустить.

Claude Code пытается экономить token usage и поэтому по дефолту запускает 2-3 агента на задачу. А с контекстом модельки Anthropic работают не супер и качество может страдать.

А так каждый агент фокусируется исключительно на своей specific части кода/задачи.

Чтож, буду тестить!

🙏3🔥1

69 viewsedited 12:21

Naumov Blog | Леша и Gen AI

Мы с пацанами сегодня выиграли хакатон от Black Forest Labs и Nvidia в Лондоне.

Black Forest Labs это ребята которые релизнули модель Flux для картинок. Было офигенно познакомиться с их фаундером Andreas Blattman, это человек который был со-автором статьи про Latent Diffusion - заложившей ВАЩЕ ВСЮ БАЗУ картинкогенерации, за которой последовали Stable Diffusion и все прочие.
А еще именно с Flux-1.dev началась моя карьера в Generative AI!

Партнерами ивента были даже Anthropic, тч в плане вайбов и знакомств мероприятие получилось нереально крутым!

Вопрос - что нам теперь делать с GPU за $11К? Кидайте предложения в комменты, как говорится😏

Щас отполируем еще маленько сайт и можете жечь кредиты с апи ключей(а пока прод не очень жив🫣:
houseviewer.uk

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤1

38 views21:43

About

Blog

Apps

Platform