Naumov Blog | Леша и Gen AI
47 subscribers
25 photos
15 videos
7 links
Йо! Я Леша - founding Gen AI Lead в Unreal Labs - делаем рекламу с помощью AI, а еще в нас проинвестировала Sequia.
Дурею с генеративного медиа и разрабоки продуктов.
x.com/hellesgrind
@aleksei_conf

www.helles.dev
Download Telegram
LTX-2 🎬

Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.

Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:

→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами

Скорость работы — офигенная, реально blazingly fast.


TEXT-TO-VIDEO & IMAGE-TO-VIDEO

Где попробовать: fal.ai или wavespeed.ai

Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2

Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"

Из минусов — голос пока никак не контролируется вообще.

А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291

VIDEO-TO-VIDEO

Тут интересно — три разных режима контроля:

→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight

По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.

Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai

ИТОГО

Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.

Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
❤‍🔥42🔥2
Channel name was changed to «Naumov Blog | Леша и Gen AI»
Фановая штука - персы из Stranger Things with literally me!
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт

Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону

Make a miniature, full-body, isometric, realistic figurine of this person, wearing ABC, doing XYZ, on a white background, minimal, 4K resolution
🔥21
там higgsfield выкатили прикольную фичу для добавления эффектов на видео
Хоть штука кажется и очень простой, но толком не найти моделек/процессинг апи, которые добавят эффекты на видосы
Мне нрав картинка! Но цена какая-то неадекватно высокая - получается порядка нескольких $ за видосик, если делать 24 фпс. Видимо они делают nano banana обработку для каждого фрейма и сшивают в видео - отсюда и цена как крыло боинга
🔥1
мой коллега и товарищ @maxon_ans_cs на этой неделе пошарил очень крутой воркфлоу для claude code, который я протестил вчера.
Промпт ниже.
Описываем Claude таску и просим проинтервьюировать вас
После этого клод будет задавать 500 тыс вопросов, по итогу интервью просим написать план, который кормим на вход в новой сессии.

Сегодня эта штука помогла мне заваншотить очень большую фичу (хоть и ценой PR с git diff размером с штат Техас - о чем в последствии я сильно пожалел)

Промпт:

interview me in detail using the AskUserQuestionTool about literally anything: technical implementation, UI & UX, concerns, tradeoffs, etc. but make sure the questions are not obvious be very in-depth and continue interviewing me continually until it's complete, then write the spec to the file.
3🔥3
1.5 года назад, когда мы только начинали Unreal Labs (до великих времен нашей карьеры в ИИ рекламе), нашей ранней идеей было создавать automated AI тикток аккаунты и делать их популярными.
У нас это тогда не очень получилось и мы дропнули идею, а аккаунты оставили заброшенными.

Позавчера случайно зашел на один из них и удивился - оказывается за 1.5 года они набрал нормально так engagement - в сумме на каждом из каналов по несколько миллионов просмотров

Вот такие пироги!
Вчера мне товарищ подсказал что оказывается можно промптить напрямую Claude Code сколько нужно (и каких) субагентов запустить.

Claude Code пытается экономить token usage и поэтому по дефолту запускает 2-3 агента на задачу. А с контекстом модельки Anthropic работают не супер и качество может страдать.

А так каждый агент фокусируется исключительно на своей specific части кода/задачи.

Чтож, буду тестить!
🙏3🔥1
Мы с пацанами сегодня выиграли хакатон от Black Forest Labs и Nvidia в Лондоне.

Black Forest Labs это ребята которые релизнули модель Flux для картинок. Было офигенно познакомиться с их фаундером Andreas Blattman, это человек который был со-автором статьи про Latent Diffusion - заложившей ВАЩЕ ВСЮ БАЗУ картинкогенерации, за которой последовали Stable Diffusion и все прочие.
А еще именно с Flux-1.dev началась моя карьера в Generative AI!

Партнерами ивента были даже Anthropic, тч в плане вайбов и знакомств мероприятие получилось нереально крутым!

Вопрос - что нам теперь делать с GPU за $11К? Кидайте предложения в комменты, как говорится😏

Щас отполируем еще маленько сайт и можете жечь кредиты с апи ключей(а пока прод не очень жив🫣:
houseviewer.uk
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥81