ML physicist

Сосун Недавно Telegram прдеставили cocoon - децентрализованную сеть для инференса моделей LLM. Почти одновременно с ними (но не так громко) запустились еще 2 подобные сети - gonka.ai от Либерманов и Loyal который собрал сумашедшие 75 млн долларов на IDO…

По итогу после 2 месяцев после запуска

1) поддерживаются 3 модели
2) баланс воркеров составляет где то 15 USD
3) 1 H100 приносит где то 1.85 TON / moth (<5 usd в месяц)
4) всего сейчас 3 клиента, 20 воркеров

Какой то school project vibe у этой штуки сильный, юзкейс совсем не понятен, ей и не пользуются.

🤔12🤡6❤4😁4

1.89K viewsАлексей Маметьев, 18:14

ML physicist

ByteDance выложили DreamID-V - open-source модель для face swap на видео (Twitter)

Главная проблема face swap в том что нет ground truth - когда меняешь лицо A на видео B, ты не знаешь как "правильный" результат должен выглядеть. Поэтому все предыдущие модели учились на implicit supervision (ID loss + reconstruction loss по отдельности) и результаты так себе.

DreamID решает это хитро:
1) Берут два изображения одного человека: A₁ и A₂
2) Берут изображение другого человека: B
3) Существующим фейссвапом на основе GAN - меняют лицо A₂ на B, получая псевдо-цель B̃
Теперь тройка (A₁, B̃, A₂) даёт явный ground truth: если заменить лицо на B̃ идентичностью A₁, результат должен быть A₂ (реальное фото!).
4) При этом мы не обучаемся на аутпутах старого фейссвапа (и модель бьет его по метрикам в несколько раз) - ведь наш таргет это реальное изображение A₂ - а синтетический только инпут

Потыкал - качество так себе, основная проблема в гармонизации: модель довольно топорно вклеивает лица, сразу видно что что-то не так (см. скрин). Освещение не матчится, выглядит как плохой фотошоп в некоторых кейсах (хотя иногда работает отлично)

Мне посоветовали FlashPortrait - там с этим сильно лучше. Но он на Wan 14B, а DreamID-V работает на 1.3B модельке

А 1.3B это очень мало (тем более там требуется 1 шаг диффузии благодоря турбо лоры) - такое реально запустить в realtime на обычной 4090. Так что очень скоро у нас будут дешёвые realtime дипфейки в открытом доступе

❤5🔥5🤯3🥰2👍1

1.61K viewsАлексей Маметьев, 06:26

ML physicist

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

За эту неделю решил максимально сильно разобраться в возможностях современных видеогенераторов (в основном WAN, так как только он опенсурс приемлемого качества)

Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)

Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)

Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.

❤6👍1🔥1

1.23K viewsАлексей Маметьев, 12:20

ML physicist

Forwarded from Naumov Blog | Леша и Gen AI

0:11

This media is not supported in your browser

йоу! я долго молчал про то чем занимаюсь — пора исправляться.

я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.

по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.

для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".

команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время

я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.

В общем эксайтед лютейше!

🔥22❤9💩3

1.63K viewsАлексей Маметьев, 12:21

ML physicist

Как я использую Claude Code
Недавно подрубил себя к claude leaderboard и понял что нахожусь относительно высоко в мировом топе использования. Наверное пора написать пост - только неочевидные штуки,
без тупых советов и маркетингового булщита

1. Субагенты. Говоришь клоду: сделай А и в параллель запусти В. Он запустит подзадачу которая будет решаться параллельно с основным флоу. Например добавить Redis cache и одновременно настроить прокидывание кред с вольта . При этом подзадачи не будут забивать контекст

2. Feedback loop. Модель должна уметь получать фидбек без вашего участия, иначе всё будет идти медленно и вы будете беситься:
юнит тесты
- cli демка перед основной разработкой что бы отладить
- Telegram MCP для ботов
- Playwright MCP для веба

3. План-интервью. Попросите клода проинтервьюировать вас перед задачей - он задаст 500 тыс вопросов и по итогу напишет нормальный план. Заревьюйте, переспрашивайте если недостаточно подробно

4. 2 задачи в параллель. При вайбкодинге остается много времени пока опус работает. Есть git-worktree (работает имхо криво), но лучше брать 2 несвязанные задачи в разных сервисах

5. --dangerously-skip-permissions - никаких тупых вопросов "разрешить ли отредачить файл". Можно запустить дебажить тест и уйти на полчаса. Использовать осторожно, желательно на VM (но я не парюсь)

6. MCP сервера. Рабочие чаты в телеге - ставь TG MCP. Часто нужна база - ставь MCP для базы (или научи модель пользоваться psql). Пишите на Web3 - есть Blockscan mcp

7. Чаще /compact /clear. "Там же контекст прошлых задач" - это сигнал нехватки документации. При переходе между задачами выгружай контекст в docs/ и чисти переписку. Пиши инструкцию для компакта - иначе клод начнет лить воду

8. ~/prompts/*.md - папка с переиспользуемыми промптами. Схема базы, гайды по архитектуре. Добавляю в контекст через @~/prompts/... когда релевантно

9. docs/tree.md - описание дерева проекта со всеми файлами. Ускоряет explore. Раз в неделю обновлять

P.S. C клодом - только английский. Даже если сложно

🔥33❤8👍5🤡3👀1

1.43K viewsАлексей Маметьев, edited 16:46

ML physicist

Open source (и не только) AI тулзы которые у меня прижились

1. Dayflow Calendar - пишет экран 24/7 и скармливает локальной модели. Получаешь честный календарь своей активности по часам. Ручные трекеры типа Toggl бесят - там надо тыкать кнопки, а тут просто живёшь и оно само фиксирует твой позор. Можно ретроспективно возвращаться к своим результатам и понимать сколько реально ушло времени на те или иные задачи.

2. Happy Coder - управляешь claude code сессиями с телефона. Пока сыровато, но идея огонь

3. Whisper Flow - надиктовка текста виспером в любом месте. Платный, но это единственное решение где UX сделан не через жопу. Звучит тривиально, но попробуйте найти альтернативу которая не выглядит как кусок говна

4. tl;dw - закидываешь ютуб видос, получаешь саммари. Селфхостнул, юзаю для фильтрации контента. Есть youtube transcript MCP, но там лимит 20к токенов на вызов. Gemini тоже умеет такое, но она жутко меня бесит

5. YouTube Clickbait Decoder - нейронка переписывает названия роликов. "5 акций без которых вы сдохнете нищим" на "обзор долгосрочного инвестирования". Превью заменяет на рандомный кадр. Ютуб становится почти терпимым

❤19👍9🔥6💋1

717 viewsАлексей Маметьев, edited 08:39

About

Blog

Apps

Platform