FSCP
16.6K subscribers
30.9K photos
3.66K videos
863 files
78.9K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Лоры для видео

Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.

Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.

В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW

Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.

Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.

Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.

civitai.com

@cgevent

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Мятное видео. https://t.iss.one/cgevent/10596

Вы будете смеяться, но у нас новый видео-генератор!

Причем не простой! А с ништяками.

MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.

Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.

Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.

Проще показать промпт:

[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.

И все это в одном сеттинге.

Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.

Обязательно посмотрите примеры тут:
mint-video.github.io
Там интересно.

По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.

У моделей вообще отношения со временем не очень, а тут попытка приручить время.

Также поглядите на интересную работу на тему времени тут.
_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
Ну и вторая метаверс-бомба на сегодня. https://t.iss.one/cgevent/10647

Взрослые мальчики знают, кто такой Ed Catmull.
Это дяденька, который создал Пиксар

Так вот, держите:

Generative World Models for Film, Gaming, and Beyond

На борту (точнее на борду) тот самый Ed Catmull.

Проект настолько нарядный, что сначала просто осмотрите сайт:

odyssey.systems

Потом запишитесь в бету (внизу на сайте).

А теперь пара коментов.

1. Это все Гауссианы.

2. Это все можно втащить в UE или Блендор и редактировать. На видео есть сцена со сплатами в UE и космонавтами в Блендоре.

3. Поглядите на примеры с виртуальным продакшеном. Вот где точка входа в world models!

4. Они целятся в реалтайм, но пока одна сцена генерится 10 минут.

5. Explorer может увеличить разрешение и охват мира, плавно увеличивая генерации, чтобы заполнять любые пробелы и создавать полноценные сфер {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
https://t.iss.one/cgevent/10635

Следующая новость отлично соответствует названию канала.
Ибо это симуляция и визуализация физического мира на стероидах ИИ.

20+ лабораторий совместными усилиями разработали и выпустили исходный код Genesis - физического движка с Visual Language Model агентом, который превращает промпты в интерактивные 4D-миры.

4D - это новое модное слово, обозначающее 3D с анимацией. Для нас это просто 3Д-сцена, в которой что-то происходит - симуляция физики, движение камеры, анимация персонажа.

Genesis - это как бы Maya или Houdini только на естественном языке, с ИИ-солверами, ускоренными примерно в 100-1000 раз, по сравнению с обычными солверами физики и кинематики. Это если очень грубо. Плюс рендеринг с рейтрейсингом.


Под капотом используется агент на основе VLM, который использует симуляционные API в качестве инструментов, генерируя физически точное окружение, траектории движения камеры, поведение роботов и анимацию персонажей. Огромное количество физических SOTA-солверов + тонна материалов.

Помните мы все смотрели ролики двухминутного доктора про то, как нейронки ускоряют физику жидкостей или твердых тех. Теперь это все в одном флаконе размером с Юпитер.

Они собрали все на чистом питоне, каким-то образом сделав физический движок в 10-80 раз быстрее, чем Issac Sim от Nvidia.

Я вот читаю такое: "Физические симуляторы работают в 430 000 раз быстрее, чем в реальном времени, сохраняя при этом точность, достаточную для выпускания роботов в реальный мир."
И не понимаю, это троллинг такой?

А еще там есть 3Д-генератор сложных объектов, "выходящий за рамки категорий, содержащихся в аннотированном человеком активе артикулированных объектов".

Мягкие робаты.

Speech Audio, Facial Animation & Emotion Generation - тут полегчало, ибо на видео эмоции скорее для робатов.

Но в целом это и есть огромный скоростной симулятор мира для тренировки роботов (а может и кожаных). С рейтрейсингом на борту.

И код есть!!
genesis-embodied-ai.github.io
А статей пока нет.

Но есть документация, неплохай притом.
genesis-world.readthedocs.io

Осталось разобраться, как запускать на линуксе в сети с клиентом на ноуте и можно пробовать ИИ-Майя.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Ну, за мультипликаторов.

Тут Гугль неожиданно выкатил вот такую интересную работу.
И мультик.

Для каждого персонажа свой файнтюн(?!, да, там LoadCheckPoint + Dreambooth SDXL). По 12-то картинкам.

Эти файнтюны генерят кривые руки и пропорции - их корректируют через Depth и Canny контролнеты.
В ComfyUI.

Там же сегментируют персонажей с помощью Dino и SAM.

Часть картинок анимируют с помощью AnimateDiff + DaVinci+Nuke.

А часть - просто ригают и анимируют в Adobe Character Animator.
(Тут мы перестаем пить за мультипликаторов и вопросительно поднимаем бровь). Гугль, это что вообще?

Гугль: это ассистент для аниматоров.

"В рамках этого пилотного проекта мы вместе с художниками разрабатывали новые рабочие процессы для 2D-анимации, одновременно создавая короткометражный образовательный мультфильм. Мы определили несколько рабочих процессов, которые позволят упростить процесс анимации и более эффективно воплотить замыслы художников на экране."

Кода или воркфлоу для Комфи я не нашел.
Но есть кожаные сценарии для эпизодов.

Странная работа.

genai-2d-character-animation.github.io

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Вернемся на минутчку к видеогенераторам. https://t.iss.one/cgevent/10763

Конечно, все ждут от Хуньяня весов image2video модели. Ибо Хуньянь показал себя как абсолютно безбашенная модель с полным отсутствием цензуры.

Для тех, кто работает с NSFW, приподсобрал интересных материалов про Хуньянь.

1. Похоже Хуньянь становится SD15 только в области видеогенерации. Народ уже тренирует Лоры для него типа вот таких:
civitai.com

2. А так как процесс тренировки уже открыт и прозрачен, то возникают вот такие забавные проекты:
github.com
Он может загружать видео с поддерживаемых веб-сайтов(сейчас это Икс-Хамстер) и выполнять различные задачи обработки, такие как обнаружение сцен, обрезка ненужных кадров, анализ кадров и создание датасетов для обучения лор. Инструментарий является модульным, что позволяет легко добавлять новые загрузчики и утилиты.


3. А на закуску держите NSFW-prompting-guide для Хуньянь (и не только). Он очень познавательный. Если вкратце - называете вещи своими (правильными) именами и прямо говорите о том, что вам нужно - все как в жизни.
civitai.com


4. Бонусы:
Быстрый Хуньянь с пониженным требованием к памяти:
github.com
Демо на репликейт, где работает негативный промпт:
replicate.com
Забавные лоры:
civitai.com
Тренировка лор(инструкции):
civitai.com
https://www.reddit.com/r/StableDiffusion/comments/1hrqnz1/stepbystep_tutorial_diffusionpipe_wsl_linux/
Hunyuan GGUF:
youtu.be

5. Супер-бонус: редактирование видео с помощью Хуньянь в комфи:
github.com

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
К вопросу про "позапускать локально".

Твит экзистенциальный, конечно.

В комментах народ ломает голову над не менее сложными вопросами типа "если она опенсорснутая, то каков ея моральный облик".

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
This media is not supported in your browser
VIEW IN TELEGRAM
Rokoko, тьфу, Kokoro.

Новая опенсорсная Text-To-Speech модель, от которой твиттор плачет кипятком.

Маленькая, 82М параметров, веса 327 Мb.

Быстрая - пример в шапке на 2 мин 25 сек создан за 4.5 секунды на T4.
На Маке 10 секунд генерятся 2 секунды.

Веса и прочий фарш тут: huggingface.co

Демо: huggingface.co

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Вот вам пример видеогенерации, от которого у меня немного закипел мозг. https://t.iss.one/cgevent/10836

Мы тут извращаемся в промптах, пытаясь заставить двигаться камеру или персонажа.
Но.
Оказывается, можно попросить ИИ добавить на видео гринскрин (этим я вас не удивлю) и, внимание, маркеры для трекинга камеры (а вот этим удивлю). Для того, чтобы потом оттрекать камеру в AE или Нюке, восстановить движение объектов в 3Д, убрать фон и навалить сверху нормальной графики или футажа.
В общем все, как на съемках с парой супервазеров, мешком маркеров, тейпов, рулеток, далее по списку. Только промптом!

И судя по этому примеру у Veo2 (пока крайней мере у него, но думаю и у остальных) в голове есть реальная модель 3Д мира и вполне себе эвклидово пространство, ибо это работает и условная фотограмметрия не ломается.

Я в шоке. А вы не поленитесь, почитайте нехилый такой промпт, где написано про маркеры, гринскрин и прочую супервайзерскую требуху (тут есть момент, чтобы писать такой промпт, надо как бы быть в супервайзерской теме, но об этом в другой раз).

Я уж не знаю, на чему учили Veo2, но то, что это вообще работает, приводит меня в восторг.

Подробности тут.

Кто совсем ничего не понял: здесь только девушка (см. промпт). Среднее видео демонстрирует добавление созданной человеком модели (андроид, G) в сцену, созданную ИИ, а нижнее - объединение созданного ИИ персонажа (девушки) в созданную человеком сцену (сакура и небесное пространство). В обоих случаях необходимы данные с камеры, полученные в результате работы ИИ.

Попробуйте в Клинге что ли...

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
https://t.iss.one/cgevent/10918
Так,
утечки из Grok 3.

Поглядите, что он вытворяет и как уделывает o1-pro и DeepSeek (тут корректно написать на определенном виде задач).

Смотрите, есть промпт:
"write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square"

Там где два квадрата на видео, это о1-Pro (слева, плохо) и DeepSeek R1 (справа, лучше)

Там где один квадрат на видео - это Grok 3

Но когда Grok 3 смог заменить квадрат на Тессеракт, у меня челюсть упала на твиттор.

Как?

P/S/ Тессеракт — четырёхмерный гиперкуб, аналог обычного трёхмерного куба в четырёхмерном пространстве. У него 24 грани, 32 ребра и 16 вершин. Одно из назначений — способ визуализации концепции времени в четырехмерной вселенной.

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney