FSCP
16.7K subscribers
30.8K photos
3.65K videos
863 files
78.8K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Реалтаймовый path tracing в UE5.

Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.

Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).

И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.

Явшоке. Подробности ниже.

А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?

youtu.be

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Лоры для видео

Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.

Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.

В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW

Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.

Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.

Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.

civitai.com

@cgevent

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Мятное видео. https://t.iss.one/cgevent/10596

Вы будете смеяться, но у нас новый видео-генератор!

Причем не простой! А с ништяками.

MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.

Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.

Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.

Проще показать промпт:

[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.

И все это в одном сеттинге.

Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.

Обязательно посмотрите примеры тут:
mint-video.github.io
Там интересно.

По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.

У моделей вообще отношения со временем не очень, а тут попытка приручить время.

Также поглядите на интересную работу на тему времени тут.
_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
Ну и вторая метаверс-бомба на сегодня. https://t.iss.one/cgevent/10647

Взрослые мальчики знают, кто такой Ed Catmull.
Это дяденька, который создал Пиксар

Так вот, держите:

Generative World Models for Film, Gaming, and Beyond

На борту (точнее на борду) тот самый Ed Catmull.

Проект настолько нарядный, что сначала просто осмотрите сайт:

odyssey.systems

Потом запишитесь в бету (внизу на сайте).

А теперь пара коментов.

1. Это все Гауссианы.

2. Это все можно втащить в UE или Блендор и редактировать. На видео есть сцена со сплатами в UE и космонавтами в Блендоре.

3. Поглядите на примеры с виртуальным продакшеном. Вот где точка входа в world models!

4. Они целятся в реалтайм, но пока одна сцена генерится 10 минут.

5. Explorer может увеличить разрешение и охват мира, плавно увеличивая генерации, чтобы заполнять любые пробелы и создавать полноценные сфер {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
https://t.iss.one/cgevent/10635

Следующая новость отлично соответствует названию канала.
Ибо это симуляция и визуализация физического мира на стероидах ИИ.

20+ лабораторий совместными усилиями разработали и выпустили исходный код Genesis - физического движка с Visual Language Model агентом, который превращает промпты в интерактивные 4D-миры.

4D - это новое модное слово, обозначающее 3D с анимацией. Для нас это просто 3Д-сцена, в которой что-то происходит - симуляция физики, движение камеры, анимация персонажа.

Genesis - это как бы Maya или Houdini только на естественном языке, с ИИ-солверами, ускоренными примерно в 100-1000 раз, по сравнению с обычными солверами физики и кинематики. Это если очень грубо. Плюс рендеринг с рейтрейсингом.


Под капотом используется агент на основе VLM, который использует симуляционные API в качестве инструментов, генерируя физически точное окружение, траектории движения камеры, поведение роботов и анимацию персонажей. Огромное количество физических SOTA-солверов + тонна материалов.

Помните мы все смотрели ролики двухминутного доктора про то, как нейронки ускоряют физику жидкостей или твердых тех. Теперь это все в одном флаконе размером с Юпитер.

Они собрали все на чистом питоне, каким-то образом сделав физический движок в 10-80 раз быстрее, чем Issac Sim от Nvidia.

Я вот читаю такое: "Физические симуляторы работают в 430 000 раз быстрее, чем в реальном времени, сохраняя при этом точность, достаточную для выпускания роботов в реальный мир."
И не понимаю, это троллинг такой?

А еще там есть 3Д-генератор сложных объектов, "выходящий за рамки категорий, содержащихся в аннотированном человеком активе артикулированных объектов".

Мягкие робаты.

Speech Audio, Facial Animation & Emotion Generation - тут полегчало, ибо на видео эмоции скорее для робатов.

Но в целом это и есть огромный скоростной симулятор мира для тренировки роботов (а может и кожаных). С рейтрейсингом на борту.

И код есть!!
genesis-embodied-ai.github.io
А статей пока нет.

Но есть документация, неплохай притом.
genesis-world.readthedocs.io

Осталось разобраться, как запускать на линуксе в сети с клиентом на ноуте и можно пробовать ИИ-Майя.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Ну, за мультипликаторов.

Тут Гугль неожиданно выкатил вот такую интересную работу.
И мультик.

Для каждого персонажа свой файнтюн(?!, да, там LoadCheckPoint + Dreambooth SDXL). По 12-то картинкам.

Эти файнтюны генерят кривые руки и пропорции - их корректируют через Depth и Canny контролнеты.
В ComfyUI.

Там же сегментируют персонажей с помощью Dino и SAM.

Часть картинок анимируют с помощью AnimateDiff + DaVinci+Nuke.

А часть - просто ригают и анимируют в Adobe Character Animator.
(Тут мы перестаем пить за мультипликаторов и вопросительно поднимаем бровь). Гугль, это что вообще?

Гугль: это ассистент для аниматоров.

"В рамках этого пилотного проекта мы вместе с художниками разрабатывали новые рабочие процессы для 2D-анимации, одновременно создавая короткометражный образовательный мультфильм. Мы определили несколько рабочих процессов, которые позволят упростить процесс анимации и более эффективно воплотить замыслы художников на экране."

Кода или воркфлоу для Комфи я не нашел.
Но есть кожаные сценарии для эпизодов.

Странная работа.

genai-2d-character-animation.github.io

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Вернемся на минутчку к видеогенераторам. https://t.iss.one/cgevent/10763

Конечно, все ждут от Хуньяня весов image2video модели. Ибо Хуньянь показал себя как абсолютно безбашенная модель с полным отсутствием цензуры.

Для тех, кто работает с NSFW, приподсобрал интересных материалов про Хуньянь.

1. Похоже Хуньянь становится SD15 только в области видеогенерации. Народ уже тренирует Лоры для него типа вот таких:
civitai.com

2. А так как процесс тренировки уже открыт и прозрачен, то возникают вот такие забавные проекты:
github.com
Он может загружать видео с поддерживаемых веб-сайтов(сейчас это Икс-Хамстер) и выполнять различные задачи обработки, такие как обнаружение сцен, обрезка ненужных кадров, анализ кадров и создание датасетов для обучения лор. Инструментарий является модульным, что позволяет легко добавлять новые загрузчики и утилиты.


3. А на закуску держите NSFW-prompting-guide для Хуньянь (и не только). Он очень познавательный. Если вкратце - называете вещи своими (правильными) именами и прямо говорите о том, что вам нужно - все как в жизни.
civitai.com


4. Бонусы:
Быстрый Хуньянь с пониженным требованием к памяти:
github.com
Демо на репликейт, где работает негативный промпт:
replicate.com
Забавные лоры:
civitai.com
Тренировка лор(инструкции):
civitai.com
https://www.reddit.com/r/StableDiffusion/comments/1hrqnz1/stepbystep_tutorial_diffusionpipe_wsl_linux/
Hunyuan GGUF:
youtu.be

5. Супер-бонус: редактирование видео с помощью Хуньянь в комфи:
github.com

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
К вопросу про "позапускать локально".

Твит экзистенциальный, конечно.

В комментах народ ломает голову над не менее сложными вопросами типа "если она опенсорснутая, то каков ея моральный облик".

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
This media is not supported in your browser
VIEW IN TELEGRAM
Rokoko, тьфу, Kokoro.

Новая опенсорсная Text-To-Speech модель, от которой твиттор плачет кипятком.

Маленькая, 82М параметров, веса 327 Мb.

Быстрая - пример в шапке на 2 мин 25 сек создан за 4.5 секунды на T4.
На Маке 10 секунд генерятся 2 секунды.

Веса и прочий фарш тут: huggingface.co

Демо: huggingface.co

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Вот вам пример видеогенерации, от которого у меня немного закипел мозг. https://t.iss.one/cgevent/10836

Мы тут извращаемся в промптах, пытаясь заставить двигаться камеру или персонажа.
Но.
Оказывается, можно попросить ИИ добавить на видео гринскрин (этим я вас не удивлю) и, внимание, маркеры для трекинга камеры (а вот этим удивлю). Для того, чтобы потом оттрекать камеру в AE или Нюке, восстановить движение объектов в 3Д, убрать фон и навалить сверху нормальной графики или футажа.
В общем все, как на съемках с парой супервазеров, мешком маркеров, тейпов, рулеток, далее по списку. Только промптом!

И судя по этому примеру у Veo2 (пока крайней мере у него, но думаю и у остальных) в голове есть реальная модель 3Д мира и вполне себе эвклидово пространство, ибо это работает и условная фотограмметрия не ломается.

Я в шоке. А вы не поленитесь, почитайте нехилый такой промпт, где написано про маркеры, гринскрин и прочую супервайзерскую требуху (тут есть момент, чтобы писать такой промпт, надо как бы быть в супервайзерской теме, но об этом в другой раз).

Я уж не знаю, на чему учили Veo2, но то, что это вообще работает, приводит меня в восторг.

Подробности тут.

Кто совсем ничего не понял: здесь только девушка (см. промпт). Среднее видео демонстрирует добавление созданной человеком модели (андроид, G) в сцену, созданную ИИ, а нижнее - объединение созданного ИИ персонажа (девушки) в созданную человеком сцену (сакура и небесное пространство). В обоих случаях необходимы данные с камеры, полученные в результате работы ИИ.

Попробуйте в Клинге что ли...

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!