FSCP
17.3K subscribers
30.6K photos
3.56K videos
863 files
78K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
Моя TRELLIS!
Пока мы тут алкаем Sora, я вам принес новый 3Д-генератор. И какой!

1. Опенсорсный!
2. Довольно убойного качества.
3. Это Микрософт.

Пока он работает только по входной картинке, что уже неплохо, но они обещают скоро докинуть TRELLIS-text-xlarge на 2B параметров, что для text-to-3D очень круто.
А тренировались они на полумиллионе моделей и похоже не только на помойках типа objaverse.
Они умеют выводить во все, что шевелится в 3Д: Radiance Fields, 3D Gaussians, and meshes.
И анонсируют даже редактирование и модификацию сгенерированных моделей через промпты (покричим на модельки?). Оторви руку, замени ногу, дай в руки палицу - есть примеры на сайте.

Выглядит сладчайше. Все черрипики есть у них на сайте, следующим постом {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Мне не очень нравится сервис Viggle - слишком узкая область применения, проскальзывания, ну и общее качество - такое.

Но тут вот у них вышла Model V.3 и там они замахнулись на анимацию лица и аватаризацию.

Сам я не буду пробовать, но если под ваши мемные задачи это подойдет, но поглядите сюда:
viggle.ai

Remix, Multi Character и особенно Relight выглядят,конечно, нарядно, но ноги по прежнему скользят, и вот такие вот меркетинговые сентенции вызывают вопросы:
Viggle is powered by JST-1, the first video-3d foundation model with actual physics understanding.


А я пока разыскал в твитторах довольно любопытное видео, где они дерзко сравнивают себя с Runway Act One на примере Arcane.

Следующим примером дам вам пример другого любопытного сервиса.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
Кожаная метка

А вот это уже симптоматично. Вместо того, чтобы гоняться за распухающим объемом контента, произведенного с помощью ИИ (мне особенно "зашли" бесконечные стримы, произведенные с помощью NotebookLM и визуализированные с помощью Heygen или Hedra, источник бесконечного булшита на любые темы), ютюбчик хочет отмечать именно кожаные видео, не тронутые грязными лапами ИИ.

Тут, конечно, стартаперы должны зашевелиться с идеями типа "Стриминг-Бутик с кожаными видео only." Но, как вы понимаете, в мире, где основные метрики - это количество, а не качество контента, эта идея немедленно будет взломана.

А идея делить контент на кожаный и ИИшный (имхо), довольно утопична. Просто потому что "а зачем?". Потребление контента кожаными - вот основная цель бизнесов, зарабатывающих на трафике, рекламе и стриминге. Зачем рубить сук?
Более того, кожаные уже давно не в состоянии отличать сгенеренный контент от рукотворного.

Интересно, что монтаж вроде как можно, а вот эффекты уже нельзя:

Видео не обязательно должно быть неотредактированным, чтобы получить кожаную метку, но, согласно странице поддержки, каждый этап процесса должен поддерживать C2PA и не допускать:
- Редактирования, которое нарушает цепочку происхождения или делает невозможным отслеживание видео до его первоисточника. Например, если вы снимаете изображение с метаданными C2PA, а затем сохраняете его в фотоальбоме своего телефона, который не поддерживает C2PA версии 2.1 или выше, это может нарушить цепочку происхождения
- Значительные изменения основной природы или содержания видео, включая звуки или визуальные эффекты.
- Изменения, которые делают видео несовместимым со стандартами C2PA (версии 2.1 и выше).


В общем я не понимаю - зачем?

Давайте оставим только прямые склейки? Ну ок...
www.theverge.com
@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Реалтаймовый path tracing в UE5.

Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.

Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).

И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.

Явшоке. Подробности ниже.

А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?

youtu.be

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Лоры для видео

Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.

Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.

В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW

Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.

Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.

Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.

civitai.com

@cgevent

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Мятное видео. https://t.iss.one/cgevent/10596

Вы будете смеяться, но у нас новый видео-генератор!

Причем не простой! А с ништяками.

MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.

Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.

Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.

Проще показать промпт:

[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.

И все это в одном сеттинге.

Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.

Обязательно посмотрите примеры тут:
mint-video.github.io
Там интересно.

По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.

У моделей вообще отношения со временем не очень, а тут попытка приручить время.

Также поглядите на интересную работу на тему времени тут.
_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
Ну и вторая метаверс-бомба на сегодня. https://t.iss.one/cgevent/10647

Взрослые мальчики знают, кто такой Ed Catmull.
Это дяденька, который создал Пиксар

Так вот, держите:

Generative World Models for Film, Gaming, and Beyond

На борту (точнее на борду) тот самый Ed Catmull.

Проект настолько нарядный, что сначала просто осмотрите сайт:

odyssey.systems

Потом запишитесь в бету (внизу на сайте).

А теперь пара коментов.

1. Это все Гауссианы.

2. Это все можно втащить в UE или Блендор и редактировать. На видео есть сцена со сплатами в UE и космонавтами в Блендоре.

3. Поглядите на примеры с виртуальным продакшеном. Вот где точка входа в world models!

4. Они целятся в реалтайм, но пока одна сцена генерится 10 минут.

5. Explorer может увеличить разрешение и охват мира, плавно увеличивая генерации, чтобы заполнять любые пробелы и создавать полноценные сфер {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
https://t.iss.one/cgevent/10635

Следующая новость отлично соответствует названию канала.
Ибо это симуляция и визуализация физического мира на стероидах ИИ.

20+ лабораторий совместными усилиями разработали и выпустили исходный код Genesis - физического движка с Visual Language Model агентом, который превращает промпты в интерактивные 4D-миры.

4D - это новое модное слово, обозначающее 3D с анимацией. Для нас это просто 3Д-сцена, в которой что-то происходит - симуляция физики, движение камеры, анимация персонажа.

Genesis - это как бы Maya или Houdini только на естественном языке, с ИИ-солверами, ускоренными примерно в 100-1000 раз, по сравнению с обычными солверами физики и кинематики. Это если очень грубо. Плюс рендеринг с рейтрейсингом.


Под капотом используется агент на основе VLM, который использует симуляционные API в качестве инструментов, генерируя физически точное окружение, траектории движения камеры, поведение роботов и анимацию персонажей. Огромное количество физических SOTA-солверов + тонна материалов.

Помните мы все смотрели ролики двухминутного доктора про то, как нейронки ускоряют физику жидкостей или твердых тех. Теперь это все в одном флаконе размером с Юпитер.

Они собрали все на чистом питоне, каким-то образом сделав физический движок в 10-80 раз быстрее, чем Issac Sim от Nvidia.

Я вот читаю такое: "Физические симуляторы работают в 430 000 раз быстрее, чем в реальном времени, сохраняя при этом точность, достаточную для выпускания роботов в реальный мир."
И не понимаю, это троллинг такой?

А еще там есть 3Д-генератор сложных объектов, "выходящий за рамки категорий, содержащихся в аннотированном человеком активе артикулированных объектов".

Мягкие робаты.

Speech Audio, Facial Animation & Emotion Generation - тут полегчало, ибо на видео эмоции скорее для робатов.

Но в целом это и есть огромный скоростной симулятор мира для тренировки роботов (а может и кожаных). С рейтрейсингом на борту.

И код есть!!
genesis-embodied-ai.github.io
А статей пока нет.

Но есть документация, неплохай притом.
genesis-world.readthedocs.io

Осталось разобраться, как запускать на линуксе в сети с клиентом на ноуте и можно пробовать ИИ-Майя.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Ну, за мультипликаторов.

Тут Гугль неожиданно выкатил вот такую интересную работу.
И мультик.

Для каждого персонажа свой файнтюн(?!, да, там LoadCheckPoint + Dreambooth SDXL). По 12-то картинкам.

Эти файнтюны генерят кривые руки и пропорции - их корректируют через Depth и Canny контролнеты.
В ComfyUI.

Там же сегментируют персонажей с помощью Dino и SAM.

Часть картинок анимируют с помощью AnimateDiff + DaVinci+Nuke.

А часть - просто ригают и анимируют в Adobe Character Animator.
(Тут мы перестаем пить за мультипликаторов и вопросительно поднимаем бровь). Гугль, это что вообще?

Гугль: это ассистент для аниматоров.

"В рамках этого пилотного проекта мы вместе с художниками разрабатывали новые рабочие процессы для 2D-анимации, одновременно создавая короткометражный образовательный мультфильм. Мы определили несколько рабочих процессов, которые позволят упростить процесс анимации и более эффективно воплотить замыслы художников на экране."

Кода или воркфлоу для Комфи я не нашел.
Но есть кожаные сценарии для эпизодов.

Странная работа.

genai-2d-character-animation.github.io

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot