FSCP
17.1K subscribers
30.6K photos
3.58K videos
863 files
78.1K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вы видели новые варианты управления камерой в Runway.

В опенсорсных моделях это будет появляться в виде контролНетов и Лор. И это будет не то чтобы недружелюбно.
Это будет просто зоопарк.

На видео пример работы, внимание, "DimensionX left orbit Lora" для CogVideo.
Лора для поворота налево.

Выглядит круто, особенно для опенсорсного генератора.

Но просто представьте как вы втыкаете очередную лору в CogVideo Lora node в Комфи, чтобы пошевелить ушами.

И во что все это превращается.

Я уже давно ною про вопросы управляемости видео-генерациями, но похоже пока ничего лучше чем video2video, где на входе кожаное видео не придумали.

А кожаное видео, зараза, надо уметь снимать. И кожаные нужны для него тоже, если это не котики.

Все, нейродед проворчался.

Лору, кстати, можете забрать тут

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Нейропроцедурное моделирование

Наткнулся на видео от Pepe Buendia по процедурным городам в Гудини.

Ну, честно говоря, Миха Лёсин показывал такое на CG EVENT еще в 2007 году, но это не так важно.

А важно то, что весь этот наш GenAI выдает нам, как правило, пиксели и видосы. Финальный материал.

И мы потом такие, контролНет, инпайнт, все дела, чтобы снова попасть в финальный материал, то есть в пиксели.

А что если хочется сказать: а сгенери сцену в Гудини, чтобы сделать вот такой вот город-сад (напихать референсов), выведи рульки наружу (как положено в Гудини) и сохрани ея для меня.

Если свести это к метазадаче: а сгенери мне код для (нужное подчеркнуть), который дает вот такую картинку. Но это уже совсем нобелевка.

Народ пока лепит 3Д генераторы, но на выходе - нередактируемая хтонь.

А хочется на выходе иметь не пихсели или вертексы, а рульки и педальки. Как результат работы ИИ. Чтобы можно было докручивать.

Уже писал, что встречал подобное только у Влада в www.tech-va.com
где нейросетки на выходе выдают рульки и параметры для Нюка.

Понятно, что можно сказать, дай мне код на питоне, чтобы в блендоре сделать кубик.

Также видел поделки на базе Daz3D, но там они просто по тегам таскают персонажей из библиотеки.

А хочется на вход промпт и картинку как референс, а на выходе Geometry Nodes, например.
Или ноды для TouchDesigner.

Ну или частный случай: на входе портрет из флюкса, на выходе - ползунки для метахьюмана. Можно же натренить?

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Странно, Runway AI без всякого шиллинга в твитторах только что тихонько выпустил 19 секундные генерации!
Без продолжалок, а целиком.

Вот ам Skull Island. Сделано с помощью Blender 3D и Gen-3 Turbo video to video.

С новым контролем камеры выглядит все интереснее.
Автор тут

———
Уточнение к предыдущему посту, не 19, а 20 секунд. И это относится к режиму video2video.

Заодно поглядите, как можно использовать www.skyglass.com для персонажа и фона, а затем навалить gen-3 video2video сверху. Голос, кастати, от elevenlabs.

Как-то я запереживал за игры и авторское кино.
________
Источник | #cgevent
@F_S_C_P

Стань спонсором!
This media is not supported in your browser
VIEW IN TELEGRAM
Так, потерпите, меня пробило на грибы и Runway.

Я щас доберусь до видеогенератров, но вот вам еще один очень классный пример, похожий на предыдущий о том, как вытаскивать 3Д мир из любой картинки, уже не имея никакой болванки в блендоре.

Берете в Runway Image2Video.
Просто используете новые управлялки из Runway, чтобы сделать видео облетов "внутри" картинки.
Используете эти видео чтобы собрать трехмерную сцену из Гауссианов в Unity Gaussian BOX Splatting.
А дальше вы уже в 3Д и просто светите сцену с помощью Custom URP Lit 6 ways Shader.

Еще раз - на входе картинка (хоть Флюкс, хоть древний Мидж) - на выходе вы бродите в Юнити по этой картинке внутри!

Шел 2024 год. Люди массово переселялись в картинки.
Сорс.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку. https://t.iss.one/cgevent/10253

Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.

И да, это 3dgs - гауссианы, полученные из postshot.

Кто не знает про postshot - глядите сюда www.jawset.com (надо немного знать 3Д).

А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).

Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.

А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об это тут.

Ох, куда катится мир... в какие картинки.


_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
2D -> 3D

Мне кажется то, о чем так долго говорили в Midjourney вылезает на свет, но только не из недр Midjourney.


World Labs представила ИИ-платформу, которая превращает обычные изображения в полностью изучаемые 3D-миры прямо в вашем браузере.

Сначала поглядите сюда:

www.worldlabs.ai


Загружаете картинку - получаете 3Д-мир, причем прямо в браузере. И ну ходить по нему. Прямо в браузере.

Внимание, вам нужен очень мощный браузер. Чем дальше прокручиваете страницу, тем жирнее демо, и тем медленнее все крутится и в конце концов у меня все тупо зависает.

Это не проблема технологии, просто не надо в одну страницу впихивать столько 3Д-виджетов.

Что оно умеет:

Берет 2D-изображения и создает реалистичную 3D-геометрию
Заполняет {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Моя TRELLIS!
Пока мы тут алкаем Sora, я вам принес новый 3Д-генератор. И какой!

1. Опенсорсный!
2. Довольно убойного качества.
3. Это Микрософт.

Пока он работает только по входной картинке, что уже неплохо, но они обещают скоро докинуть TRELLIS-text-xlarge на 2B параметров, что для text-to-3D очень круто.
А тренировались они на полумиллионе моделей и похоже не только на помойках типа objaverse.
Они умеют выводить во все, что шевелится в 3Д: Radiance Fields, 3D Gaussians, and meshes.
И анонсируют даже редактирование и модификацию сгенерированных моделей через промпты (покричим на модельки?). Оторви руку, замени ногу, дай в руки палицу - есть примеры на сайте.

Выглядит сладчайше. Все черрипики есть у них на сайте, следующим постом {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Мне не очень нравится сервис Viggle - слишком узкая область применения, проскальзывания, ну и общее качество - такое.

Но тут вот у них вышла Model V.3 и там они замахнулись на анимацию лица и аватаризацию.

Сам я не буду пробовать, но если под ваши мемные задачи это подойдет, но поглядите сюда:
viggle.ai

Remix, Multi Character и особенно Relight выглядят,конечно, нарядно, но ноги по прежнему скользят, и вот такие вот меркетинговые сентенции вызывают вопросы:
Viggle is powered by JST-1, the first video-3d foundation model with actual physics understanding.


А я пока разыскал в твитторах довольно любопытное видео, где они дерзко сравнивают себя с Runway Act One на примере Arcane.

Следующим примером дам вам пример другого любопытного сервиса.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
Кожаная метка

А вот это уже симптоматично. Вместо того, чтобы гоняться за распухающим объемом контента, произведенного с помощью ИИ (мне особенно "зашли" бесконечные стримы, произведенные с помощью NotebookLM и визуализированные с помощью Heygen или Hedra, источник бесконечного булшита на любые темы), ютюбчик хочет отмечать именно кожаные видео, не тронутые грязными лапами ИИ.

Тут, конечно, стартаперы должны зашевелиться с идеями типа "Стриминг-Бутик с кожаными видео only." Но, как вы понимаете, в мире, где основные метрики - это количество, а не качество контента, эта идея немедленно будет взломана.

А идея делить контент на кожаный и ИИшный (имхо), довольно утопична. Просто потому что "а зачем?". Потребление контента кожаными - вот основная цель бизнесов, зарабатывающих на трафике, рекламе и стриминге. Зачем рубить сук?
Более того, кожаные уже давно не в состоянии отличать сгенеренный контент от рукотворного.

Интересно, что монтаж вроде как можно, а вот эффекты уже нельзя:

Видео не обязательно должно быть неотредактированным, чтобы получить кожаную метку, но, согласно странице поддержки, каждый этап процесса должен поддерживать C2PA и не допускать:
- Редактирования, которое нарушает цепочку происхождения или делает невозможным отслеживание видео до его первоисточника. Например, если вы снимаете изображение с метаданными C2PA, а затем сохраняете его в фотоальбоме своего телефона, который не поддерживает C2PA версии 2.1 или выше, это может нарушить цепочку происхождения
- Значительные изменения основной природы или содержания видео, включая звуки или визуальные эффекты.
- Изменения, которые делают видео несовместимым со стандартами C2PA (версии 2.1 и выше).


В общем я не понимаю - зачем?

Давайте оставим только прямые склейки? Ну ок...
www.theverge.com
@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Реалтаймовый path tracing в UE5.

Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.

Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).

И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.

Явшоке. Подробности ниже.

А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?

youtu.be

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Лоры для видео

Мне кажется, скоро мы увидим поток Лор для видео-моделей. И если закрытые платформы типа Kling выкатывают свои скромные решения, позволяющие тренировать внутренние лоры на лицах, но опен-сорс не разменивается по мелочам.

Я долго мучился, выбирал, какое видео можно хотя бы под спойлер спрятать, еле нашел одно.

В общем держите:
CogVideoXXX1.5-5B-I2V LoRA NSFW

Сообщество идет путем Stable Diffusion 1.5 и тренирует то, что действительно востребовано.

Слабонервным, нервным, строговоспитанным и впечатлительным смотреть и ходить по ссылке крайне не рекомендуется. Там все по-взрослому.

Но стоп-кран сорван и трушные Лоры для видео залетают на Civitai.

civitai.com

@cgevent

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Мятное видео. https://t.iss.one/cgevent/10596

Вы будете смеяться, но у нас новый видео-генератор!

Причем не простой! А с ништяками.

MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.

Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.

Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.

Проще показать промпт:

[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.

И все это в одном сеттинге.

Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.

Обязательно посмотрите примеры тут:
mint-video.github.io
Там интересно.

По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.

У моделей вообще отношения со временем не очень, а тут попытка приручить время.

Также поглядите на интересную работу на тему времени тут.
_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
Ну и вторая метаверс-бомба на сегодня. https://t.iss.one/cgevent/10647

Взрослые мальчики знают, кто такой Ed Catmull.
Это дяденька, который создал Пиксар

Так вот, держите:

Generative World Models for Film, Gaming, and Beyond

На борту (точнее на борду) тот самый Ed Catmull.

Проект настолько нарядный, что сначала просто осмотрите сайт:

odyssey.systems

Потом запишитесь в бету (внизу на сайте).

А теперь пара коментов.

1. Это все Гауссианы.

2. Это все можно втащить в UE или Блендор и редактировать. На видео есть сцена со сплатами в UE и космонавтами в Блендоре.

3. Поглядите на примеры с виртуальным продакшеном. Вот где точка входа в world models!

4. Они целятся в реалтайм, но пока одна сцена генерится 10 минут.

5. Explorer может увеличить разрешение и охват мира, плавно увеличивая генерации, чтобы заполнять любые пробелы и создавать полноценные сфер {...продолжить в источнике}

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
https://t.iss.one/cgevent/10635

Следующая новость отлично соответствует названию канала.
Ибо это симуляция и визуализация физического мира на стероидах ИИ.

20+ лабораторий совместными усилиями разработали и выпустили исходный код Genesis - физического движка с Visual Language Model агентом, который превращает промпты в интерактивные 4D-миры.

4D - это новое модное слово, обозначающее 3D с анимацией. Для нас это просто 3Д-сцена, в которой что-то происходит - симуляция физики, движение камеры, анимация персонажа.

Genesis - это как бы Maya или Houdini только на естественном языке, с ИИ-солверами, ускоренными примерно в 100-1000 раз, по сравнению с обычными солверами физики и кинематики. Это если очень грубо. Плюс рендеринг с рейтрейсингом.


Под капотом используется агент на основе VLM, который использует симуляционные API в качестве инструментов, генерируя физически точное окружение, траектории движения камеры, поведение роботов и анимацию персонажей. Огромное количество физических SOTA-солверов + тонна материалов.

Помните мы все смотрели ролики двухминутного доктора про то, как нейронки ускоряют физику жидкостей или твердых тех. Теперь это все в одном флаконе размером с Юпитер.

Они собрали все на чистом питоне, каким-то образом сделав физический движок в 10-80 раз быстрее, чем Issac Sim от Nvidia.

Я вот читаю такое: "Физические симуляторы работают в 430 000 раз быстрее, чем в реальном времени, сохраняя при этом точность, достаточную для выпускания роботов в реальный мир."
И не понимаю, это троллинг такой?

А еще там есть 3Д-генератор сложных объектов, "выходящий за рамки категорий, содержащихся в аннотированном человеком активе артикулированных объектов".

Мягкие робаты.

Speech Audio, Facial Animation & Emotion Generation - тут полегчало, ибо на видео эмоции скорее для робатов.

Но в целом это и есть огромный скоростной симулятор мира для тренировки роботов (а может и кожаных). С рейтрейсингом на борту.

И код есть!!
genesis-embodied-ai.github.io
А статей пока нет.

Но есть документация, неплохай притом.
genesis-world.readthedocs.io

Осталось разобраться, как запускать на линуксе в сети с клиентом на ноуте и можно пробовать ИИ-Майя.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!
Ну, за мультипликаторов.

Тут Гугль неожиданно выкатил вот такую интересную работу.
И мультик.

Для каждого персонажа свой файнтюн(?!, да, там LoadCheckPoint + Dreambooth SDXL). По 12-то картинкам.

Эти файнтюны генерят кривые руки и пропорции - их корректируют через Depth и Canny контролнеты.
В ComfyUI.

Там же сегментируют персонажей с помощью Dino и SAM.

Часть картинок анимируют с помощью AnimateDiff + DaVinci+Nuke.

А часть - просто ригают и анимируют в Adobe Character Animator.
(Тут мы перестаем пить за мультипликаторов и вопросительно поднимаем бровь). Гугль, это что вообще?

Гугль: это ассистент для аниматоров.

"В рамках этого пилотного проекта мы вместе с художниками разрабатывали новые рабочие процессы для 2D-анимации, одновременно создавая короткометражный образовательный мультфильм. Мы определили несколько рабочих процессов, которые позволят упростить процесс анимации и более эффективно воплотить замыслы художников на экране."

Кода или воркфлоу для Комфи я не нашел.
Но есть кожаные сценарии для эпизодов.

Странная работа.

genai-2d-character-animation.github.io

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Вернемся на минутчку к видеогенераторам. https://t.iss.one/cgevent/10763

Конечно, все ждут от Хуньяня весов image2video модели. Ибо Хуньянь показал себя как абсолютно безбашенная модель с полным отсутствием цензуры.

Для тех, кто работает с NSFW, приподсобрал интересных материалов про Хуньянь.

1. Похоже Хуньянь становится SD15 только в области видеогенерации. Народ уже тренирует Лоры для него типа вот таких:
civitai.com

2. А так как процесс тренировки уже открыт и прозрачен, то возникают вот такие забавные проекты:
github.com
Он может загружать видео с поддерживаемых веб-сайтов(сейчас это Икс-Хамстер) и выполнять различные задачи обработки, такие как обнаружение сцен, обрезка ненужных кадров, анализ кадров и создание датасетов для обучения лор. Инструментарий является модульным, что позволяет легко добавлять новые загрузчики и утилиты.


3. А на закуску держите NSFW-prompting-guide для Хуньянь (и не только). Он очень познавательный. Если вкратце - называете вещи своими (правильными) именами и прямо говорите о том, что вам нужно - все как в жизни.
civitai.com


4. Бонусы:
Быстрый Хуньянь с пониженным требованием к памяти:
github.com
Демо на репликейт, где работает негативный промпт:
replicate.com
Забавные лоры:
civitai.com
Тренировка лор(инструкции):
civitai.com
https://www.reddit.com/r/StableDiffusion/comments/1hrqnz1/stepbystep_tutorial_diffusionpipe_wsl_linux/
Hunyuan GGUF:
youtu.be

5. Супер-бонус: редактирование видео с помощью Хуньянь в комфи:
github.com

_______
Источник | #cgevent
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
К вопросу про "позапускать локально".

Твит экзистенциальный, конечно.

В комментах народ ломает голову над не менее сложными вопросами типа "если она опенсорснутая, то каков ея моральный облик".

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------
This media is not supported in your browser
VIEW IN TELEGRAM
Rokoko, тьфу, Kokoro.

Новая опенсорсная Text-To-Speech модель, от которой твиттор плачет кипятком.

Маленькая, 82М параметров, веса 327 Мb.

Быстрая - пример в шапке на 2 мин 25 сек создан за 4.5 секунды на T4.
На Маке 10 секунд генерятся 2 секунды.

Веса и прочий фарш тут: huggingface.co

Демо: huggingface.co

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!