FSCP – Telegram

FSCP

Mochi 1
Вы будете смеяться, но у нас новый опенсорсный видеогенератор.

github.com

Выглядит донельзя нарядно.

А уж по приведенным диаграммам этот Genmo побивает всех кроме Клинга (какая наивная наглость).

И написано все сладко: "Модель диффузии с 10 миллиардами параметров построена на основе нашей новой архитектуры Asymmetric Diffusion Transformer (AsymmDiT). Обученная полностью с нуля, она является самой большой генеративной моделью видео, когда-либо открыто выпущенной."

По описанию напоминает Пирамиду, только с конским датасетом.

Но.

Если почитать мелкий шрифт, а точнее в самом конце, то это не 720p, а 480p.

И оно не умеет в движения: "Mochi 1 также оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом"

И вот это хорошо "В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения."

Нет image2video.

Ну и вот вам огромная коричневая вишня:

The model requires at least 4 H100 GPUs to run.

Настораживает также, что у них есть платный генератор: www.genmo.ai - который щас не работает

В общем непонятный проект с каким-то мутным маркетингом, не очень присущим опенсорсу.

Пойду ставить.
github.com

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
✨Anna Taro bot

0:52

Метаверсище и ИИще

Mochi 1

Вы будете смеяться, но у нас новый опенсорсный видеогенератор.

https://github.com/genmoai/models

Выглядит донельзя нарядно.

А уж по приведенным диаграммам этот Genmo побивает всех кроме Клинга ⠘⢘⠘⠢⡁⠢ ⡌⡃⡠⡑⡰⣈⡨ ⠬⠉⢠⡐⠰⠜⠅⢐⠊⣐

И написано все сладко:…

1.2K views05:18

Пост для тех, кто жалуется, что видео у них генерится долго.
Что Флюкс есть очень много памяти и считает один кадр пять минут.
Также для тех, кто ноет, что в Суно песок в вокале и металлический призвук.
Ребята, вы просто зажрались. На бесплатных харчах-тарифах, на дешевых подписках, на вот этой вот кнопке Eще.

Это Transformers Dark of the Moon.

Один кадр разрушения небоскреба считался 288 часов на кадр. Ибо рефракшены, рефлекшены, стеколки и пр.
У Дрил Бота было 70 000 частей из которых состояла его модель, и все это анимировалось.

А рендерфермочка у ILM молотит примерно по 200 000 рендер-часов в день.
Просто у них очень много нод.

И ничего, не жалуются. Делают ручками. Для Аймакса.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!

1.0K views06:47

FSCP

Тут вот в Нейросайенсе интересная статья на тему гибридизации искуственного и естественного интеллектов, о которой мы говорили недавно с Сергеем Кареловым.

Мне кажется, что авторы злят старика Оккама, но они красиво вводят новую сущность, Систему 0 - по аналогии с двумя моделями человеческого мышления по Канеману: Системой 1, характеризующейся интуитивным, быстрым и автоматическим мышлением, и Системой 2, более аналитическим и рефлексивным типом мышления.

«Система 0» - это как бы когнитивная структура, в которой искусственный интеллект (ИИ) улучшает человеческое мышление, обрабатывая огромные данные.

Тут хочется провести аналогию с появлением калькулятора, потом интернета, потом гугла, а потом рекламных сетей, ибо авторы постулируют вот так:
Система 0» относится к ИИ как внешнему инструменту мышления, дополняющему человеческое познание.
Чрезмерная зависимость от ИИ грозит снижением человеческой самостоятельности и критического мышления.

"Взаимодействие человека и искусственного интеллекта формирует новую систему мышления, новую когнитивную схему, внешнюю по отношению к человеческому разуму, но способную усилить его когнитивные способности."

В принципе, если в статье заменить ИИ на слово Интернет или Инстаграм (ну или взаимодействие с Интернетом), то мало что изменится.

Ну и в статье многократно повторяется довольно банальная и неприятная мысль - человеку надо постоянно брать ответственность за свои выборы. А введение Системы 0 - это скорее красивый философский ход, хотя тут он подается как психологическо-научный.

«Растущая тенденция использования синтетических или искусственно созданных данных может поставить под угрозу наше восприятие реальности и негативно повлиять на наши процессы принятия решений».

Инстаграм может поставить под угрозу наше восприятие реальности и негативно повлиять на наши процессы принятия решений - это уже я сделал подстановку.

"Они приходят к выводу: если не остановить Систему 0, в будущем она может повлиять на человеческое мышление."

Они приходят к выводу: если не остановить Инстаграм, в будущем он может повлиять на человеческое мышление.

Мне кажется тут точно множатся сущности без необходимости.

А я разверну мысль вот в таком направлении.

Вот щас многие пишут код с помощью ИИ (система 0 типа). Если код реально большой, то где гарантия, что в нем нет дыр?

Если предположить, что с некоторого количество строк вероятность появления дыр в безопасности кода чуть подрастает, то переходим к следующему пункту.

Вот щас многие пишут\генерят тексты и вообще контент с помощью ИИ (промпты и все дела).
Если все это работает на больших объемах коммуникаций, то где гарантия, что там нет дыр?

Дыр в безопасности. В кукушке.

P/S/ В конце статьи есть хорошая мысль, которую я тут постоянно повторял, пока не увлекся Флюксом и Гитхабом: "с развитием искусственного интеллекта может появиться возможность полагаться на интеллектуальные системы для анализа нашего поведения и психических состояний".
Иначе говоря, поиск дыр в безопасности.

neurosciencenews.com

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------

Метаверсище и ИИще

Вместо веселых картинок с утра будет веселое видео.

Ну или невеселое. Там вообще много "не", "нелюди", "нежить".

В общем, я, наконец-то, дал волю магическому мышлению, ушел от технических тем и вывалил всю свою ИИ-рефлекцию. Одна гибридизация души чего…

1.1K views05:34

FSCP

Пришло письмо от Wonder Dynamics

Они выпускают Wonder Animation - и выглядит это невыносимо круто.

И да, это вам не однокнопочный ViggleAI - это профессиональное решение со сложным управление.

Поглядите видео, они преобразуют отснятый материал в 3D-сцены со всеми настройками камеры, анимацией тела и лица персонажа и полностью редактируемыми элементами в одной 3D-сцене. Тут много !.

Может кушать несколько планов с разными углами (широкий, средний, крупный). Затем ИИ реконструирует сцену в 3D и согласует положение и движение каждой камеры с персонажами и окружающей средой (анимация, персонаж, окружение, освещение и трекинг камеры)

Напомню, что пять месяцев назад их пожрал Автодеск. Но пока не убрал под сукно, а даже рекламирует как тул для Maya, Blender or Unreal.
adsknews.autodesk.com

Цены профессиональные, особенно в пересчет на секунды.

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!

0:38

Метаверсище и ИИще

1.1K views14:01

FSCP

Из забавного. В твиттор утек системный промпт от Apple Intelligence.

Он большой, в нем много разного на разные случаи жизни.

Основное правило, конечно, подкупает простой - "Не галлюцинируй."
А что так можно было c LLM??

"Не выдумывай фактическую информацию".

А что так можно было c LLM??

Далее забавные детали и легкое выравнивание:

"Убедись, что имена музыкальных исполнителей отмечены именно как музыкальные исполнители, а не просто как "кто".

"Идентифицируй названные места, такие как достопримечательности, адреса предприятий, города и страны, и помечайте их как "где", а не "что". Грамарнаци?

"Помечайте любое упоминание названия праздника или фестиваля, за которым сразу следует год, как "когда"

"Пожалуйста, считай" все запросы чувствительными к регистру и предоставляйте одинаковый ответ, если смысл запросов одинаков."

Там еще очень много всего. Ибо AppleI встроен не только в чат, но и в продукты, например для имейлов:
"Вы являетесь помощником для ответов на почту, который помогает выявить релевантные вопросы из данного письма и короткий ответ. Получив письмо и краткий ответ, задайте релевантные вопросы, которые явно указаны в письме. Ответы на эти вопросы будут выбраны получателем, что поможет уменьшить искажение информации при написании ответа. Пожалуйста, выводите основные вопросы вместе с набором возможных ответов/вариантов для каждого из этих вопросов. Не задавайте вопросы, на которые уже есть ответ в кратком ответе. Вопросы должны быть короткими, не более 8 слов. Представьте ваш вывод в формате JSON в виде списка словарей, содержащих вопрос и ответы в качестве ключей. Если в письме не задано ни одного вопроса, то выведите пустой список []. Выводите только корректный JSON и ничего больше."

Ну и там такого очень много.

Увязка с продуктами, а не только с чатом, может раздувать системный промпт.

Если вам не лень, по почитайте скрины тут:
x.com
И поиском по твиттору

@cgevent

_______
Источник | #cgevent
@F_S_C_P

-------
Секретики!
-------

Метаверсище и ИИще

Из забавного. В твиттор утек системный промпт от Apple Intelligence.

Он большой, в нем много разного на разные случаи жизни.

Основное правило, конечно, подкупает простой - "Не галлюцинируй."
А что так можно было c LLM??

"Не выдумывай фактическую информацию".…

1.1K views01:21

FSCP

Я много писал про OmniGen. Это как бы новая архитектура для генерации картинок.
Но это не совсем генератор. Это скорее нейроредактор уже имеющихся изображений.

А теперь внимание.
Есть такая Stable Diffusion Based модель - Pony.
Ну это как бы царь (или царица) в области генерации NSFW.
Так вот, автор Пони сейчас файнтюнит Omnigen (на датасетах из Пони), чтобы можно было редактировать эти веселые картинки в соответствии с вашими фантазиями. Промптами. Поглядите мой пост на предмет таких промптов.

Вы представляете, что это будет за комбайн?

И называться все это будет PomniGen!

Как пишет автор Пони: generate with Pony V7 and edit with (p)omnigen.

_______
Источник | #cgevent
@F_S_C_P

Узнай судьбу картами Таро:
✨Anna Taro bot

1.2K views16:58

FSCP

Мнемонад. https://t.iss.one/cgevent/10122

Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.

Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.

Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.

А я понял, что мне это все напоминает.

Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.

Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.

Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.

Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.

Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.

Давайте я доверну мысль из предыдущего поста, а то поздно, дед забыл принять таблетки и лыко вяжет плохо.
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.

А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.

Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?

Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!

Метаверсище и ИИще

Мнемонад.

Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.

Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.

Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание…

1.1K viewsedited 05:57

FSCP

А почему все молчат? https://t.iss.one/cgevent/10127

FLUX1.1 [pro] Ultra and Raw Modes

В четыре раза большее разрешение при том же времени генерации.

Raw Mode - cуперфотореализьм.

Уже завезли в Krea.ai

И на репликейт
replicate.com

И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

Новость:
blackforestlabs.ai

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!

Метаверсище и ИИще

Flux 1.1 Ultra Raw Mode

1.2K views08:44

FSCP

This media is not supported in your browser

VIEW IN TELEGRAM

Вот вы видели новые варианты управления камерой в Runway.

В опенсорсных моделях это будет появляться в виде контролНетов и Лор. И это будет не то чтобы недружелюбно.
Это будет просто зоопарк.

На видео пример работы, внимание, "DimensionX left orbit Lora" для CogVideo.
Лора для поворота налево.

Выглядит круто, особенно для опенсорсного генератора.

Но просто представьте как вы втыкаете очередную лору в CogVideo Lora node в Комфи, чтобы пошевелить ушами.

И во что все это превращается.

Я уже давно ною про вопросы управляемости видео-генерациями, но похоже пока ничего лучше чем video2video, где на входе кожаное видео не придумали.

А кожаное видео, зараза, надо уметь снимать. И кожаные нужны для него тоже, если это не котики.

Все, нейродед проворчался.

Лору, кстати, можете забрать тут

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!

1.1K views06:39

FSCP

Нейропроцедурное моделирование

Наткнулся на видео от Pepe Buendia по процедурным городам в Гудини.

Ну, честно говоря, Миха Лёсин показывал такое на CG EVENT еще в 2007 году, но это не так важно.

А важно то, что весь этот наш GenAI выдает нам, как правило, пиксели и видосы. Финальный материал.

И мы потом такие, контролНет, инпайнт, все дела, чтобы снова попасть в финальный материал, то есть в пиксели.

А что если хочется сказать: а сгенери сцену в Гудини, чтобы сделать вот такой вот город-сад (напихать референсов), выведи рульки наружу (как положено в Гудини) и сохрани ея для меня.

Если свести это к метазадаче: а сгенери мне код для (нужное подчеркнуть), который дает вот такую картинку. Но это уже совсем нобелевка.

Народ пока лепит 3Д генераторы, но на выходе - нередактируемая хтонь.

А хочется на выходе иметь не пихсели или вертексы, а рульки и педальки. Как результат работы ИИ. Чтобы можно было докручивать.

Уже писал, что встречал подобное только у Влада в www.tech-va.com
где нейросетки на выходе выдают рульки и параметры для Нюка.

Понятно, что можно сказать, дай мне код на питоне, чтобы в блендоре сделать кубик.

Также видел поделки на базе Daz3D, но там они просто по тегам таскают персонажей из библиотеки.

А хочется на вход промпт и картинку как референс, а на выходе Geometry Nodes, например.
Или ноды для TouchDesigner.

Ну или частный случай: на входе портрет из флюкса, на выходе - ползунки для метахьюмана. Можно же натренить?

@cgevent

_______
Источник | #cgevent
@F_S_C_P

Стань спонсором!

0:25

Метаверсище и ИИще

Нейропроцедурное моделирование

Наткнулся на видео от Pepe Buendia по процедурным городам в Гудини.

Ну, честно говоря, Миха Лёсин показывал такое на CG EVENT еще в 2007 году, но это не так важно.

А важно то, что весь этот наш GenAI выдает нам, как правило…

1.2K views02:27

About

Blog

Apps

Platform