This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kling "Custom Models" - это вообще-то прорыв.
Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.
Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.
Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.
Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.
Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.
В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.
@cgevent
Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.
Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.
Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.
Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.
Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.
В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В HeyGen новая фича - Photo Avatar
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
Forwarded from Нейронавт | Нейросети в творчестве
ConsiStory: Training-Free Consistent Text-to-Image Generation
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.
Выглядит нарядно, согласитесь?
https://www.polyhammer.com/
@cgevent
Выглядит нарядно, согласитесь?
https://www.polyhammer.com/
@cgevent
Media is too big
VIEW IN TELEGRAM
Мнемонад.
Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.
Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.
Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.
А я понял, что мне это все напоминает.
Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.
Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.
Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.
Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.
Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.
@cgevent
Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.
Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.
Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.
А я понял, что мне это все напоминает.
Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.
Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.
Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.
Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.
Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Давайте я доверну мысль из предыдущего поста, а то поздно, дед забыл принять таблетки и лыко вяжет плохо.
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.
А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.
Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?
Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.
@cgevent
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.
А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.
Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?
Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Большой Хуньянь и Хуньянь 3Д.
У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.
Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.
Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large
По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.
В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.
А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.
И пока он лучший.
И на Гитхабе у них 192 репозитария.
@cgevent
У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.
Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.
Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large
По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.
В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.
А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.
И пока он лучший.
И на Гитхабе у них 192 репозитария.
@cgevent
Тут я понял, что надо пояснить за Tencent.
Многие знают, что это папа и владелец WeChat и всей этой огромной экосистемы.
Немногие знают, что, например, они владеют 40% от Epic Games. Да, тот самый, который UE
100% от Riot Games
84% от финской Supercell
100% норвежской Funcom
Ну в общем это как бы монстр.
Вот вам картинка с их долями.
Ну и все, кто говорят, что развитие ИИ надо сдерживать, как-то забывают, что есть Тенсент с неограниченным ресурсом, и которому на эти сдерживания будет начхать.
А техно-оптимистам остается порадоваться, что ИИ без денег не останется по-любому.
@cgevent
Многие знают, что это папа и владелец WeChat и всей этой огромной экосистемы.
Немногие знают, что, например, они владеют 40% от Epic Games. Да, тот самый, который UE
100% от Riot Games
84% от финской Supercell
100% норвежской Funcom
Ну в общем это как бы монстр.
Вот вам картинка с их долями.
Ну и все, кто говорят, что развитие ИИ надо сдерживать, как-то забывают, что есть Тенсент с неограниченным ресурсом, и которому на эти сдерживания будет начхать.
А техно-оптимистам остается порадоваться, что ИИ без денег не останется по-любому.
@cgevent
А почему все молчат?
FLUX1.1 [pro] Ultra and Raw Modes
В четыре раза большее разрешение при почти том же времени генерации(4mp)
Raw Mode - cуперфотореализьм.
Уже завезли в Krea.ai
И на репликейт
https://replicate.com/black-forest-labs/flux-1.1-pro-ultra
И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra
Новость:
https://blackforestlabs.ai/flux-1-1-ultra/
@cgevent
FLUX1.1 [pro] Ultra and Raw Modes
В четыре раза большее разрешение при почти том же времени генерации(4mp)
Raw Mode - cуперфотореализьм.
Уже завезли в Krea.ai
И на репликейт
https://replicate.com/black-forest-labs/flux-1.1-pro-ultra
И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra
Новость:
https://blackforestlabs.ai/flux-1-1-ultra/
@cgevent
Replicate
black-forest-labs/flux-1.1-pro-ultra – Replicate
FLUX1.1 [pro] in ultra and raw modes. Images are up to 4 megapixels. Use raw mode for realism.
Для тех, кто запутался в разрешениях.
Ну не генерит Flux 1.1 pro ultra ничего в 4к.
У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.
4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.
Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).
Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.
https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/
@cgevent
Ну не генерит Flux 1.1 pro ultra ничего в 4к.
У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.
4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.
Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).
Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.
https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/
@cgevent
А поглядите на такое видео. Очень познавательно. 2 минуты
https://www.youtube.com/watch?v=eQEaiZ2j9oc
Тот случай, когда 3Д нужно не для радости, а для информации и точности.
Для радости у нас есть ИИ, но им такое точно не сделать.
А видео мне нравится, во-первых, своей понятностью и познавательностью. Расширяет представление о том, как мы слушаем Suno и Udio.
А во-вторых, интересно подумать, после 1:38, что можно пристроиться в эту цепочку со своим сигналом, подавать в кожаный мозг импульсы не из воздуха(акустика), а из аудиофайла напрямую, через ЦАП.
Я уже писал про кохлеарные имплантанты - эта тема меня не отпускает - маленький ребенок, который НИКОГДА не слышал звуков, вдруг начинает чувствовать некоторые электрические импульсы (вообще-то даже непонятно, что он начинает чувствовать, так как это отклик нервной системы, а не сенсорные ощущения). То есть он начинает чувствовать некий шум в голове, причем шум не акустический, а "нервный".
И постепенно, мозг на учится воспринимать этот канал связи как слух!
Подробнее тут:
https://t.iss.one/cgevent/8250
Подумайте, на каких сигналах мы можем еще дообучить мозг.
А я пойду перечитаю свои посты, как мозг добровольцев обучали определять направление на север с помощью обратной связи. Раньше больше писал про мозги, сейчас со всеми этим флюксами и минимаксами забросил. А зря наверное, материала много.
@cgevent
https://www.youtube.com/watch?v=eQEaiZ2j9oc
Тот случай, когда 3Д нужно не для радости, а для информации и точности.
Для радости у нас есть ИИ, но им такое точно не сделать.
А видео мне нравится, во-первых, своей понятностью и познавательностью. Расширяет представление о том, как мы слушаем Suno и Udio.
А во-вторых, интересно подумать, после 1:38, что можно пристроиться в эту цепочку со своим сигналом, подавать в кожаный мозг импульсы не из воздуха(акустика), а из аудиофайла напрямую, через ЦАП.
Я уже писал про кохлеарные имплантанты - эта тема меня не отпускает - маленький ребенок, который НИКОГДА не слышал звуков, вдруг начинает чувствовать некоторые электрические импульсы (вообще-то даже непонятно, что он начинает чувствовать, так как это отклик нервной системы, а не сенсорные ощущения). То есть он начинает чувствовать некий шум в голове, причем шум не акустический, а "нервный".
И постепенно, мозг на учится воспринимать этот канал связи как слух!
Подробнее тут:
https://t.iss.one/cgevent/8250
Подумайте, на каких сигналах мы можем еще дообучить мозг.
А я пойду перечитаю свои посты, как мозг добровольцев обучали определять направление на север с помощью обратной связи. Раньше больше писал про мозги, сейчас со всеми этим флюксами и минимаксами забросил. А зря наверное, материала много.
@cgevent
YouTube
Journey of Sound to the Brain
Learn how sounds make their way from the source to your brain. To learn more about how we hear, visit the National Institute on Deafness and Other Communication Disorders at https://www.nidcd.nih.gov.
A Spanish language version of this video is available…
A Spanish language version of this video is available…
Очень годный подкаст.
Гость нового выпуска Sravni Podcast — Валера Бабушкин, эксперт в области ML и анализа данных, автор книги о проектировании ML-систем.
Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech.
Также в этом выпуске:
- Неизвестный бэкграунд Валеры: чем занимался ранее?
- Компетенции, ошибки и карьерный путь ML-специалистов
- Полезные материалы, которые помогут лучше понять ML
- Кто самый крутой в ML прямо сейчас — среди отдельных экспертов и компаний
А ещё разыгрывается книга Валеры — смотрите выпуск до конца и участвуйте в конкурсе.
✅YouTube
✅RUTUBE
✅Яндекс Музыка
Гость нового выпуска Sravni Podcast — Валера Бабушкин, эксперт в области ML и анализа данных, автор книги о проектировании ML-систем.
Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech.
Также в этом выпуске:
- Неизвестный бэкграунд Валеры: чем занимался ранее?
- Компетенции, ошибки и карьерный путь ML-специалистов
- Полезные материалы, которые помогут лучше понять ML
- Кто самый крутой в ML прямо сейчас — среди отдельных экспертов и компаний
А ещё разыгрывается книга Валеры — смотрите выпуск до конца и участвуйте в конкурсе.
✅YouTube
✅RUTUBE
✅Яндекс Музыка
Mochi-Tamagochi. Разбираемся с опен-сорсным видео-генератором Genmo\Mochi-1.
Тут я немного размечу опен-сорсную поляну для начала.
На ней топчутся и конкурируют друг с другом:
Open Sora - самый старый проект, но одновременно самый заброшенный и по качеству самый слабый.
CogVideo - хорошо развивается, есть много форков и параллельных веток, есть модели 2B и 5B, есть image2video. Последние обновления в октябре.
Allegro - бодрый новичок, нет image2video, multiGPU support.
PyramidFlow - очень многообещающий проект. Есть image2video. Только что перетренировали на базе Flux. Есть старая модель 720p на базе SD30 и новая 384p (miniflux). Обещают скоро новую 720р модель. Есть MultiGPU.
Для всего этого списка есть поддержка ComfyUI от великого и могучего Jukka Seppänen
https://github.com/kijai?tab=repositories
А теперь перейдем к Mochi.
Главный недостаток - нет image2video.
Вначале было заявлено, что нужно 4 карты H100, чтобы это все посчитать. Действительно, в две A100 это не влезало по памяти, я проверял. На восьми считалось неторопливо. Но считалось. Но результат меня не так чтобы впечатлил.
Далее.
Есть как бы вполне себе коммерческий генератор Genmo, а Mochi-1 - это как бы исходный код, элегантно выложенный в опен сорс. Хороший пиар ход, имхо.
Но.
Результаты генерации у них на сайте (за деньги или унылые 3 бесплатных попытки) разительно отличаются от локальный генераций в Комфи или из командной строки.
В Комфи Jukka Seppänen сразу сделал так, чтобы это влезало в 24 гига, сократив требования с 320 гиг до 20 гиг VRAM. Это прям разорвало мне мозг.
И вот теперь, вышел анонс от самого ComfyUI, что они поддерживают Мочи на обычных видеокартах.
Там есть инструкции, что и откуда скачивать, бывалые разберутся, правда и там путаницы хватает. То ссылки на полные веса, то на пожатые. Но не суть - я протестировал все, вплоть до 40гиговых непожатых весов и без вае тайлинга.
Результат НЕ радует.
Более того, репозитарий Mochi-1 -
это самый кривой и косой репозитарий из всех моделей.
Ставится все плохо, с ошибками, пути перепутаны и такое ощущение, что разработчики выкладывали код именно как пиар-акцию, на отвали. Отвечают медленно, обновляют также.
Я немного прижал их вопросами, почему у них так сладенько на сайте и так кривенько локально.
Они заявили, что на сайте тоже модель 480р, что нет улучшайзера, что дело в промптах. Что у них на сайте стоит auto-prompter, который раскучерявливает промпты до годного. Я попросил поделиться примерами, ушли в тень, сказали "потом".
В общем у меня странные чувства по поводу этого генератора. Jukka говорит, что там есть апскейлер, но меня больше всего подбешивает их картиночка с метриками тут, где они на гнилой козе якобы обходят, внимание, Runway, Kling и Luma.
Тут мое доверие иссякло. Мне не нравится, то, что они делают.
А локальные генерации у них на уровне Пирамиды или Кога. Может чуть лучше. Но до закрытых генераторов им как до Луны, там все очень грустно. И никакой управляемости. Рулетка text2image. Да, я сделал лисичку с их сайта. Но твари от Кога мне нравятся больше.
Но есть и хорошая новость, народ запускает Мочи на 3060 с 12 гиг врам. Можете попробовать, вот инструкция:
https://www.reddit.com/r/StableDiffusion/s/z4ZA3fPKXz
У меня все, надеюсь полезно. Хоть и недобро.
@cgevent
Тут я немного размечу опен-сорсную поляну для начала.
На ней топчутся и конкурируют друг с другом:
Open Sora - самый старый проект, но одновременно самый заброшенный и по качеству самый слабый.
CogVideo - хорошо развивается, есть много форков и параллельных веток, есть модели 2B и 5B, есть image2video. Последние обновления в октябре.
Allegro - бодрый новичок, нет image2video, multiGPU support.
PyramidFlow - очень многообещающий проект. Есть image2video. Только что перетренировали на базе Flux. Есть старая модель 720p на базе SD30 и новая 384p (miniflux). Обещают скоро новую 720р модель. Есть MultiGPU.
Для всего этого списка есть поддержка ComfyUI от великого и могучего Jukka Seppänen
https://github.com/kijai?tab=repositories
А теперь перейдем к Mochi.
Главный недостаток - нет image2video.
Вначале было заявлено, что нужно 4 карты H100, чтобы это все посчитать. Действительно, в две A100 это не влезало по памяти, я проверял. На восьми считалось неторопливо. Но считалось. Но результат меня не так чтобы впечатлил.
Далее.
Есть как бы вполне себе коммерческий генератор Genmo, а Mochi-1 - это как бы исходный код, элегантно выложенный в опен сорс. Хороший пиар ход, имхо.
Но.
Результаты генерации у них на сайте (за деньги или унылые 3 бесплатных попытки) разительно отличаются от локальный генераций в Комфи или из командной строки.
В Комфи Jukka Seppänen сразу сделал так, чтобы это влезало в 24 гига, сократив требования с 320 гиг до 20 гиг VRAM. Это прям разорвало мне мозг.
И вот теперь, вышел анонс от самого ComfyUI, что они поддерживают Мочи на обычных видеокартах.
Там есть инструкции, что и откуда скачивать, бывалые разберутся, правда и там путаницы хватает. То ссылки на полные веса, то на пожатые. Но не суть - я протестировал все, вплоть до 40гиговых непожатых весов и без вае тайлинга.
Результат НЕ радует.
Более того, репозитарий Mochi-1 -
это самый кривой и косой репозитарий из всех моделей.
Ставится все плохо, с ошибками, пути перепутаны и такое ощущение, что разработчики выкладывали код именно как пиар-акцию, на отвали. Отвечают медленно, обновляют также.
Я немного прижал их вопросами, почему у них так сладенько на сайте и так кривенько локально.
Они заявили, что на сайте тоже модель 480р, что нет улучшайзера, что дело в промптах. Что у них на сайте стоит auto-prompter, который раскучерявливает промпты до годного. Я попросил поделиться примерами, ушли в тень, сказали "потом".
В общем у меня странные чувства по поводу этого генератора. Jukka говорит, что там есть апскейлер, но меня больше всего подбешивает их картиночка с метриками тут, где они на гнилой козе якобы обходят, внимание, Runway, Kling и Luma.
Тут мое доверие иссякло. Мне не нравится, то, что они делают.
А локальные генерации у них на уровне Пирамиды или Кога. Может чуть лучше. Но до закрытых генераторов им как до Луны, там все очень грустно. И никакой управляемости. Рулетка text2image. Да, я сделал лисичку с их сайта. Но твари от Кога мне нравятся больше.
Но есть и хорошая новость, народ запускает Мочи на 3060 с 12 гиг врам. Можете попробовать, вот инструкция:
https://www.reddit.com/r/StableDiffusion/s/z4ZA3fPKXz
У меня все, надеюсь полезно. Хоть и недобро.
@cgevent
Reddit
From the StableDiffusion community on Reddit: 61 frames (2.5 seconds) Mochi gen on 3060 12GB!
Explore this post and more from the StableDiffusion community