This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Open Source Video2Video - работает локально.
Это удивительно, конечно, наблюдать, как с опозданием в 2-3 месяца фишки, которые мы наблюдали, роняя челюсти, в Runway или Kling начинают появляться в опенсорсных сборках.
Да, они сходу работают кривовато, качество треш по большей части, но оно РАБОТАЕТ. Ну то есть замысел и алгоритмы заводятся на кургузых опенсорсных чекпойнтах и главное отличие в том, что у энтузиастов не было денег, возможностей и компьюта, собрать конские датасеты, перемолоть их в тренировке и задрать качество. Но дайте время.
И когда я вижу, что появляются image2video, video2video, маски для видео, глубина (MoGe) на гитхабе, я стараюсь все попробовать, чтобы убедиться, что это не фейк. И это не фейк, это работает локально. И когда Барак Обама улыбается и кивает тебе на видео в нужном ракурсе, хотя у тебя было только видео девушки и текст "Барак Обама улыбается", то ты понимаешь, video2video работает.
Тут ирония в том, что не было ни одной картинки на входе.
Девушка - это text2video в Pyramida Flow.
Остальное - это video2video в MochiEdit - этакий контролНет для видеогенерации.
Его можно завести в Комфи вот отсюда:
https://github.com/kijai/ComfyUI-MochiEdit
или отсюда:
https://github.com/logtd/ComfyUI-MochiEdit
Обещают поддержку CogVideo и других.
@cgevent
Это удивительно, конечно, наблюдать, как с опозданием в 2-3 месяца фишки, которые мы наблюдали, роняя челюсти, в Runway или Kling начинают появляться в опенсорсных сборках.
Да, они сходу работают кривовато, качество треш по большей части, но оно РАБОТАЕТ. Ну то есть замысел и алгоритмы заводятся на кургузых опенсорсных чекпойнтах и главное отличие в том, что у энтузиастов не было денег, возможностей и компьюта, собрать конские датасеты, перемолоть их в тренировке и задрать качество. Но дайте время.
И когда я вижу, что появляются image2video, video2video, маски для видео, глубина (MoGe) на гитхабе, я стараюсь все попробовать, чтобы убедиться, что это не фейк. И это не фейк, это работает локально. И когда Барак Обама улыбается и кивает тебе на видео в нужном ракурсе, хотя у тебя было только видео девушки и текст "Барак Обама улыбается", то ты понимаешь, video2video работает.
Тут ирония в том, что не было ни одной картинки на входе.
Девушка - это text2video в Pyramida Flow.
Остальное - это video2video в MochiEdit - этакий контролНет для видеогенерации.
Его можно завести в Комфи вот отсюда:
https://github.com/kijai/ComfyUI-MochiEdit
или отсюда:
https://github.com/logtd/ComfyUI-MochiEdit
Обещают поддержку CogVideo и других.
@cgevent
Media is too big
VIEW IN TELEGRAM
Полностью опенсорсная видео-генерация.
Рубрика крутые подписчики.
Идеальным дополнением к моим тряпочным тестам выше будет вот такой эпохальный ролик от Димы Жилзоны ПОЛНОСТЬЮ СОБРАННЫЙ в опенсорсной Pyramide Flow.
"В качестве исходных артов генерации Midjourney без какой-либо пост-обработки и апскейла.
Генерации шли в размере 640x384px, при дальнейшем апскейле до 1200x720px и двойном улучшайзинге через две модели Topaz Video AI."
Про память, скорость и прочее почитайте в посте у Димы.
https://t.iss.one/zhilzona/1361
А я лишь процитирую то, с чем полностью согласен:
"Да, не хватает динамики в ценах. Да, не хватает когерентности к концу видео. Да, не для всех объектов просчитывается динамика так, как бы хотелось ее видеть. Да, меняется цвет сцены под конец генерации. Да, шаг влево-шаг вправо и видео распадается. Но! Это огромный скачок по-сравнению с тем, что мы видели хотя бы 3 месяца назад. И дальше будет, я верю, я это предсказывал, только лучше."
@cgevent
Рубрика крутые подписчики.
Идеальным дополнением к моим тряпочным тестам выше будет вот такой эпохальный ролик от Димы Жилзоны ПОЛНОСТЬЮ СОБРАННЫЙ в опенсорсной Pyramide Flow.
"В качестве исходных артов генерации Midjourney без какой-либо пост-обработки и апскейла.
Генерации шли в размере 640x384px, при дальнейшем апскейле до 1200x720px и двойном улучшайзинге через две модели Topaz Video AI."
Про память, скорость и прочее почитайте в посте у Димы.
https://t.iss.one/zhilzona/1361
А я лишь процитирую то, с чем полностью согласен:
"Да, не хватает динамики в ценах. Да, не хватает когерентности к концу видео. Да, не для всех объектов просчитывается динамика так, как бы хотелось ее видеть. Да, меняется цвет сцены под конец генерации. Да, шаг влево-шаг вправо и видео распадается. Но! Это огромный скачок по-сравнению с тем, что мы видели хотя бы 3 месяца назад. И дальше будет, я верю, я это предсказывал, только лучше."
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Зачем платить инфоцыганам, когда есть нейросети? 🤔
Нейросети уже выполняют за тебя массу задач: от контента в соц сетях до реальных продаж!
Как легко и без опыта освоить ИИ — читай ЗДЕСЬ.
Автор канала — кандидат наук и владелец IT-компании, внедряющий ИИ в крупнейшие российские корпорации.
Его опыт — это твой шанс быть впереди конкурентов.
🔥 Заходи, здесь учат использовать нейросети для роста твоего бизнеса: @KiberMisha
#промо
Нейросети уже выполняют за тебя массу задач: от контента в соц сетях до реальных продаж!
Как легко и без опыта освоить ИИ — читай ЗДЕСЬ.
Автор канала — кандидат наук и владелец IT-компании, внедряющий ИИ в крупнейшие российские корпорации.
Его опыт — это твой шанс быть впереди конкурентов.
🔥 Заходи, здесь учат использовать нейросети для роста твоего бизнеса: @KiberMisha
#промо
Media is too big
VIEW IN TELEGRAM
Разведу немного вкусовщины. Ибо рубрика крутые подписчики.
Иногда пощщу работы из коментов или лички.
Засада в том, что большинство работ - это либо хорор, либо цветочки, либо тянки, либо металубок - ну типа щас мы приподнавалим в рунвей салата из флюкса и переходов.
Меня всегда подташнивало от фотореализьма, еще во времена раннего 3Д в нулевых. Где все упарывались в текстуру для кожи, чтобы свалиться в зловещую долину при первом же сдвиге кадра в анимации.
Сложно "додумывать" за фотореализьмом, все уже придумано. Воображению некуда приткнуться.
Некоторое время назад постил вот такой хак-промпт для лайнарта.
А сейчас в коментах Стейси Смит сбросил вот такую наиприятнейшую работу (для меня, с моим плебейским вкусом).
Что мне отчаянно нравится?
Очень простые образы объекты. Каждый додумывает сам.
Аскетично. Есть куда провалиться глазом и не застрять в деталях.
Архетипичные, скажем так, объекты, глаз, стрелки, шестеренки.
Ну и самое главное - это кинжально бьется со звукорядом. Точнее с текстом.
Получается чудовищно просто и символично.
Ну и нет соблазна считать пальцы и придираться "ой у птички глазик не там". Все на месте. Ибо образы и наброски.
В конце как бы развитие и выход в цвет и 3Д. Тут я задергался, но все быстро вернулось в лайнарт - как будто бы к истокам.
Хорошая такая анимационная работа. Мне понравилось.
А, и кстати, замечания от автора:
"рисовал Flux, анимировал Kling и пару переходов Luma, звук от Suno, монтаж в CapCut, а афтерэффектов у нас сроду не водилось..."
Отросло поколение, которое не знает про after effect. Наверное это хорошо. Для них же лучше.
@cgevent
Иногда пощщу работы из коментов или лички.
Засада в том, что большинство работ - это либо хорор, либо цветочки, либо тянки, либо металубок - ну типа щас мы приподнавалим в рунвей салата из флюкса и переходов.
Меня всегда подташнивало от фотореализьма, еще во времена раннего 3Д в нулевых. Где все упарывались в текстуру для кожи, чтобы свалиться в зловещую долину при первом же сдвиге кадра в анимации.
Сложно "додумывать" за фотореализьмом, все уже придумано. Воображению некуда приткнуться.
Некоторое время назад постил вот такой хак-промпт для лайнарта.
А сейчас в коментах Стейси Смит сбросил вот такую наиприятнейшую работу (для меня, с моим плебейским вкусом).
Что мне отчаянно нравится?
Очень простые образы объекты. Каждый додумывает сам.
Аскетично. Есть куда провалиться глазом и не застрять в деталях.
Архетипичные, скажем так, объекты, глаз, стрелки, шестеренки.
Ну и самое главное - это кинжально бьется со звукорядом. Точнее с текстом.
Получается чудовищно просто и символично.
Ну и нет соблазна считать пальцы и придираться "ой у птички глазик не там". Все на месте. Ибо образы и наброски.
В конце как бы развитие и выход в цвет и 3Д. Тут я задергался, но все быстро вернулось в лайнарт - как будто бы к истокам.
Хорошая такая анимационная работа. Мне понравилось.
А, и кстати, замечания от автора:
"рисовал Flux, анимировал Kling и пару переходов Luma, звук от Suno, монтаж в CapCut, а афтерэффектов у нас сроду не водилось..."
Отросло поколение, которое не знает про after effect. Наверное это хорошо. Для них же лучше.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kling "Custom Models" - это вообще-то прорыв.
Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.
Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.
Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.
Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.
Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.
В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.
@cgevent
Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.
Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.
Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.
Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.
Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.
В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В HeyGen новая фича - Photo Avatar
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
Forwarded from Нейронавт | Нейросети в творчестве
ConsiStory: Training-Free Consistent Text-to-Image Generation
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.
Выглядит нарядно, согласитесь?
https://www.polyhammer.com/
@cgevent
Выглядит нарядно, согласитесь?
https://www.polyhammer.com/
@cgevent
Media is too big
VIEW IN TELEGRAM
Мнемонад.
Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.
Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.
Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.
А я понял, что мне это все напоминает.
Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.
Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.
Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.
Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.
Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.
@cgevent
Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.
Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.
Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.
А я понял, что мне это все напоминает.
Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.
Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.
Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.
Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.
Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.
@cgevent