Немного новых Hedra и Suno.
Suno V4 прям радует. Вокал хорошо почистили. Звучит достаточно изолированно.
А вот Хедра меня не радует. Они бросились обвешивать продукт аудио и голосовыми фичами, а вот главная фича - генерить говорящее лицо остается примерно на уровне бета-версии.
Нет, они, конечно, добавили фичу типа "теперь можно генерить аж 12 минут", но для говорящих лиц особого понимания мира не требуется, они же не бургеры кусают, поэтому это несложно.
А картинка до сих пор мыльная, я каждый раз гоню в facefusion для резкости.
При этом диапазон крупности лица - тоже очень чувствительный.
Ну и я, конечно, дал не текст, а песню из Суно, и это конечно, провал.
Как дикторов наверное еще можно рассматривать.
Как певцов - вряд ли.
В общем, послушайте новое Суно...
P/S/ Послушал себя и понял, что зажрался. На входе просто аудиотрек, на выходе и мимика, и артикуляция и движения головой. Ну да, не попадают в мышечные усилия вокалиста. Но елы палы - это работает!
@cgevent
Suno V4 прям радует. Вокал хорошо почистили. Звучит достаточно изолированно.
А вот Хедра меня не радует. Они бросились обвешивать продукт аудио и голосовыми фичами, а вот главная фича - генерить говорящее лицо остается примерно на уровне бета-версии.
Нет, они, конечно, добавили фичу типа "теперь можно генерить аж 12 минут", но для говорящих лиц особого понимания мира не требуется, они же не бургеры кусают, поэтому это несложно.
А картинка до сих пор мыльная, я каждый раз гоню в facefusion для резкости.
При этом диапазон крупности лица - тоже очень чувствительный.
Ну и я, конечно, дал не текст, а песню из Суно, и это конечно, провал.
Как дикторов наверное еще можно рассматривать.
Как певцов - вряд ли.
В общем, послушайте новое Суно...
P/S/ Послушал себя и понял, что зажрался. На входе просто аудиотрек, на выходе и мимика, и артикуляция и движения головой. Ну да, не попадают в мышечные усилия вокалиста. Но елы палы - это работает!
@cgevent
А вот еще одна примерочная, только не в виде китайских работ, демо на хф или репозитариев на гитхабе со смешными картинками.
А в виде готового допиленного продукта.
На Superlook.ai можно без обучения одевать кого угодно во что угодно (сохраняя крой, материал, цвет, рисунок и фактуру) по одной фотографии. Есть Fitting Room, и он реально работает. Попробовал не на фотографиях, а на картинах, тоже нормально работает. Процесс выглядит так: загружаете фото одеваемого и фото шмота, правите маску (если дефолтная не нравится, крутая фича) и жмакаете Generate.
API для примерочной (для онлайн-стора), как я понял, есть, но под запрос.
@cgevent
А в виде готового допиленного продукта.
На Superlook.ai можно без обучения одевать кого угодно во что угодно (сохраняя крой, материал, цвет, рисунок и фактуру) по одной фотографии. Есть Fitting Room, и он реально работает. Попробовал не на фотографиях, а на картинах, тоже нормально работает. Процесс выглядит так: загружаете фото одеваемого и фото шмота, правите маску (если дефолтная не нравится, крутая фича) и жмакаете Generate.
API для примерочной (для онлайн-стора), как я понял, есть, но под запрос.
@cgevent
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Уточнение к предыдущему посту, не 19, а 20 секунд. И это относится к режиму video2video.
Заодно поглядите, как можно использовать https://www.skyglass.com/ для персонажа и фона, а затем навалить gen-3 video2video сверху. Голос, кастати, от elevenlabs.
Как-то я запереживал за игры и авторское кино.
@cgevent
Заодно поглядите, как можно использовать https://www.skyglass.com/ для персонажа и фона, а затем навалить gen-3 video2video сверху. Голос, кастати, от elevenlabs.
Как-то я запереживал за игры и авторское кино.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Создаем генеративные 3Д-миры.
А теперь смотрите, какой неожиданный выход можно сделать из этих новых 20-секундных video2video on Runway. Помните я тут писал, что теперь можно каждому дать свой метаверсик, просто пропустив все, что он видит в умных очках через нейрорендер типа vieo2video.
Так вот, можно этот метаверсик еще и восстановить в 3Д.
Что здесь происходит?
Берется болванка головы в Блендоре и делается облет камерой на 20 секунд.
Этот черновой рендер-облет кормится в video2video от Runway
Получается Девушка на стиле.
Дальше 20 сек растягиваются на 40 сек (в данном случает с помощью RunwayML's super slow-motion interpolation)
И это просто идёт на вход в Polycam to generate the 3D model.
Нейрофотограмметрия, кусающая свой хвост.
Надо сказать, что изначально LumaLabs занималась примерно тем же, перед тем как заскочить в поезд видеогенераторов.
Ну и я когда смотрю на все эти видеогенерации, то постоянно думаю, как как оттуда достать все эти их неявные трехмерные представления?
А вот так примерно...
@cgevent
А теперь смотрите, какой неожиданный выход можно сделать из этих новых 20-секундных video2video on Runway. Помните я тут писал, что теперь можно каждому дать свой метаверсик, просто пропустив все, что он видит в умных очках через нейрорендер типа vieo2video.
Так вот, можно этот метаверсик еще и восстановить в 3Д.
Что здесь происходит?
Берется болванка головы в Блендоре и делается облет камерой на 20 секунд.
Этот черновой рендер-облет кормится в video2video от Runway
Получается Девушка на стиле.
Дальше 20 сек растягиваются на 40 сек (в данном случает с помощью RunwayML's super slow-motion interpolation)
И это просто идёт на вход в Polycam to generate the 3D model.
Нейрофотограмметрия, кусающая свой хвост.
Надо сказать, что изначально LumaLabs занималась примерно тем же, перед тем как заскочить в поезд видеогенераторов.
Ну и я когда смотрю на все эти видеогенерации, то постоянно думаю, как как оттуда достать все эти их неявные трехмерные представления?
А вот так примерно...
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Так, потерпите, меня пробило на грибы и Runway.
Я щас доберусь до видеогенератров, но вот вам еще один очень классный пример, похожий на предыдущий о том, как вытаскивать 3Д мир из любой картинки, уже не имея никакой болванки в блендоре.
Берете в Runway Image2Video.
Просто используете новые управлялки из Runway, чтобы сделать видео облетов "внутри" картинки.
Используете эти видео чтобы собрать трехмерную сцену из Гауссианов в Unity Gaussian BOX Splatting.
А дальше вы уже в 3Д и просто светите сцену с помощью Custom URP Lit 6 ways Shader.
Еще раз - на входе картинка (хоть Флюкс, хоть древний Мидж) - на выходе вы бродите в Юнити по этой картинке внутри!
Шел 2024 год. Люди массово переселялись в картинки.
Сорс.
@cgevent
Я щас доберусь до видеогенератров, но вот вам еще один очень классный пример, похожий на предыдущий о том, как вытаскивать 3Д мир из любой картинки, уже не имея никакой болванки в блендоре.
Берете в Runway Image2Video.
Просто используете новые управлялки из Runway, чтобы сделать видео облетов "внутри" картинки.
Используете эти видео чтобы собрать трехмерную сцену из Гауссианов в Unity Gaussian BOX Splatting.
А дальше вы уже в 3Д и просто светите сцену с помощью Custom URP Lit 6 ways Shader.
Еще раз - на входе картинка (хоть Флюкс, хоть древний Мидж) - на выходе вы бродите в Юнити по этой картинке внутри!
Шел 2024 год. Люди массово переселялись в картинки.
Сорс.
@cgevent
Наведём немного порядка с CogVideoX V1.5
Основная путаница тут, в том что сначала вышла версия на библиотеках SAT, а код на основе Diffusers был выпущен только в пятницу. И то, слегка косой, надо было ставить его из другой ветки. Именно он, позволяет упихивать модель в память и сделать, наконец, поддержку для ComfyUI, которой официально ПОКА НЕТ, на момент написания этого поста, есть только тестовый бранч.
Я погонял код на основе Diffusers (из командной строки, вам надо скачать веса в safetensors отсюда https://huggingface.co/THUDM/CogVideoX1.5-5B и не забыть про -I2V).
Действительно, если оставить по умолчанию как у них в примерах:
#pipe.to("cuda")
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
То генерация действительно упихивается в 8.6 гигабайт VRAM, но идет БЕСКОНЕЧНО долго. Мне нужны доп тесты, но пока это 80 минут на A100.
Если выключить офлоад, слайсинг и тайлинг, и отправить на куду, то система оживает и отжирает свои 37 гиг и бодро справляется за 14 минут.
Kijai вот-вот доделает официальный https://github.com/kijai/ComfyUI-CogVideoXWrapper
Ждите Update 8 (не 7) и тогда можно будет пробовать в Комфи.
Вот вам пока видосов на основе этих тестов.
@cgevent
Основная путаница тут, в том что сначала вышла версия на библиотеках SAT, а код на основе Diffusers был выпущен только в пятницу. И то, слегка косой, надо было ставить его из другой ветки. Именно он, позволяет упихивать модель в память и сделать, наконец, поддержку для ComfyUI, которой официально ПОКА НЕТ, на момент написания этого поста, есть только тестовый бранч.
Я погонял код на основе Diffusers (из командной строки, вам надо скачать веса в safetensors отсюда https://huggingface.co/THUDM/CogVideoX1.5-5B и не забыть про -I2V).
Действительно, если оставить по умолчанию как у них в примерах:
#pipe.to("cuda")
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
То генерация действительно упихивается в 8.6 гигабайт VRAM, но идет БЕСКОНЕЧНО долго. Мне нужны доп тесты, но пока это 80 минут на A100.
Если выключить офлоад, слайсинг и тайлинг, и отправить на куду, то система оживает и отжирает свои 37 гиг и бодро справляется за 14 минут.
Kijai вот-вот доделает официальный https://github.com/kijai/ComfyUI-CogVideoXWrapper
Ждите Update 8 (не 7) и тогда можно будет пробовать в Комфи.
Вот вам пока видосов на основе этих тестов.
@cgevent
Русскоязычный умелец научился создавать 🔞 моделей через нейросети и зарабатывать на них. Об этом он рассказывает в своем авторском Телеграм-блоге >>
Так же он дает бесплатно инструкцию, как начать.
Переходите 👉https://t.iss.one/+-TH3MQKurcs1YWQx
#промо
Так же он дает бесплатно инструкцию, как начать.
Переходите 👉https://t.iss.one/+-TH3MQKurcs1YWQx
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
Кидаешь в chatGPT просто кусок кода из репозитария CogVideo:
И говоришь: "братиш, сделай вебморду на Gradio, чтобы все это ручками рулить"
- Апажалста.
С первой попытки. Без ошибок.
Куда катится мир?
@cgevent
def generate_video_interface(
prompt: str,
model_path: str = "THUDM/CogVideoX1.5-5B",
lora_path: str = None,
lora_rank: int = 128,
num_frames: int = 81,
width: int = 1360,
height: int = 768,
image_or_video_path: str = "",
num_inference_steps: int = 50,
guidance_scale: float = 6.0,
num_videos_per_prompt: int = 1,
dtype: str = "bfloat16",
generate_type: str = "t2v",
seed: int = 42,
fps: int = 16,
output_path: str = "./output.mp4",
):
И говоришь: "братиш, сделай вебморду на Gradio, чтобы все это ручками рулить"
- Апажалста.
С первой попытки. Без ошибок.
Куда катится мир?
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
BlockadeLabs, о которых я много писал осваивают новые территории.
На мой вкус, они пытаются зайти на поляну, где уже царствует Krea.ai с одной стороны, и Адобченко с его инструментами с другой стороны.
Я пытаюсь нащупать ценность их нового продукта, подскажите мне.
https://www.blendbox.ai/
@cgevent
На мой вкус, они пытаются зайти на поляну, где уже царствует Krea.ai с одной стороны, и Адобченко с его инструментами с другой стороны.
Я пытаюсь нащупать ценность их нового продукта, подскажите мне.
https://www.blendbox.ai/
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Magic Quill: A Free AI Image Editor
Еще одна попытка нащупать нишу в редактировании нейрокартинок.
Управляемость - это бич всех генераторов. Инпайнтинг - в чистом виде сложен для нового нормального.
Значит надо его упростить до уровня обычного приложения.
Чем и занимается Magic Quill
И это редкий случай, когда есть и код, и демо, и весь фарш.
Хорошая работа.
https://magicquill.art/demo/
@cgevent
Еще одна попытка нащупать нишу в редактировании нейрокартинок.
Управляемость - это бич всех генераторов. Инпайнтинг - в чистом виде сложен для нового нормального.
Значит надо его упростить до уровня обычного приложения.
Чем и занимается Magic Quill
И это редкий случай, когда есть и код, и демо, и весь фарш.
Хорошая работа.
https://magicquill.art/demo/
@cgevent
К вопросу о понимании мира видеогенераторами.
Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.
Это очень круто.
Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.
Сорс
@cgevent
Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.
Это очень круто.
Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.
Сорс
@cgevent