This media is not supported in your browser
VIEW IN TELEGRAM
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.
Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.
По классике, код и веса выложили чуть ли не раньше пейпера.
подробнее
код
веса (правда там бардак)
@derplearning
Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.
Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.
По классике, код и веса выложили чуть ли не раньше пейпера.
подробнее
код
веса (правда там бардак)
@derplearning
OminiControl
И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.
Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D
Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.
Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.
код
пейпер
модели
демо
датасет (subject)
@derplearning
И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.
Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D
Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.
Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.
код
пейпер
модели
демо
датасет (subject)
@derplearning
This media is not supported in your browser
VIEW IN TELEGRAM
AI Video Composer
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.
Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.
Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!
демо
х
@derplearning
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.
Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.
Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!
демо
х
@derplearning
Forwarded from эйай ньюз
CS492(D): Diffusion Models and Their Applications
Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.
Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.
Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI
https://mhsung.github.io/kaist-cs492d-fall-2024/
Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй
#ликбез
@ai_newz
Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.
Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.
Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI
https://mhsung.github.io/kaist-cs492d-fall-2024/
Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй
#ликбез
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Just a woman casually walking her pet raptor
Нейросети прекрасны
Нейросети прекрасны
Forwarded from AI для Всех (Kirill)
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo от Тencent
Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!
13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.
HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.
Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.
👨💻 Project page
🤗 Huggingface
💻 Git
📜 Paper
🎮 Demo
Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!
13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.
HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.
Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.
💻 Git
📜 Paper
🎮 Demo
Please open Telegram to view this post
VIEW IN TELEGRAM