This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Пока Wan 2.2 печётся в релиз небольшой апдейт по Wan FusionX.
Обновилась лора для генерации видео по картинке. Улучшилось следование промту и повысилась динамика в кадре.
Также появилась шустрая LightX лора для генерации видео по тексту или картинке в 4 шага: 1024x756x16 fps длиной в 81 кадр генерится 70 секунд. Обычная FusionX генерит по тем же параметрам ~5 минут. Последние 5 видео это примеры LightX.
CivitAI (модели и воркфлоу)
Про Wan FusionX
Обновилась лора для генерации видео по картинке. Улучшилось следование промту и повысилась динамика в кадре.
Также появилась шустрая LightX лора для генерации видео по тексту или картинке в 4 шага: 1024x756x16 fps длиной в 81 кадр генерится 70 секунд. Обычная FusionX генерит по тем же параметрам ~5 минут. Последние 5 видео это примеры LightX.
CivitAI (модели и воркфлоу)
Про Wan FusionX
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Генератор видео Wan 2.2 вышел в тираж.
Под капотом используется MoE (mixture of experts) архитектура, которая задействует некоторое количество моделей, каждая из которых является экспертом в своей области. До этого такой подход встречался в языковых моделях.
В случае с Wan экспертных модели две: высокошумные (high-noise) эксперты генерируют общую картину, а низкошумные (low-noise) эксперты обрабатывают детали. Чтобы не грузить обе модели в память, генерация идёт в два прохода: сначала одной моделью, потом другой. Поэтому не пугайтесь если у вас после одной из генераций ничего не отобразилось.
Что нового:
* Повысилось качество и детальность изображения
* Более естественные движения объектов в кадре
* Понимание киношных движений камеры, композиции, освещения, и цветокора
* Улучшилось следование промту и обработка множества объектов в сцене
* Тренировочный датасет с видео увеличился на 83%, а с картинками на 65%
Как обычно, версия на сайте Wan будет качественно отличаться от опенсорсной. Её можно пощупать на сайте на халяву в relax mode, за кредиты, или по API вызовам в Comfy.
Кстати Wan запустили творческий конкурс Wan Muse с денежными призами. Тоже варик пощупать модель вплотную.
В опенсорс ушли две модели: 5B и 14B.
Модель 5B идёт одним файлом, генерит и по тексту и по картинкам, и благодаря эффективному сжатию данных может влезть в 8 ГБ VRAM, хотя способна на 720p в 24 fps вмещаясь в 24 ГБ VRAM.
Модель 14B идёт отдельно в t2i версии со своей high-noise и low-noise экспертными моделями, и отдельно в i2i версии с такими же экспертными моделями. Тут уже в 24 ГБ VRAM можно поместиться только с ощутимой выгрузкой в RAM, или генеря на малых разрешениях.
Я начал тестить на 4090 + 128 ГБ VRAM, но пока результаты очень сильно прыгают. Наберу больше данных для ревью — обращу их в пост. В целом оно хочет весь VRAM, RAM и прочий SRAM, который можно было бы ей скормить.
Comfy уже организовали поддержку нового Wan, на гитхабе обновили билд, и выложили на хаггинг разные версии моделей.
Kijai активно обновляет на гитхабе ноды и уже наваял fp8 веса для 14B.
Будем наблюдать за оптимизациями, модификациями сообщества, и лорами. Интересно будет натренировать эту модель на своих фото, как я уже делал с предыдущим Wan.
Демо 5B (Хаггинг)
Сайт
Анонс
Comfy
Хаггинг (Wan)
Хаггинг (Comfy)
Хаггинг (Kijai)
Гитхаб (Wan)
Гитхаб (Kijai)
WanGP (гитхаб)
WanGP (Pinokio)
Под капотом используется MoE (mixture of experts) архитектура, которая задействует некоторое количество моделей, каждая из которых является экспертом в своей области. До этого такой подход встречался в языковых моделях.
В случае с Wan экспертных модели две: высокошумные (high-noise) эксперты генерируют общую картину, а низкошумные (low-noise) эксперты обрабатывают детали. Чтобы не грузить обе модели в память, генерация идёт в два прохода: сначала одной моделью, потом другой. Поэтому не пугайтесь если у вас после одной из генераций ничего не отобразилось.
Что нового:
* Повысилось качество и детальность изображения
* Более естественные движения объектов в кадре
* Понимание киношных движений камеры, композиции, освещения, и цветокора
* Улучшилось следование промту и обработка множества объектов в сцене
* Тренировочный датасет с видео увеличился на 83%, а с картинками на 65%
Как обычно, версия на сайте Wan будет качественно отличаться от опенсорсной. Её можно пощупать на сайте на халяву в relax mode, за кредиты, или по API вызовам в Comfy.
Кстати Wan запустили творческий конкурс Wan Muse с денежными призами. Тоже варик пощупать модель вплотную.
В опенсорс ушли две модели: 5B и 14B.
Модель 5B идёт одним файлом, генерит и по тексту и по картинкам, и благодаря эффективному сжатию данных может влезть в 8 ГБ VRAM, хотя способна на 720p в 24 fps вмещаясь в 24 ГБ VRAM.
Модель 14B идёт отдельно в t2i версии со своей high-noise и low-noise экспертными моделями, и отдельно в i2i версии с такими же экспертными моделями. Тут уже в 24 ГБ VRAM можно поместиться только с ощутимой выгрузкой в RAM, или генеря на малых разрешениях.
Я начал тестить на 4090 + 128 ГБ VRAM, но пока результаты очень сильно прыгают. Наберу больше данных для ревью — обращу их в пост. В целом оно хочет весь VRAM, RAM и прочий SRAM, который можно было бы ей скормить.
Comfy уже организовали поддержку нового Wan, на гитхабе обновили билд, и выложили на хаггинг разные версии моделей.
Kijai активно обновляет на гитхабе ноды и уже наваял fp8 веса для 14B.
Будем наблюдать за оптимизациями, модификациями сообщества, и лорами. Интересно будет натренировать эту модель на своих фото, как я уже делал с предыдущим Wan.
Демо 5B (Хаггинг)
Сайт
Анонс
Comfy
Хаггинг (Wan)
Хаггинг (Comfy)
Хаггинг (Kijai)
Гитхаб (Wan)
Гитхаб (Kijai)
WanGP (гитхаб)
WanGP (Pinokio)
This media is not supported in your browser
VIEW IN TELEGRAM
Comfy подвезли оптимизации для Wan 2.2
* Потребление VRAV снизилось на 10% во время декода VAE
* 5B модель теперь не забивает всю память с ООМ ошибкой
* Обновились шаблоны
Помимо обновления самого портативного/десктопного приложения используйте новые шаблоны в меню комфи или вот 14B T2V плюс 14B I2V.
Анонс
Гитхаб
* Потребление VRAV снизилось на 10% во время декода VAE
* 5B модель теперь не забивает всю память с ООМ ошибкой
* Обновились шаблоны
Помимо обновления самого портативного/десктопного приложения используйте новые шаблоны в меню комфи или вот 14B T2V плюс 14B I2V.
Анонс
Гитхаб