Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥8🎉7❤5🤬1