This media is not supported in your browser
VIEW IN TELEGRAM
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
git clone https://github.com/Adamdad/vico.git
pip install diffusers==0.26.3
git lfs install
git clone https://huggingface.co/adamdad/videocrafterv2_diffusers
export PYTHONPATH="$PWD"
python videocrafterv2_vico.py \
--prompts XXX \
--unet_path $PATH_TO_VIDEOCRAFTERV2 \
--attribution_mode "latent_attention_flow_st_soft"
@ai_machinelearning_big_data
#T2V #Framework #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤6🔥3
CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh
;train_image_to_video_lora.sh
;train_text_to_video_sft.sh
.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9❤5