227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Paints-Undo - генерация пошагового видео процесса рисования по исходному изображению.

Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников.

Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения.
Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования.

Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM.
На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже.

Проект состоит из 2 моделей :
Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.)

Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами.

Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.


Локальный запуск:
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py


🟡 Страница c демо
🖥 Github [ Stars: 499 | Issues: 7 | Forks: 29 ]

@ai_machinelearning_big_data

#Image2Video #Image2Sketch #Diffusers #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3112🔥7😢5🥰2😁1🤔1
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.


📌Лицензирование: MIT License.


🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥8🎉75🤬1