Derp Learning
12.3K subscribers
2.84K photos
710 videos
9 files
1.19K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Forwarded from Dev Meme
This media is not supported in your browser
VIEW IN TELEGRAM
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.

Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.

По классике, код и веса выложили чуть ли не раньше пейпера.

подробнее
код
веса (правда там бардак)

@derplearning
OminiControl

И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.

Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D

Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.

Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.

код
пейпер
модели
демо
датасет (subject)

@derplearning
This media is not supported in your browser
VIEW IN TELEGRAM
AI Video Composer
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.

Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.

Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!

демо
х

@derplearning
Forwarded from эйай ньюз
CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй

#ликбез

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Just a woman casually walking her pet raptor
Нейросети прекрасны
Forwarded from AI для Всех (Kirill)
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo от Тencent

Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!

13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.

HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.

Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.

👨‍💻 Project page

🤗 Huggingface

💻 Git

📜 Paper

🎮 Demo
Please open Telegram to view this post
VIEW IN TELEGRAM
Первый день анонсов от OpenAI был просто, гхм, потрясающим!

День первый: цунами
День второй: саранча?
Минутка классики
Ещё немного про динамичаскую типизацию
Свежая фотка с James Webb.
То что с восьмиконечным бликом - звезды млечного пути, все остальное - галактики.
Извините, не могу удержаться.
Forwarded from Dev Meme