Derp Learning

Forwarded from Dev Meme

4.8K views14:23

Derp Learning

This media is not supported in your browser

VIEW IN TELEGRAM

https://x.com/fofrAI/status/1860108591002452479

11.5K views12:30

Derp Learning

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.

Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.

По классике, код и веса выложили чуть ли не раньше пейпера.

подробнее
код
веса (правда там бардак)

@derplearning

3.9K viewsedited 10:20

Derp Learning

Forwarded from Love. Death. Transformers.

3.7K views21:06

Derp Learning

OminiControl

И снова китайцы отжигают.
Запилили универсальный фреймворк для контролируемой генерации с помощью DiT.

Подходит как для внедрения объекта, так и в качестве привычных контролнетов. Но главное - весят эти модели ~0.1% от базовой, поскольку опорную картинку энкодят самой же базовой моделью. Те, что выложили для FLUX schnell весят 30-50мб :D

Если флакс влезает в ваш гпу, на сдачу можно взять пучок ominicontrolnetов и ни в чем себе не отказывать.

Прикрутил бы кто всю эту красоту к CogVideoX, а то сил нет уже грузить эти полуторагиговые контролнеты.

код
пейпер
модели
демо
датасет (subject)

@derplearning

4.3K viewsedited 20:59

Derp Learning

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

AI Video Composer
Лицехваты 🤗 упоролись и сделали управляемый текстом видеоредактор.

Так как под капотом большинства видео-тулзов все равно лежит ffmpeg в том или ином виде, слоняры решили не заморачиваться, и прикрутили к нему qwen2.5-coder. Теперь можно делать уйму вещей с видео, аудио, картинками, для которых раньше надо было лезть либо в видеоредактор, либо на стаковерфлоу.

Прикрутить виспер и будет голосовой фотошоп из bladerunner.
Ваистену, text2video который мы заслужили!

демо
х

@derplearning

11.1K viewsedited 22:49

Derp Learning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

4.3K views06:20

Derp Learning

Forwarded from Love. Death. Transformers.

3.9K views16:42

Derp Learning

4.8K views08:35

Derp Learning

Forwarded from эйай ньюз

CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй

#ликбез

@ai_newz

3.7K views18:11

Derp Learning

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Just a woman casually walking her pet raptor
Нейросети прекрасны

3.9K views14:37

Derp Learning

Forwarded from AI для Всех (Kirill)

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

HunyuanVideo от Тencent

Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!

13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.

HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.

Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.

👨‍💻

Project page

🤗

Huggingface

💻 Git

📜 Paper

🎮 Demo

Please open Telegram to view this post

VIEW IN TELEGRAM

4.2K views08:04

Derp Learning

Первый день анонсов от OpenAI был просто, гхм, потрясающим!

День первый: цунами
День второй: саранча?

4.4K viewsedited 04:36

Derp Learning

Минутка классики