Мишин Лернинг 🇺🇦🇮🇱

🍳 Text-Guided Image Inpainting или фотошоп, который мы заслужили!

DALL-E 2 и GLIDE могут не только делать Inpainting (заполнять , изменять и дорисовывать внутри выбранных юзером масок), но и заполнять это содержимое на основе текста от юзера. Что делает фотошоп будущего просто сказкой.

1) Маска левого человека (полученная от mask-rcnn)
2) Текст "фотография мужчины на кухне" помещает Джонни в новый контекст (с корабля на бал, так сказать)

🔥35👎5👍1

22K viewsedited 12:38

Forwarded from Denis Sexy IT 🤖

0:39

Очередное путешествие в зазеркалье с помощью нейронки Instant Nerf. Автор.

Напомню, что работает как-то так: скармливаете ей 50 фотографий, ждете пол дня (instant 🌚) и потом можете «летать» внутри этого пространства которое воссоздала нейронка.

Прошлое путешествие в зазеркалье – тут

❤18👍2

2.62K views18:20

🛎 Все, что вы хотели знать о Диффузии, но боялись спросить

Пост, который сэкономил бы мне уйму времени при глубоком погружении в диффузию.

Скоро расскажу подробнее куда меня занесло ❤️

📄 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 2015
С чего начался диффуз

📄 Denoising Diffusion Probabilistic Models 2020
Основная статья по DDPM. Создается актуальный фреймворк диффузии

📄 Denoising Diffusion Implicit Models 2020
DDIM — немарковский процесс в 10-50 раз быстрее DDPM

📄 Improved Denoising Diffusion Probabilistic Models 2021
Важнейший папир: фишки с параметрами, матрицами ковариации, расписаниями

📄 Diffusion Models Beat GANs on Image Synthesis 2021
Диффузия бьет SOTA и хоронит Ганы

📄 Classifier-Free Diffusion Guidance 2021
Фундаментальный концепт по семплировнию

📄 GLIDE, DALL•E 2, IMAGEN — Text2Image текущего поколения, прощай DALL•E 1

📚 Крутейший блог пост
💻 Коллекция кода и статей
📼 Видео Яныка и AI кофепаузы

p.s. картинку для поста заказал у диффузионного DALL•E 2
@мишин лернинг

🔥28👍10❤5

6.08K viewsedited 23:22

🚇 Сгенерировал нейросетью кадры из Metro 2033, объявленного в розыск писателя и оппозиционера Дмитрия Глуховского

🔥52❤7👍5

4.45K viewsedited 11:57

открываем комментарии?

Final Results

🔥15👎4👍2❤1

808 voters3.56K views12:29

🤖🎓 Добро пожаловать в Мишин Лернинг Клуб!

Давно хотел создать группу, где мы сможем общаться, обсуждать новости, пейперы, идеи, делиться материалами, помогать друг другу, отвечая на вопросы, делясь опытом.

Так что жду вас всех в клубе энтузиастов машинного обучения! Кроме того, клуб будет чатом канала Мишин Лернинг, где мы будем обсуждать новости.

🎓👉 В Мишин Лернинг Клуб

👍16❤7👎1🔥1

4.93K viewsedited 18:27

Forwarded from эйай ньюз

0:10

0:10

🔥Nvidia жжет напалмом! На этот раз выпустили модель для генерации динамических видео

Ганы и диффузионные модели уже хорошо научились генерировать статический контент (например, та же DALLE-2 или Imagen). Нам пора двигаться дальше. Новая модель от Nvidia основана на архитектуре StyleGAN (а как же), но с временной компонентой. Она генерирует видео, неплохо воспроизводящие движение объекта, изменения точки обзора камеры и новый контент, возникающий с течением времени.

Авторы грамотно подобрали тип видосов, на которых все работает. Из критики, я бы заметил низкое разрешение 128x128 и более сильные прыжки между контентом в точке схода перспективы.

Cо слов авторов: "Базовый метод StyleGAN-V повторяет одно и то же содержимое. А наша модель способна создавать новые декорации и объекты, которые появляются на сцене с течением времени, сохраняя при этом долгосрочную временную согласованность."

❱ Код будет в конце лета
❱❱ Сайт проекта

@ai_newz

👍18🔥7

2.31K views19:54

😅 Суровый мем от https://t.iss.one/gradientdip

🔥36👍4

3.39K views20:38

0:09

🗽 NVIDIA Создала 3D StyleGAN — EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

EG3D — настоящее инженерное чудо. Ресерчеры взяли за основу StyleGAN 2 бэкбон, и вставили в середину графа гибридный neural rendering.

Nvidia создала новый tri-plane-based 3D GAN framework. Ресерчеры показали, что NeRF в их случае медленный, а воксели не очень масштабируются по памяти с повышением разрешения.

После нейронного рендеринга в 128х128 следует каскад супер-резолюшена в 512х512. Затем low-res ещё раз апскейлится интерполяцией и после конкатенации с mid-res картинкой, единым тензором подается на двойной дискриминатор.

StyleGAN’ы интересны тем, что способны за относительно небольшой компьют (тут 8 Tesla V100 GPUs и 8.5 дней) построить реалистичную генеративную модель в одном домене.

EG3D позволяет сразу генерировать качественную 3D геометрию, которую сеть выучивает самостоятельно!

Как же чудесно будущее 3D графики!

💻 Code
🖥 Project
📄 Paper
🎥 YouTube

@мишин_лернинг

❤20👍10🔥5

13.7K viewsedited 02:43

🤔 С серьезным лицом посмотреть результаты

🏞 Какие нейросети лучше решают задачи компьютерного зрения? (Вариант «зависит от задачи» упускаю намеренно)

Anonymous Poll

👍6🔥4😢1

1.01K voters3.08K views08:24

Да, по сути это просто сверточная сеть в которой есть блоки внимания.

👾 Используются ли в архитектуре ViT: Vision Transformer свертки?

Anonymous Poll

16%

21%

Нет. Как раз смысл был в том, чтобы показать, что можно сделать чистый трансформер. Там нет сверток

14%

Даже не знаю как ответить. Концептуально нет, а по факту реализации есть. Но это совсем другое…

49%

🤔 С серьезным лицом посмотреть результаты.

🔥6👍2😢1

708 voters3.09K views08:57

Forwarded from Derp Learning

0:08

Собрался с силами и выкатил в ранний доступ все багфиксы и наработки на основе вашего фидбека по #warpfusion turbo+smooth. Забрать тут - Бусти.
Еще раз спасибо за поддержку и фидбек, вы супер :3

Если вам больше всего нравится первый видос слева, то вам подойдет и текущий публично-стабильный
колаб DiscoDiffusion Warp

❤31👍5

2.82K views09:41