Мишин Лернинг 🇺🇦🇮🇱
7.89K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👨‍🎤StyleGan3 + CLIP: Good Init Is All you Need

Представьте, что на генерацию в самом начале уход + 15 секунд, а качество поиска и создания арта CLIP’ом становится на порядок лучше: nshepperd1 добавил логичный и простой шаг перед оптимизацией.

В течение этого времени проверяться n-случайных точек (я оставил 32), и выбирается та, с которой лучше (ближайшая в пространстве CLIP) начать оптимизацию под конкретный текстовый запрос.

Подобрал еще более оптимальные cut_size, cutn, параметры оптимизации и подкрутил, добавленные мной differentiable augmentations для еще более точной, стабильной и плавной генерации.

p.s.: если у кого-то упадет по памяти из маленькой gpu, то поменяйте:
- MakeCutouts(224, 80, 0.1) # 80 -> 40
- G.mapping(torch.randn([
8, G.mapping.z_dim] # 8 -> 4

🔮 colab по той же ссылке
This media is not supported in your browser
VIEW IN TELEGRAM
😈 (Не)Распознавание Лиц и Технопессимизм Постсоветского Пространства

Увидел у Дениса в посте этот феномен. И не смог не написать.

Пользователь охарактеризовал дверные замки с системами распознаваний лиц, обладающих низким recall’ом, недвусмысленным словосочетанием: “зае*а грешная

p.s. ролик изобилует грубыми выражениями и, в силу своего содержания, вообще не предназначен для просмотра.

Киберпанк, который мы заслужили
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
DeepMind выкупил популярный в научной среде физический симулятор MuJoCo и сделал его бесплатным. Все для развития исследований в области робототехники и RL. Это действительно достойный шаг!

Происходя в микроскопических масштабах на границе раздела двух тел, физические контакты могут быть мягкими или жесткими, упругими или губчатыми, скользкими или липкими. MuJoCo в этом плане довольно потрясающая штука, которая позволяет хорошо симулировать различные виды контактов. И часто работает гораздо быстрее чем real-time.

А в 2022 году ресерчеры из DeepMind опубликуют код симулятора на GitHub!

Подробности: dpmd.ai/mujoco-blog.
📣 Лекция CLIP for Zero-Shot Object Detection & Segmentation | Yurii Pashchenko, Sr ML Engineer at Depositphotos

Must Have лекция для всех, кто занимается Computer Vision! Да здравствует новая эпоха в Object Detection & Segmentation

📅 Сегодня (20.10) в 19-30 на YouTube
👉 https://youtu.be/q90FH1tEHdQ
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
👾 arXiv DOOM: Reject ‘Em ALL

Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!

Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!

Вам позволено бороться с сотней самых последних статей в категории cs. CV!

Главное зареджектить новый пейпер Яна ЛеКуна!

👹 arXiv DOOM Играй прямо в браузере!
Forwarded from Denis Sexy IT 🤖
Помните я как-то писал про нейронку из Китая CogView, которая генерирует любой текст в картинки, и делает это на довольно крутом уровне?

Так вот, с того момента чуваки передали интерфейс и ей наконец-то стало возможно нормально пользоваться:
1) Переходите по ссылке
2) Нажимаете "English Display" 🌚
3) Вводите ваш запрос в "Image Description"
4) Нажимаете кнопку с иероглифом перевода и стрелочку вправо
5) Та-да, вы прекрасны

Я поигрался немного, вот вам коллекция котиков за офисными задачами.

P.S. Если лень придумывать запросы на английском, то вот классный переводчик с русского на английский.
This media is not supported in your browser
VIEW IN TELEGRAM
MixNMatch: Декомпозиция Стиля

Хороший GAN и лоссы интересные.

📰 папир 💻 имплементация
MixNMatch: Декомпозиция Стиля, Позы, Формы и «культурного» Бэкграунда

Изображения x пропускают через 4 энкодера:
▪️Ez(x) - кодирует латентщину
▪️Eb(x) - задник (бекнраунд)
▪️Ep(x) - позу
▪️Ec(x) - стиль, текстуру

Затем взад-назад. Из z, b, p, c генерят картинки:
▪️сначала из b, z - задник
▪️потом на него наносят маску позы из z, p
▪️а потом стильно полируют текстурой из z, c
на все три стейджа - 3 лосса

При этом ещё 4 адверсариал лосса учат истинность и ложность пар изображения и их кодировок.

📰 папир 💻 имплементация