This media is not supported in your browser
VIEW IN TELEGRAM
👨🎤StyleGan3 + CLIP: Good Init Is All you Need
Представьте, что на генерацию в самом начале уход + 15 секунд, а качество поиска и создания арта CLIP’ом становится на порядок лучше: nshepperd1 добавил логичный и простой шаг перед оптимизацией.
В течение этого времени проверяться n-случайных точек (я оставил 32), и выбирается та, с которой лучше (ближайшая в пространстве CLIP) начать оптимизацию под конкретный текстовый запрос.
Подобрал еще более оптимальные cut_size, cutn, параметры оптимизации и подкрутил, добавленные мной differentiable augmentations для еще более точной, стабильной и плавной генерации.
p.s.: если у кого-то упадет по памяти из маленькой gpu, то поменяйте:
- MakeCutouts(224, 80, 0.1) # 80 -> 40
- G.mapping(torch.randn([8, G.mapping.z_dim] # 8 -> 4
🔮 colab по той же ссылке
Представьте, что на генерацию в самом начале уход + 15 секунд, а качество поиска и создания арта CLIP’ом становится на порядок лучше: nshepperd1 добавил логичный и простой шаг перед оптимизацией.
В течение этого времени проверяться n-случайных точек (я оставил 32), и выбирается та, с которой лучше (ближайшая в пространстве CLIP) начать оптимизацию под конкретный текстовый запрос.
Подобрал еще более оптимальные cut_size, cutn, параметры оптимизации и подкрутил, добавленные мной differentiable augmentations для еще более точной, стабильной и плавной генерации.
p.s.: если у кого-то упадет по памяти из маленькой gpu, то поменяйте:
- MakeCutouts(224, 80, 0.1) # 80 -> 40
- G.mapping(torch.randn([8, G.mapping.z_dim] # 8 -> 4
🔮 colab по той же ссылке
This media is not supported in your browser
VIEW IN TELEGRAM
😈 (Не)Распознавание Лиц и Технопессимизм Постсоветского Пространства
Увидел у Дениса в посте этот феномен. И не смог не написать.
Пользователь охарактеризовал дверные замки с системами распознаваний лиц, обладающих низким recall’ом, недвусмысленным словосочетанием: “зае*а грешная”
p.s. ролик изобилует грубыми выражениями и, в силу своего содержания, вообще не предназначен для просмотра.
Киберпанк, который мы заслужили
Увидел у Дениса в посте этот феномен. И не смог не написать.
Пользователь охарактеризовал дверные замки с системами распознаваний лиц, обладающих низким recall’ом, недвусмысленным словосочетанием: “зае*а грешная”
p.s. ролик изобилует грубыми выражениями и, в силу своего содержания, вообще не предназначен для просмотра.
Киберпанк, который мы заслужили
Forwarded from Технологии | Нейросети | Боты
😎 А теперь перейдем к действительно важным новостям
TJ
В Японии задержали мужчину, который «разблюривал» порнофильмы с помощью нейросети — Технологии на TJ
43-летний мужчина обходил цензуру местных роликов и продавал их, заработав за год почти 100 тысяч долларов.
Forwarded from Denis Sexy IT 🤖
Сходил в гости в подкаст "Мы обречены": Полтора часа о всем подряд, нейронках, про работу в Комитете, мой взгляд на медиа и отзеркалированная надпись "Кусь" на кофте, если хотите то милости прошу:
https://youtu.be/vWi-WZ3SuA8?1
https://youtu.be/vWi-WZ3SuA8?1
YouTube
Денис Ширяев — экс-продакт Комитета (VC, TJ и DTF) мутит чудо нейросети — Мы обречены
У наших друзей из Райффайзенбанка есть цифровое сообщество, присоединяйтесь и следите за их новостями вот здесь:
https://career.raiffeisen.ru/
https://habr.com/ru/company/raiffeisenbank/
Сравни лучшие курсы в IT по цене и отзывам в tutortop - https://clck.ru/32uuRC…
https://career.raiffeisen.ru/
https://habr.com/ru/company/raiffeisenbank/
Сравни лучшие курсы в IT по цене и отзывам в tutortop - https://clck.ru/32uuRC…
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
DeepMind выкупил популярный в научной среде физический симулятор MuJoCo и сделал его бесплатным. Все для развития исследований в области робототехники и RL. Это действительно достойный шаг!
Происходя в микроскопических масштабах на границе раздела двух тел, физические контакты могут быть мягкими или жесткими, упругими или губчатыми, скользкими или липкими. MuJoCo в этом плане довольно потрясающая штука, которая позволяет хорошо симулировать различные виды контактов. И часто работает гораздо быстрее чем real-time.
А в 2022 году ресерчеры из DeepMind опубликуют код симулятора на GitHub!
Подробности: dpmd.ai/mujoco-blog.
Происходя в микроскопических масштабах на границе раздела двух тел, физические контакты могут быть мягкими или жесткими, упругими или губчатыми, скользкими или липкими. MuJoCo в этом плане довольно потрясающая штука, которая позволяет хорошо симулировать различные виды контактов. И часто работает гораздо быстрее чем real-time.
А в 2022 году ресерчеры из DeepMind опубликуют код симулятора на GitHub!
Подробности: dpmd.ai/mujoco-blog.
📣 Лекция CLIP for Zero-Shot Object Detection & Segmentation | Yurii Pashchenko, Sr ML Engineer at Depositphotos
Must Have лекция для всех, кто занимается Computer Vision! Да здравствует новая эпоха в Object Detection & Segmentation
📅 Сегодня (20.10) в 19-30 на YouTube
👉 https://youtu.be/q90FH1tEHdQ
Must Have лекция для всех, кто занимается Computer Vision! Да здравствует новая эпоха в Object Detection & Segmentation
📅 Сегодня (20.10) в 19-30 на YouTube
👉 https://youtu.be/q90FH1tEHdQ
YouTube
Нейронные Сети: CLIP for Zero-Shot Object Detection & Segmentation | Computer Vision | Transformer
Лекция от Yurii Pashchenko, Sr Machine Learning Engineer at Depositphotos. Transformer | Прогрессивное ML комьюнити
Что будет на лекции:
▪️ Short Intro to CLIP, Zero-Shot and Object Detection
▪️ Difficulties of applying CLIP to existing detectors
▪️…
Что будет на лекции:
▪️ Short Intro to CLIP, Zero-Shot and Object Detection
▪️ Difficulties of applying CLIP to existing detectors
▪️…
👍1
Мишин Лернинг 🇺🇦🇮🇱
📣 Лекция CLIP for Zero-Shot Object Detection & Segmentation | Yurii Pashchenko, Sr ML Engineer at Depositphotos Must Have лекция для всех, кто занимается Computer Vision! Да здравствует новая эпоха в Object Detection & Segmentation 📅 Сегодня (20.10) в 19…
🎬 Превосходная лекция CLIP for Object Detection & Segmentation
This media is not supported in your browser
VIEW IN TELEGRAM
👾 arXiv DOOM: Reject ‘Em ALL
Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!
Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!
Вам позволено бороться с сотней самых последних статей в категории cs. CV!
Главное зареджектить новый пейпер Яна ЛеКуна!
👹 arXiv DOOM Играй прямо в браузере!
Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!
Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!
Вам позволено бороться с сотней самых последних статей в категории cs. CV!
Главное зареджектить новый пейпер Яна ЛеКуна!
👹 arXiv DOOM Играй прямо в браузере!
Forwarded from Denis Sexy IT 🤖
Помните я как-то писал про нейронку из Китая CogView, которая генерирует любой текст в картинки, и делает это на довольно крутом уровне?
Так вот, с того момента чуваки передали интерфейс и ей наконец-то стало возможно нормально пользоваться:
1) Переходите по ссылке
2) Нажимаете "English Display" 🌚
3) Вводите ваш запрос в "Image Description"
4) Нажимаете кнопку с иероглифом перевода и стрелочку вправо
5) Та-да, вы прекрасны
Я поигрался немного, вот вам коллекция котиков за офисными задачами.
P.S. Если лень придумывать запросы на английском, то вот классный переводчик с русского на английский.
Так вот, с того момента чуваки передали интерфейс и ей наконец-то стало возможно нормально пользоваться:
1) Переходите по ссылке
2) Нажимаете "English Display" 🌚
3) Вводите ваш запрос в "Image Description"
4) Нажимаете кнопку с иероглифом перевода и стрелочку вправо
5) Та-да, вы прекрасны
Я поигрался немного, вот вам коллекция котиков за офисными задачами.
P.S. Если лень придумывать запросы на английском, то вот классный переводчик с русского на английский.
MixNMatch: Декомпозиция Стиля, Позы, Формы и «культурного» Бэкграунда
Изображения x пропускают через 4 энкодера:
▪️Ez(x) - кодирует латентщину
▪️Eb(x) - задник (бекнраунд)
▪️Ep(x) - позу
▪️Ec(x) - стиль, текстуру
Затем взад-назад. Из z, b, p, c генерят картинки:
▪️сначала из b, z - задник
▪️потом на него наносят маску позы из z, p
▪️а потом стильно полируют текстурой из z, c
на все три стейджа - 3 лосса
При этом ещё 4 адверсариал лосса учат истинность и ложность пар изображения и их кодировок.
📰 папир 💻 имплементация
Изображения x пропускают через 4 энкодера:
▪️Ez(x) - кодирует латентщину
▪️Eb(x) - задник (бекнраунд)
▪️Ep(x) - позу
▪️Ec(x) - стиль, текстуру
Затем взад-назад. Из z, b, p, c генерят картинки:
▪️сначала из b, z - задник
▪️потом на него наносят маску позы из z, p
▪️а потом стильно полируют текстурой из z, c
на все три стейджа - 3 лосса
При этом ещё 4 адверсариал лосса учат истинность и ложность пар изображения и их кодировок.
📰 папир 💻 имплементация