Мишин Лернинг 🇺🇦🇮🇱
7.91K subscribers
1.16K photos
141 videos
4 files
634 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🔬🔥 Google Research опенсорснули свой research code base! Big Vision: ViT, LiT, MLP-Mixer, ставь свои эксперименты!

Вот слова Александра Колесникова (автора ViT, MLP-Mixer, etc., очень рекомендую его твиттер 🔥):

«Big Vision репозиторий — дом ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Раньше мы публиковали код только для finetune, теперь же — полную базу, которая может работать на всем от 1 gpu до 2048 TPU!»

Это
действительно круто, и это даёт невероятные возможность для ресерч комьюнити: вот контент и планы на будущее!

Обратите внимание, что, несмотря на то, что Big Vision ориентирован на TPU, кодовая база в целом поддерживает обучение на CPU и GPU (и несколькими GPU) благодаря JAX!

👉 Big Vision 🔬
👍204
👩‍🚀 A painting by Grant Wood of an astronaut couple, american gothic style | DALL-E 2
71👍14
NeuralAstroGothic.jpeg
971.4 KB
🌬 Настолько зашла Астро-Готика от DALL•E 2, что решил сделать нейронный энхансмент и апскейл до 2560 × 2560, поджав до 1mb.
27👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🥑 Пока многие ждут доступа к DALL-E 2 от OpenAI, подливаю масло в огонь

Вот как выглядит интерфейс сервиса DALL-E 2. Все гениальное — просто.

p.s.: как говорит известная ai мудрость "ждать — жди, но не на OpenAI надейся"
69👍5🔥3
🏆 CoCa: Contrastive Captioners или гибрид CLIP+SimVLM бьет SOTA на ImageNet

Сразу спойлер: "CoCa одна из важнейших сетей 2022 года, наряду с DALL-E 2"

Начнем с результатов:
▪️86.3% Zero-Shot ImageNet Top-1 (CLIP 76.2%)
▪️90.6% Linear Probe ImageNet Top-1 (CLIP 85.4%)
▪️91.0% Fine-Tune ImageNet Top-1 (Model soups, ViT-G/14 90.94%)

CoCa рвет не только в Zero-Shot всем известный CLIP, но и все "эти" ModelSoup'ы, CoAtNet'ы и DaViT'ы в классическом ImageNet Top-1. Оговорюсь, что при этом визуальная башня CoCa — ViT!

В чем фишка CoCa?

🎓 GPT-like съедает текст, а ViT съедает изображение. Выход class-token'ов ViT и GPT-like обучаются как CLIP. Затем еще половина, поздние слои GPT-like через кросс-аттеншн забирают инфу с токенов изображения и пытаются предсказать текстовое описание!

По сути CoCa — обобщение предыдущих подходов: от классических классификаторов до CLIP'ов, SimVLM'ов и BLIP'ов.

📇 Paper
🗄 Arxiv
💻 Code (спасибо, lucidrains)
👍2410🔥8
🥑 Avocado Armchair Collection | DALL•E 2

Главный символ нейросети DALL•E — это кресло авокадо. Еще с первой версии повелось тестировать качество генерации этим текстовым запросом. Но DALL•E 2 действительно создает невероятные концепты.

Уверен что генеративный дизайн станет важным направлением дизайна 20-30х годов нашего века.
24🔥8👍1
🏆 CoCA — новая SOTA на первом месте! Papers With Code обновили свою "рейтинговую таблцу" по ImageNet-1k

Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.

Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.

91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.

p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.

👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)

ImageNet SOTA
👍32🔥73👎1
🦦 Забавно, что диффузионую модель просят создать картинку к твиттер посту про уход из Apple создателя GAN‘о-в, мистера BADgoodFELLOW.

Желаем Яну всего наилучшего! Думаю, что ему действительно хочется быть более свободным. МЛ-директор Apple, судя по его твиту, не согласен с планами компании по возврату своей команды в офис. Вот такое начало жизни в «постковидный период» айти истории. Ещё одну интересную и прагматичную версию по поводу ухода подкинул эйай ньюз.

p.s.: Кстати Ian Goodfellow соавтор (совместно с Yoshua Bengio) одной из лучших книг по Deep Learning. Бесплатно, без регистрации и смс. Кидаю:

🎓 deeplearningbook.org
👍173🔥1😢1
🔥107👍16👎2😢2
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
😢 Snap выпустил плачущий фильтр. И это пушка!

Реализм зашкаливает. Если сильно не вглядываться, то и не скажешь, что человек на самом деле совсем не плачет. И выражение лица реалистичное, и маска не прыгает, круто!

А все благодаря чему? Благодаря генеративными сетям (ака ганам).
🔥39😢11
This media is not supported in your browser
VIEW IN TELEGRAM
😭 Вот попробовал плачущий фильтр от Snap.
🔥84😢17👍4👎4