Мишин Лернинг 🇺🇦🇮🇱

🔬🔥 Google Research опенсорснули свой research code base! Big Vision: ViT, LiT, MLP-Mixer, ставь свои эксперименты!

Вот слова Александра Колесникова (автора ViT, MLP-Mixer, etc., очень рекомендую его твиттер 🔥):

«Big Vision репозиторий — дом ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Раньше мы публиковали код только для finetune, теперь же — полную базу, которая может работать на всем от 1 gpu до 2048 TPU!»

Это действительно круто, и это даёт невероятные возможность для ресерч комьюнити: вот контент и планы на будущее!

Обратите внимание, что, несмотря на то, что Big Vision ориентирован на TPU, кодовая база в целом поддерживает обучение на CPU и GPU (и несколькими GPU) благодаря JAX!

👉 Big Vision 🔬

👍20❤4

6.38K viewsedited 09:32

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

👩‍🚀 A painting by Grant Wood of an astronaut couple, american gothic style | DALL-E 2

❤71👍14

3.98K views08:59

Мишин Лернинг 🇺🇦🇮🇱

NeuralAstroGothic.jpeg

971.4 KB

🌬 Настолько зашла Астро-Готика от DALL•E 2, что решил сделать нейронный энхансмент и апскейл до 2560 × 2560, поджав до 1mb.

❤27👍3

5.67K views09:37

Мишин Лернинг 🇺🇦🇮🇱

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

🥑 Пока многие ждут доступа к DALL-E 2 от OpenAI, подливаю масло в огонь

Вот как выглядит интерфейс сервиса DALL-E 2. Все гениальное — просто.

p.s.: как говорит известная ai мудрость "ждать — жди, но не на OpenAI надейся"

❤69👍5🔥3

7.73K viewsedited 15:10

Мишин Лернинг 🇺🇦🇮🇱

🏆 CoCa: Contrastive Captioners или гибрид CLIP+SimVLM бьет SOTA на ImageNet

Сразу спойлер: "CoCa одна из важнейших сетей 2022 года, наряду с DALL-E 2"

Начнем с результатов:
▪️86.3% Zero-Shot ImageNet Top-1 (CLIP 76.2%)
▪️90.6% Linear Probe ImageNet Top-1 (CLIP 85.4%)
▪️91.0% Fine-Tune ImageNet Top-1 (Model soups, ViT-G/14 90.94%)

CoCa рвет не только в Zero-Shot всем известный CLIP, но и все "эти" ModelSoup'ы, CoAtNet'ы и DaViT'ы в классическом ImageNet Top-1. Оговорюсь, что при этом визуальная башня CoCa — ViT!

В чем фишка CoCa?

🎓 GPT-like съедает текст, а ViT съедает изображение. Выход class-token'ов ViT и GPT-like обучаются как CLIP. Затем еще половина, поздние слои GPT-like через кросс-аттеншн забирают инфу с токенов изображения и пытаются предсказать текстовое описание!

По сути CoCa — обобщение предыдущих подходов: от классических классификаторов до CLIP'ов, SimVLM'ов и BLIP'ов.

📇 Paper
🗄 Arxiv
💻 Code (спасибо, lucidrains)

👍24❤10🔥8

5.23K viewsedited 11:21

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

🥑 Avocado Armchair Collection | DALL•E 2

Главный символ нейросети DALL•E — это кресло авокадо. Еще с первой версии повелось тестировать качество генерации этим текстовым запросом. Но DALL•E 2 действительно создает невероятные концепты.

Уверен что генеративный дизайн станет важным направлением дизайна 20-30х годов нашего века.

❤24🔥8👍1

3.48K views09:10

Мишин Лернинг 🇺🇦🇮🇱

🏆 CoCA — новая SOTA на первом месте! Papers With Code обновили свою "рейтинговую таблцу" по ImageNet-1k

Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.

Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.

91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.

p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.

👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)

✨ ImageNet SOTA

👍32🔥7❤3👎1

15.1K viewsedited 10:40

Мишин Лернинг 🇺🇦🇮🇱

🦦 Забавно, что диффузионую модель просят создать картинку к твиттер посту про уход из Apple создателя GAN‘о-в, мистера BAD~~good~~FELLOW.

Желаем Яну всего наилучшего! Думаю, что ему действительно хочется быть более свободным. МЛ-директор Apple, судя по его твиту, не согласен с планами компании по возврату своей команды в офис. Вот такое начало жизни в «постковидный период» айти истории. Ещё одну интересную и прагматичную версию по поводу ухода подкинул эйай ньюз.

p.s.: Кстати Ian Goodfellow соавтор (совместно с Yoshua Bengio) одной из лучших книг по Deep Learning. Бесплатно, без регистрации и смс. Кидаю:

🎓 deeplearningbook.org

👍17❤3🔥1😢1

4.12K viewsedited 19:59

Мишин Лернинг 🇺🇦🇮🇱

🔥107👍16👎2😢2

8.12K views09:42

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from эйай ньюз

1:29

Media is too big

VIEW IN TELEGRAM

😢 Snap выпустил плачущий фильтр. И это пушка!

Реализм зашкаливает. Если сильно не вглядываться, то и не скажешь, что человек на самом деле совсем не плачет. И выражение лица реалистичное, и маска не прыгает, круто!

А все благодаря чему? Благодаря генеративными сетям (ака ганам).

🔥39😢11

2.38K views12:31