🔬🔥 Google Research опенсорснули свой research code base! Big Vision: ViT, LiT, MLP-Mixer, ставь свои эксперименты!
Вот слова Александра Колесникова (автора ViT, MLP-Mixer, etc., очень рекомендую его твиттер 🔥):
«Big Vision репозиторий — дом ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Раньше мы публиковали код только для finetune, теперь же — полную базу, которая может работать на всем от 1 gpu до 2048 TPU!»
Это действительно круто, и это даёт невероятные возможность для ресерч комьюнити: вот контент и планы на будущее!
Обратите внимание, что, несмотря на то, что Big Vision ориентирован на TPU, кодовая база в целом поддерживает обучение на CPU и GPU (и несколькими GPU) благодаря JAX!
👉 Big Vision 🔬
Вот слова Александра Колесникова (автора ViT, MLP-Mixer, etc., очень рекомендую его твиттер 🔥):
«Big Vision репозиторий — дом ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Раньше мы публиковали код только для finetune, теперь же — полную базу, которая может работать на всем от 1 gpu до 2048 TPU!»
Это действительно круто, и это даёт невероятные возможность для ресерч комьюнити: вот контент и планы на будущее!
Обратите внимание, что, несмотря на то, что Big Vision ориентирован на TPU, кодовая база в целом поддерживает обучение на CPU и GPU (и несколькими GPU) благодаря JAX!
👉 Big Vision 🔬
👍20❤4
Forwarded from Нейроэстетика
👩🚀 A painting by Grant Wood of an astronaut couple, american gothic style | DALL-E 2
❤71👍14
NeuralAstroGothic.jpeg
971.4 KB
🌬 Настолько зашла Астро-Готика от DALL•E 2, что решил сделать нейронный энхансмент и апскейл до 2560 × 2560, поджав до 1mb.
❤27👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🥑 Пока многие ждут доступа к DALL-E 2 от OpenAI, подливаю масло в огонь
Вот как выглядит интерфейс сервиса DALL-E 2. Все гениальное — просто.
p.s.: как говорит известная ai мудрость "ждать — жди, но не на OpenAI надейся"
Вот как выглядит интерфейс сервиса DALL-E 2. Все гениальное — просто.
p.s.: как говорит известная ai мудрость "ждать — жди, но не на OpenAI надейся"
❤69👍5🔥3
🏆 CoCa: Contrastive Captioners или гибрид CLIP+SimVLM бьет SOTA на ImageNet
Сразу спойлер: "CoCa одна из важнейших сетей 2022 года, наряду с DALL-E 2"
Начнем с результатов:
▪️86.3% Zero-Shot ImageNet Top-1 (CLIP 76.2%)
▪️90.6% Linear Probe ImageNet Top-1 (CLIP 85.4%)
▪️91.0% Fine-Tune ImageNet Top-1 (Model soups, ViT-G/14 90.94%)
CoCa рвет не только в Zero-Shot всем известный CLIP, но и все "эти" ModelSoup'ы, CoAtNet'ы и DaViT'ы в классическом ImageNet Top-1. Оговорюсь, что при этом визуальная башня CoCa — ViT!
В чем фишка CoCa?
🎓 GPT-like съедает текст, а ViT съедает изображение. Выход class-token'ов ViT и GPT-like обучаются как CLIP. Затем еще половина, поздние слои GPT-like через кросс-аттеншн забирают инфу с токенов изображения и пытаются предсказать текстовое описание!
По сути CoCa — обобщение предыдущих подходов: от классических классификаторов до CLIP'ов, SimVLM'ов и BLIP'ов.
📇 Paper
🗄 Arxiv
💻 Code (спасибо, lucidrains)
Сразу спойлер: "CoCa одна из важнейших сетей 2022 года, наряду с DALL-E 2"
Начнем с результатов:
▪️86.3% Zero-Shot ImageNet Top-1 (CLIP 76.2%)
▪️90.6% Linear Probe ImageNet Top-1 (CLIP 85.4%)
▪️91.0% Fine-Tune ImageNet Top-1 (Model soups, ViT-G/14 90.94%)
CoCa рвет не только в Zero-Shot всем известный CLIP, но и все "эти" ModelSoup'ы, CoAtNet'ы и DaViT'ы в классическом ImageNet Top-1. Оговорюсь, что при этом визуальная башня CoCa — ViT!
В чем фишка CoCa?
🎓 GPT-like съедает текст, а ViT съедает изображение. Выход class-token'ов ViT и GPT-like обучаются как CLIP. Затем еще половина, поздние слои GPT-like через кросс-аттеншн забирают инфу с токенов изображения и пытаются предсказать текстовое описание!
По сути CoCa — обобщение предыдущих подходов: от классических классификаторов до CLIP'ов, SimVLM'ов и BLIP'ов.
📇 Paper
🗄 Arxiv
💻 Code (спасибо, lucidrains)
👍24❤10🔥8
Forwarded from Нейроэстетика
🥑 Avocado Armchair Collection | DALL•E 2
Главный символ нейросети DALL•E — это кресло авокадо. Еще с первой версии повелось тестировать качество генерации этим текстовым запросом. Но DALL•E 2 действительно создает невероятные концепты.
Уверен что генеративный дизайн станет важным направлением дизайна 20-30х годов нашего века.
Главный символ нейросети DALL•E — это кресло авокадо. Еще с первой версии повелось тестировать качество генерации этим текстовым запросом. Но DALL•E 2 действительно создает невероятные концепты.
Уверен что генеративный дизайн станет важным направлением дизайна 20-30х годов нашего века.
❤24🔥8👍1
🏆 CoCA — новая SOTA на первом месте! Papers With Code обновили свою "рейтинговую таблцу" по ImageNet-1k
Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.
Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.
91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.
p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.
👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)
✨ ImageNet SOTA
Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.
Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.
91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.
p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.
👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)
✨ ImageNet SOTA
👍32🔥7❤3👎1
🦦 Забавно, что диффузионую модель просят создать картинку к твиттер посту про уход из Apple создателя GAN‘о-в, мистера BADgoodFELLOW.
Желаем Яну всего наилучшего! Думаю, что ему действительно хочется быть более свободным. МЛ-директор Apple, судя по его твиту, не согласен с планами компании по возврату своей команды в офис. Вот такое начало жизни в «постковидный период» айти истории. Ещё одну интересную и прагматичную версию по поводу ухода подкинул эйай ньюз.
p.s.: Кстати Ian Goodfellow соавтор (совместно с Yoshua Bengio) одной из лучших книг по Deep Learning. Бесплатно, без регистрации и смс. Кидаю:
🎓 deeplearningbook.org
Желаем Яну всего наилучшего! Думаю, что ему действительно хочется быть более свободным. МЛ-директор Apple, судя по его твиту, не согласен с планами компании по возврату своей команды в офис. Вот такое начало жизни в «постковидный период» айти истории. Ещё одну интересную и прагматичную версию по поводу ухода подкинул эйай ньюз.
p.s.: Кстати Ian Goodfellow соавтор (совместно с Yoshua Bengio) одной из лучших книг по Deep Learning. Бесплатно, без регистрации и смс. Кидаю:
🎓 deeplearningbook.org
👍17❤3🔥1😢1
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
😢 Snap выпустил плачущий фильтр. И это пушка!
Реализм зашкаливает. Если сильно не вглядываться, то и не скажешь, что человек на самом деле совсем не плачет. И выражение лица реалистичное, и маска не прыгает, круто!
А все благодаря чему? Благодаря генеративными сетям (ака ганам).
Реализм зашкаливает. Если сильно не вглядываться, то и не скажешь, что человек на самом деле совсем не плачет. И выражение лица реалистичное, и маска не прыгает, круто!
А все благодаря чему? Благодаря генеративными сетям (ака ганам).
🔥39😢11
This media is not supported in your browser
VIEW IN TELEGRAM
😭 Вот попробовал плачущий фильтр от Snap.
🔥84😢17👍4👎4
Тут в классный мл канал не хватает 8 человек до 2500
не реклама, все по любви
🎓 https://t.iss.one/nn_for_science
не реклама, все по любви
🎓 https://t.iss.one/nn_for_science
Telegram
AI для Всех
Канал, в котором мы говорим про искусственный интеллект простыми словами
Главный редактор и по рекламе: @crimeacs
Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Главный редактор и по рекламе: @crimeacs
Иногда пишут в канал: @GingerSpacetail, @innovationitsme
👍10❤3👎3