Мишин Лернинг 🇺🇦🇮🇱
7.91K subscribers
1.16K photos
141 videos
4 files
634 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳Китайцы подвезли дипфейки на стеройдах

Все мы видели дипфейки, где подменяются лица. Эта статья пошла дальше, тут меняют все голову целиком. Чудеса китайской инженерии и 300 лоссов делают свою дело 🤓.

По сравнению с обычным "face swap"-ом, новый метод лучше переносит личность с целевой фотографии на видео, сохраняя прическу, брови, и другие атрибуты. Осталось только немного улучшить покадровую стабильность - контуры головы немного дёргабтся. Кода пока нет, но обещают скоро залить.

❱❱ Few-Shot Head Swapping in the Wild
👍42🔥1
🚀 Meta AI опенсорсит OPT 175B, аналог GPT3

Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет):

«Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого. Он написал: «For sale, baby shoes, never worn» (с англ. — «Продаются детские ботиночки. Неношеные»), и выиграл спор.»

Можно ли написать самую короткую AI новость, пост, способный растрогать любого?

«Meta AI обучили GPT 175B. Open Source»

🎓 p.s.: Возникают разумные вопросы, на которые постараюсь дать ответы:

Q: Зачем?
A: Чтобы было. OpenAI не релизнули, а мы вот да.

Q: А сильный буст в сравнении с 20B от EleutherAI?
A: Имхо, для большинства задач 20B с головой, но мы знаем, что на некоторые таски решаются лишь с 175B или с 540B.

Q: И как, OPT от Meta AI сопоставим с GPT-3 от OpenAI?
A: Результаты Meta AI в среднем чуть хуже, чем у OpenAI, 14 NLP Tasks. Но зависит от задачи. Hate speech detection вот лучше.

📄 paper
🖥 code и веса будут тут 👈
24👍11
Forwarded from DL in NLP (Vlad Lialin)
Подробнее о тренировке OPT — огромной языковой модели с 175B параметров от Meta AI

Чем глубже погружаешься в методы тренировки больших моделей, тем больше понимаешь насколько там боли. С одной стороны у тебя может быть 1000 GPU, но как заставить их работать вместе и что делать когда модель начинает расходиться?

Для обучения OPT использовали коктейль из
1. MegatronDeepSpeed — эффективный tensor parallel
1. NVIDIA Apex — mixed precision
1. Fairscale — fully-sharded data parallel и элистичность тренировки, т.е. чтобы когда умирала какая-то GPU вся тренировка не останавливалась

Модель максимально близка к GPT3. Та же максимальная длина в 2048 токенов, тот же токенизатор от GPT2, ReLU. Pre-norm или post-norm в статье на написано, но предполагаю что pre-norm. Использовали обычный fp16 для весов модели, а ADAM был в fp32.

Данные это смесь данных RoBERTa (BookCorpus, Stories, CCNews), часть The Pile, и PushShift.io Reddit. Дедуплицировали документы с помощью Min-hashLSH, сказали что в The Pile очень много дубликатов. В конце-концов получилось 180B токенов.

Самое весёлое: процесс тренировки. Тренировали самую большую модель 2 месяца, её приходилось вручную перезапускать 35 раз. Автоматически она перезапустилась ещё 70. То есть в среднем чаще чем раз в день с тренировкой что-то происходило. При ручном перезапуске делали диагностику hardware и выключали сломанные ноды. Когда лосс начинал резко расти, модель откатывали до последнего чекпоинта и уменьшали LR. Кроме этого в начале тренировки использовали очень маленький gradient clipping в 0.3.

Вот когда я разчувствовался при чтении статьи это на секции где авторы описывают что во время тренировки они пытались менять оптимизатор в ADAMW на SGD (не помогло, вернули обратно), ресетить скейлинг лосса (это когда мы лосс умножаем на некоторое число, чтобы подсчёт градиентов был более численно стабильным, важно для fp16) и даже менять версию Megatron. У кого-то были напряжённые недели.

Кажется 2022 запомнится демократизацией доступа к большим моделям, что может привести к куче ноывых интересных статей как эти модели применять на практике и какие у них есть косяки. Stay tuned.
👍362😢1
Мишин Лернинг 🇺🇦🇮🇱
🚀 Meta AI опенсорсит OPT 175B, аналог GPT3 Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет): «Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого.…
🔓🧠 Код OPT (175B GPT-3 от Meta AI) доступен

Доступен код тренировки, инференса и сами веса моделей.

• Веса моделей OPT-125M, OPT-350M, OPT-1.3B, OPT-2.7B, OPT-6.7B, OPT-13B, OPT-30B уже доступны для скачивания (семь моделей для скачивания, ссылку привОз)
• Веса 66B модели будут доступны в ближайшее время
• Запросить доступ к 175B можно по этой ссылке
17👍10
🔬🔥 Google Research опенсорснули свой research code base! Big Vision: ViT, LiT, MLP-Mixer, ставь свои эксперименты!

Вот слова Александра Колесникова (автора ViT, MLP-Mixer, etc., очень рекомендую его твиттер 🔥):

«Big Vision репозиторий — дом ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Раньше мы публиковали код только для finetune, теперь же — полную базу, которая может работать на всем от 1 gpu до 2048 TPU!»

Это
действительно круто, и это даёт невероятные возможность для ресерч комьюнити: вот контент и планы на будущее!

Обратите внимание, что, несмотря на то, что Big Vision ориентирован на TPU, кодовая база в целом поддерживает обучение на CPU и GPU (и несколькими GPU) благодаря JAX!

👉 Big Vision 🔬
👍204
👩‍🚀 A painting by Grant Wood of an astronaut couple, american gothic style | DALL-E 2
71👍14
NeuralAstroGothic.jpeg
971.4 KB
🌬 Настолько зашла Астро-Готика от DALL•E 2, что решил сделать нейронный энхансмент и апскейл до 2560 × 2560, поджав до 1mb.
27👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🥑 Пока многие ждут доступа к DALL-E 2 от OpenAI, подливаю масло в огонь

Вот как выглядит интерфейс сервиса DALL-E 2. Все гениальное — просто.

p.s.: как говорит известная ai мудрость "ждать — жди, но не на OpenAI надейся"
69👍5🔥3
🏆 CoCa: Contrastive Captioners или гибрид CLIP+SimVLM бьет SOTA на ImageNet

Сразу спойлер: "CoCa одна из важнейших сетей 2022 года, наряду с DALL-E 2"

Начнем с результатов:
▪️86.3% Zero-Shot ImageNet Top-1 (CLIP 76.2%)
▪️90.6% Linear Probe ImageNet Top-1 (CLIP 85.4%)
▪️91.0% Fine-Tune ImageNet Top-1 (Model soups, ViT-G/14 90.94%)

CoCa рвет не только в Zero-Shot всем известный CLIP, но и все "эти" ModelSoup'ы, CoAtNet'ы и DaViT'ы в классическом ImageNet Top-1. Оговорюсь, что при этом визуальная башня CoCa — ViT!

В чем фишка CoCa?

🎓 GPT-like съедает текст, а ViT съедает изображение. Выход class-token'ов ViT и GPT-like обучаются как CLIP. Затем еще половина, поздние слои GPT-like через кросс-аттеншн забирают инфу с токенов изображения и пытаются предсказать текстовое описание!

По сути CoCa — обобщение предыдущих подходов: от классических классификаторов до CLIP'ов, SimVLM'ов и BLIP'ов.

📇 Paper
🗄 Arxiv
💻 Code (спасибо, lucidrains)
👍2410🔥8
🥑 Avocado Armchair Collection | DALL•E 2

Главный символ нейросети DALL•E — это кресло авокадо. Еще с первой версии повелось тестировать качество генерации этим текстовым запросом. Но DALL•E 2 действительно создает невероятные концепты.

Уверен что генеративный дизайн станет важным направлением дизайна 20-30х годов нашего века.
24🔥8👍1
🏆 CoCA — новая SOTA на первом месте! Papers With Code обновили свою "рейтинговую таблцу" по ImageNet-1k

Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.

Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.

91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.

p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.

👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)

ImageNet SOTA
👍32🔥73👎1
🦦 Забавно, что диффузионую модель просят создать картинку к твиттер посту про уход из Apple создателя GAN‘о-в, мистера BADgoodFELLOW.

Желаем Яну всего наилучшего! Думаю, что ему действительно хочется быть более свободным. МЛ-директор Apple, судя по его твиту, не согласен с планами компании по возврату своей команды в офис. Вот такое начало жизни в «постковидный период» айти истории. Ещё одну интересную и прагматичную версию по поводу ухода подкинул эйай ньюз.

p.s.: Кстати Ian Goodfellow соавтор (совместно с Yoshua Bengio) одной из лучших книг по Deep Learning. Бесплатно, без регистрации и смс. Кидаю:

🎓 deeplearningbook.org
👍173🔥1😢1