Мишин Лернинг 🇺🇦🇮🇱
7.93K subscribers
1.16K photos
141 videos
4 files
630 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
💩 А я сейчас вам покажу, откуда на Белорусь готовилась генерация.
👍36👎8😢73
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳Китайцы подвезли дипфейки на стеройдах

Все мы видели дипфейки, где подменяются лица. Эта статья пошла дальше, тут меняют все голову целиком. Чудеса китайской инженерии и 300 лоссов делают свою дело 🤓.

По сравнению с обычным "face swap"-ом, новый метод лучше переносит личность с целевой фотографии на видео, сохраняя прическу, брови, и другие атрибуты. Осталось только немного улучшить покадровую стабильность - контуры головы немного дёргабтся. Кода пока нет, но обещают скоро залить.

❱❱ Few-Shot Head Swapping in the Wild
👍42🔥1
🚀 Meta AI опенсорсит OPT 175B, аналог GPT3

Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет):

«Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого. Он написал: «For sale, baby shoes, never worn» (с англ. — «Продаются детские ботиночки. Неношеные»), и выиграл спор.»

Можно ли написать самую короткую AI новость, пост, способный растрогать любого?

«Meta AI обучили GPT 175B. Open Source»

🎓 p.s.: Возникают разумные вопросы, на которые постараюсь дать ответы:

Q: Зачем?
A: Чтобы было. OpenAI не релизнули, а мы вот да.

Q: А сильный буст в сравнении с 20B от EleutherAI?
A: Имхо, для большинства задач 20B с головой, но мы знаем, что на некоторые таски решаются лишь с 175B или с 540B.

Q: И как, OPT от Meta AI сопоставим с GPT-3 от OpenAI?
A: Результаты Meta AI в среднем чуть хуже, чем у OpenAI, 14 NLP Tasks. Но зависит от задачи. Hate speech detection вот лучше.

📄 paper
🖥 code и веса будут тут 👈
24👍11
Forwarded from DL in NLP (Vlad Lialin)
Подробнее о тренировке OPT — огромной языковой модели с 175B параметров от Meta AI

Чем глубже погружаешься в методы тренировки больших моделей, тем больше понимаешь насколько там боли. С одной стороны у тебя может быть 1000 GPU, но как заставить их работать вместе и что делать когда модель начинает расходиться?

Для обучения OPT использовали коктейль из
1. MegatronDeepSpeed — эффективный tensor parallel
1. NVIDIA Apex — mixed precision
1. Fairscale — fully-sharded data parallel и элистичность тренировки, т.е. чтобы когда умирала какая-то GPU вся тренировка не останавливалась

Модель максимально близка к GPT3. Та же максимальная длина в 2048 токенов, тот же токенизатор от GPT2, ReLU. Pre-norm или post-norm в статье на написано, но предполагаю что pre-norm. Использовали обычный fp16 для весов модели, а ADAM был в fp32.

Данные это смесь данных RoBERTa (BookCorpus, Stories, CCNews), часть The Pile, и PushShift.io Reddit. Дедуплицировали документы с помощью Min-hashLSH, сказали что в The Pile очень много дубликатов. В конце-концов получилось 180B токенов.

Самое весёлое: процесс тренировки. Тренировали самую большую модель 2 месяца, её приходилось вручную перезапускать 35 раз. Автоматически она перезапустилась ещё 70. То есть в среднем чаще чем раз в день с тренировкой что-то происходило. При ручном перезапуске делали диагностику hardware и выключали сломанные ноды. Когда лосс начинал резко расти, модель откатывали до последнего чекпоинта и уменьшали LR. Кроме этого в начале тренировки использовали очень маленький gradient clipping в 0.3.

Вот когда я разчувствовался при чтении статьи это на секции где авторы описывают что во время тренировки они пытались менять оптимизатор в ADAMW на SGD (не помогло, вернули обратно), ресетить скейлинг лосса (это когда мы лосс умножаем на некоторое число, чтобы подсчёт градиентов был более численно стабильным, важно для fp16) и даже менять версию Megatron. У кого-то были напряжённые недели.

Кажется 2022 запомнится демократизацией доступа к большим моделям, что может привести к куче ноывых интересных статей как эти модели применять на практике и какие у них есть косяки. Stay tuned.
👍362😢1
Мишин Лернинг 🇺🇦🇮🇱
🚀 Meta AI опенсорсит OPT 175B, аналог GPT3 Есть такой литературный мем, авторство которого приписывают писателю Эрнесту Хемингуэю (подтверждений нет): «Однажды Эрнест Хемингуэй поспорил, что сможет написать самый короткий рассказ, способный растрогать любого.…
🔓🧠 Код OPT (175B GPT-3 от Meta AI) доступен

Доступен код тренировки, инференса и сами веса моделей.

• Веса моделей OPT-125M, OPT-350M, OPT-1.3B, OPT-2.7B, OPT-6.7B, OPT-13B, OPT-30B уже доступны для скачивания (семь моделей для скачивания, ссылку привОз)
• Веса 66B модели будут доступны в ближайшее время
• Запросить доступ к 175B можно по этой ссылке
17👍10
🔬🔥 Google Research опенсорснули свой research code base! Big Vision: ViT, LiT, MLP-Mixer, ставь свои эксперименты!

Вот слова Александра Колесникова (автора ViT, MLP-Mixer, etc., очень рекомендую его твиттер 🔥):

«Big Vision репозиторий — дом ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Раньше мы публиковали код только для finetune, теперь же — полную базу, которая может работать на всем от 1 gpu до 2048 TPU!»

Это
действительно круто, и это даёт невероятные возможность для ресерч комьюнити: вот контент и планы на будущее!

Обратите внимание, что, несмотря на то, что Big Vision ориентирован на TPU, кодовая база в целом поддерживает обучение на CPU и GPU (и несколькими GPU) благодаря JAX!

👉 Big Vision 🔬
👍204
👩‍🚀 A painting by Grant Wood of an astronaut couple, american gothic style | DALL-E 2
71👍14
NeuralAstroGothic.jpeg
971.4 KB
🌬 Настолько зашла Астро-Готика от DALL•E 2, что решил сделать нейронный энхансмент и апскейл до 2560 × 2560, поджав до 1mb.
27👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🥑 Пока многие ждут доступа к DALL-E 2 от OpenAI, подливаю масло в огонь

Вот как выглядит интерфейс сервиса DALL-E 2. Все гениальное — просто.

p.s.: как говорит известная ai мудрость "ждать — жди, но не на OpenAI надейся"
69👍5🔥3
🏆 CoCa: Contrastive Captioners или гибрид CLIP+SimVLM бьет SOTA на ImageNet

Сразу спойлер: "CoCa одна из важнейших сетей 2022 года, наряду с DALL-E 2"

Начнем с результатов:
▪️86.3% Zero-Shot ImageNet Top-1 (CLIP 76.2%)
▪️90.6% Linear Probe ImageNet Top-1 (CLIP 85.4%)
▪️91.0% Fine-Tune ImageNet Top-1 (Model soups, ViT-G/14 90.94%)

CoCa рвет не только в Zero-Shot всем известный CLIP, но и все "эти" ModelSoup'ы, CoAtNet'ы и DaViT'ы в классическом ImageNet Top-1. Оговорюсь, что при этом визуальная башня CoCa — ViT!

В чем фишка CoCa?

🎓 GPT-like съедает текст, а ViT съедает изображение. Выход class-token'ов ViT и GPT-like обучаются как CLIP. Затем еще половина, поздние слои GPT-like через кросс-аттеншн забирают инфу с токенов изображения и пытаются предсказать текстовое описание!

По сути CoCa — обобщение предыдущих подходов: от классических классификаторов до CLIP'ов, SimVLM'ов и BLIP'ов.

📇 Paper
🗄 Arxiv
💻 Code (спасибо, lucidrains)
👍2410🔥8
🥑 Avocado Armchair Collection | DALL•E 2

Главный символ нейросети DALL•E — это кресло авокадо. Еще с первой версии повелось тестировать качество генерации этим текстовым запросом. Но DALL•E 2 действительно создает невероятные концепты.

Уверен что генеративный дизайн станет важным направлением дизайна 20-30х годов нашего века.
24🔥8👍1