Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
Какая сеть рисует более фотореалистичную картинку, чьи результаты красивее?
Anonymous Poll
92%
Imagen
8%
Parti
👍1👎1
Чьи генерации больше соответствуют текстовому описанию «The Great Wall of San Francisco»?
Anonymous Poll
84%
Imagen
16%
Parti
👍1👎1
Forwarded from DL in NLP (Vlad Lialin)
Новости NLP одной строкой

1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
👍76👎2
Media is too big
VIEW IN TELEGRAM
📼 Demis Hassabis: DeepMind - Al, Superintelligence & the Future of Humanity

Посмотрел годный подкаст с Demis Hassabis из DeepMind, и спешу поделиться. Очень интересный разговор получился.

👉 https://youtu.be/Gfr50f6ZBvo

p.s.: В видео к посту очень неплохой кусочек из начала подкаста, где обсуждается вопрос симуляции, вычислений, физики и нейронауки. Мне очень близка позиция Demis Hassabis

@
мишин_лернинг
👍7🔥3👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
6DRepNet: 6D Rotation representation for unconstrained head pose estimation

Статейка о распознавании 3Д позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.

Есть репозиторий с кодом, весами и демкой для веб -камеры.

@ai_newz
👍32🔥9👎1
💎 Нейросеть DALL•E 2 научилась строить дома и добывать алмазы

Вот такой шлак мне предложил гугл в новостях.. Дам вам совет: «И — боже вас сохрани — не читайте до обеда науч поп новости про ИИ, вообще никаких науч поп новостей не читайте..»

То у нас осознание из LaMDA мироточит, то у DALL•E 2 язык свой течет, теперь вот алмазы самовывозом..

👉 помойка ixbt (хз, что это такое), где это опубликовали
🔥30👎7😢6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🗽 Эпоха Модульных Нейронных Сетей на примере DALL•E 2

DALL•E 2 — Модуляр (предлагаю новый термин), состоящий из 6 модулей:

▫️CLIP Visual Tower | VIT, contrastive
▫️CLIP Text Tower | Casual LM, contrastive
▫️Prior (CLIP text2image) | NN, Diffusion
▫️unCLIP 64x64| UNet, Diffusion
▫️64x64 > 256x256| UNet, Diffusion
▫️256x256 > 1024x1024| UNet, Diffusion

Для работы модуляра DALL•E 2 необходимы все 6 модулей, которые, могут независимо решать множество задач, от классификации до суперрезолюшена.

Модулярами никого не удивишь:

▫️CLIP: Text & Visual Towers
▫️Parti: Transformer & VIT-VQGAN
▫️Imagen: T5, 64pix UNet, 64>256 E-Unet & 256>1024 E-Unet

Модуляр — нейронная архитектура, состоящая из модулей. Каждый модуль — нейронная сеть, способная решать независимую задчачу. Модули могут тренироваться совместно (CLIP), последовательно (DALL•E: VQVAE > GPT), и независимо.

Современные архитектуры напоминают конструкторы: сети строят из слоев и блоков, а модуляры из нейронных сетей.

@мишин_лернинг
23🔥11👎5👍2🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
👾Мир иллюстраторов и аниматоров никогда не будет прежним

Скажем вместе:
спасибо тебе, диффузия! Кстати делать анимации, используя DALL•E 2 в режиме инпэинтинга становится новым трендом.

Правда пока это не полноценная Text2Video диффузия, но благодаря инпэинтингу уже можно делать разные движения, зумы и повороты, постепенно генерируя новую и новую область.

Но даже эта возможность открывает DALL•E 2 двери в анимацию, и выгодно отличает ее от Imagen, который из коробки не имеет Image Inpainting файнтюна. Но архитектурных ограничений у Imagen нет, так что все возможно.

Посмотрим что ждет нас впереди. Полноценный Text2Video Diffusion уровня DALL•E 2 не за горами.

@
mishin_learning
25🔥13👎1
Forwarded from эйай ньюз
Мы все тут очень следим за похождениями Иана Хорошего Паренька. Так вот после ухода из Эпле он перешёл в DeepMind и будет работать с другим топовым ресерчером – Ориолом Виньялсом.

@ai_newz
👍34👎1
🤖👄 Ни один язык не останется без внимания — машинный перевод на 200 языков❗️от MetaAI, который мы заслужили

Ни один язык не останется без внимания — так называется пейпер и новый подход от MetaAI. No Language Left Behind или сокращенно NLLB.

Основные поинты:
▫️ SOTA Машинного перевода на 200 языков!
▫️ Основная MoE модель — 54.5B
▫️ Dense модели — 3.3B и 1.3B
▫️ Distilled Dense модели — 1.3B и 600M

Цель исследования — качественный автоматический машинный перевод + охват для себя (Instagram & Facebook) и для мира — все в опенсорс!

Кроме самих моделей MetaAI опенсорснули:
- Код трейна/инференса моделей
- Код дистилляции моделей
- Код файнтюна моделей ❤️

Последнее вообще топ, так как можно малыми усилиями получить кастомный машинный переводчик под свой домен и нужные языки!

p.s.: в пейпере очень много полезных идей: от пайплайна обучения, регуляризации и дистилляции до тех. деталей типа сравнения MoE Expert Output Masking с Gating Dropout, для NLPшников — маст хэв!

📄 paper 💻 code

@mishin_leaning
🔥54👍5👎1
🍑 Чей пукан бомбит умная JEPA ЛеКуна?

Правильно, дети, порвало пукан у Jürgen Schmidhuber. Никто не сомневался, он все придумал в 1997 и 1991 годах одновременно, и не может понять, почему все этого не видят!??

Почему не понимают, что он Jürgen SchmidhUberAllesInDerWelt не только LSTM, но и Transformer, ResNet и вообще весь ИИ?

Так же он пишет, что все что придумал ЛеКун он уже тоже придумал, и его JEPA ничем не хуже!

Он не забывает снова бомбануть на тему Тьюринг Award, которую дали ЛеКуну, а ему не дали, не дали - не дали. Хахахахахах.

Jurgen Schmidhuber (Chief Scientific Advisor в AIRI, дочка СБЕРа) последнее время често бомбит, что не получает должного внимания в ресерч комьюнити. Но своими писюльк.. блог-постами он добился лишь того, что вместо крутого ресерчера в сфере ИИ в головах людей, он ассоциируется разве что с ИИ-фриками.

Ну а почитать его высер можно тут 👉 https://people.idsia.ch/~juergen/lecun-rehash-1990-2022.html

p.s.: на скриншоте слева и справа — размер полотна..

@мишин лернинг
👎21👍9🔥5😢31
🎓 Как вы YOLO назовете или про МЛ-новости

Увидел в комментах интересное сообщение:

Да чет заебало эту поеботу читать, где нормальные новости? Какая то хуйня высер на высере, то один шизик чет спизданул пишите, то второй. Кому не похуй?

Я думаю, что околоML важная часть ML-дискурса, поэтому и освещаю все новости, а не только то, что вышел YOLO-7 до которого мне нет никакого дела..

DINO: DETR / SwinV2 / Florence-CoSwin — полезно с академ точки зрения и метрик. YOLO v5 — тем, что не надо быть мл гуру, чтобы быстро решить таску и затащить детектор в прод. И я знаю отличный пример такого прода 👍

Вышел YOLO-7 и вышел. Тут интереснее для меня феномен нейминга, чем выход очередного детекора. Движ с Yolo5 и 6. Пример с OpenAI, им не нравится что dalle-mini, ассоциируется с их DALL-E. И это одна из причин популярности dalle-mini, а не более качественных публичных аналогов DALL-E.

Вот такие вот НоРмальНЫЕ НоВОСТИ про ML.

Если вам нужен этот йола7 — держите:
📄 бумажка 💻 код и модели

@mishin_leaning
17👎14👍3
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Готовим к релизу на neural.love новую модельку для AI апскейла, только посмотрите какая магия.

Плохой нейминг – наша фишка, поэтому модель назвали Enhance 9000 🌚

В примере 256 px -> 1024 px
42👍8👎2
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
Сингулярность на пороге. Как ИИ проектирует GPU?

NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.

В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.

За наводку спасибо @j_links
🔥339👍6👎1
Forwarded from эйай ньюз
Image Inpainting: Partial Convolution vs Gated convolution

Продолжая рубрику #fundamentals,
поговорим о конволюциях, используемых в нейронных сетях для инпейнтинга. В модели для инпейнтинга изображений на вход обычно подается поврежденное изображение (с некоторыми замаскированными частями). Однако, мы не хотим, чтобы свёртки полагались на пустые области при вычислении фичей. У этой проблемы есть простое решение (Partial convolution) и более элегантное (Gated convolution).

🔻Partial Convolutions делают свертки зависимыми только от валидных пикселей. Они похожи на обычные свертки, где к каждой выходной feature-map применяется умножение на жесткую маску. Первая маска вычисляется непосредственно из покоцанного изображения или предоставляется пользователем в качестве входных данных. Маски для каждой следующей частичной свертки вычисляются путем нахождения ненулевых элементов в промежуточных feature-мапах.

- Для частичной свертки недопустимые пиксели будут постепенно исчезать в глубоких слоях, постепенно преобразовывая все значения маски в единицы.
- частичная свертка несовместима с дополнительным вводом пользователя. Однако мы хотели бы иметь возможность использовать дополнительные пользовательские инпуты для условной генерации (например, скетч внутри маски).
- Все каналы в каждом слое используют одну и ту же маску, что ограничивает гибкость. По сути, частичную свертку можно рассматривать как необучаемое одноканальное зануление фичей по маске.

🔻Gated convolutions. Вместо жесткой маски, обновляемой с помощью жестких правил, закрытые свертки автоматически учат soft маску из данных. Дополнительная конволюция берет входную feature-map и предсказывает соответствующую soft маску, которая применяется к выходу оригинальной свертки.

- Gated convolution может принимать любой дополнительный инпут пользователя (например, маску, эскиз) в качестве входных данных. Все они могут быть склеены с поврежденным изображением и скормлены в сеть.
- Gated convolution динамически учит механизм выбора признаков для каждого канала и каждого пространственного расположения.
- Интересно, что визуализация промежуточных значений предсказанных масок показывает, что gated convolution учится выбирать фичи не только по фону, маске, эскизу, но и с учетом семантической сегментации в некоторых каналах.
- Даже в глубоких слоях gated convolution учится выделять именно маскированные области и информацию о входном скетче в отдельных каналах, что позволяет более качественно генерировать восстановленную картинку.

@ai_newz
👍15👎1
Forwarded from эйай ньюз
Картинки к посту выше.

@ai_newz
👍11👎1
📸 DALL•E 2 уже используют профессиональные фотографы для «генеративной фотографии»!

Создать грамотную композицию, расставить объекты и свет, выставить кадр, обозначить акценты — сложная задача для фотопортрета. Но ещё более сложная — сама творческая идея. Зачем обязательно фотографировать, если можно фотографии генерить?

DALL•E 2 не очень хорошо генерит лица и глаза. Но Mathiue Stern предложил подход и же запилил туториал на YouTube:

- Описываем фотопортрет, описываем все что хотим: позу, окружение, свет, тип объектива, тип пленки, и т.д. Генерим, генерим, генерим.
- Выбираем интересные варианты, в основном ориентируемся на гармоничность снимка и удачную художественную идею. На лицо не смотрим. Если не нравятся результаты, правим описание в прошлом пункте.
- Часть картинки можно профиксить в режиме инпеинтинг.
- В фотошопе исправляем лица и глаза «направлением взгляда» в их нейронных фильтрах
- Делаем цветокор и прочую постобработку

В итоге получаем отличные кадры!

@мишин лернинг
🔥37👎13👍95