эйай ньюз
72.7K subscribers
1.6K photos
858 videos
7 files
1.92K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.

Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.

Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.

Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте

@ai_newz
Эта детка получает слишком много внимания

@ai_newz
Наткнулся на любопытную статью с MICCAI 2021 (это крупнейшая конференция по AI в медицине). Оказывается, нейросеть довольно точно (ошибка 4-6 лет, в зависимости от датасета) может предсказать возраст пациента по рентгеновскому снимку кисти.

@ai_newz
После провала с Google Glass, Гугел, видя хайп вокруг VR/AR, решил опять попробовать заскочить в этот поезд. Они объявили о том, что работают над новым прототипом AR-очков.

Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.

На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"
#чтивонаночь

Bf16 или fp16 здорового человека

Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.

FP32
Использует 8 знаков на экспоненту , 23 на мантиссу

FP16
Использует 5 знаков на экспоненту, 10 на мантиссу

BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу

Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)

- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой

- Просто делай torch.bfloat16 каждое утро и видеопамять болеть не будет

- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше

клёвая статья на медиум

Дока Nvidia про тоже самое, но с графиками и более техническое
Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.

Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.

И качество картинки поразительное. Обалденно!

Нейросети прогрессируют у нас на глазах.

@ai_newz
Решил освежить свои знания по multiple-view geometry. Очень хотел посмотреть курс от Стэнфорда CS231A: Computer Vision, From 3D Reconstruction to Recognition, долго искал лекции по всем торрентам, даже на китайски били-били заглянул. Ничего не нашел (поделитесь если у вас вдруг есть).

В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.

У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
PyMAF-X – это очередная СОТАчка от китайцев по 3d реконструкции меши и позы человека по монокулярному видео. Тут даже руки прикрутили. Но пайплайн просто адский, как и обычно впрочем. Кода пока нет.

@ai_newz
У нетфликса вышел документальный мини-сериал про грядущий киберпанк, эйай и новые технологии. В одной из серий, когда говорят про 3д аватары, даже фигурирует стартап моего товарища Димы Ульянова, in3d.io.

Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
📣 𝐌𝐨𝐛𝐢𝐥𝐞𝐍𝐞𝐑𝐅: exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures

Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!

Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!

Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.

❱❱ Статья

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Нипс 2022 be like*.

Считаю, что нужно для каждой конфы такое сделать. Неизменно будет только одно - ролик со Шмидхубером. Ещё бы кто приправил менее толерантными шутками.

*Для нубов. Это крупнейшая конференции по AI и нейронным сетям в мире.

@ai_newz
Ну кайф же! Многие хотели поиграть на фортепиано вживую, но не у всех есть усидчивость учиться с очень пологой learning curve, когда ты играешь как имбецил первые несколько месяцев.

Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.

О, этот дивный новый мир!

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OWL-ViT by GoogleAI

Давно не говорили о детекции, друзья.

Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.

По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.

Внизу схема архитектуры и минимальный код для инференса.

@ai_newz
Архитектура OWL-ViT и минимальный код для запуска инференса модели с предобученыии весами.

📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут статейка вышла: 3D реконструкция по дизайнерским скетчам. Интересные результаты, местами выглядит как магия из Гарри Поттера.

После беглого осмотра статьи и кода становится понятно, что в методе нет никаких нейронок. Кажется, все работает на дифф-геометрии и оптимизации (целочисленное программирование).

❱❱ Сайт проекта
❱❱ Код

@ai_newz
Привет, мои ботаники! Новая рубрика: "Минутка ликбеза".

Вообще никто:

Я: вот вам список с тысячами страниц текста и десятки часов лекции про Диффузионные Моделиhttps://github.com/heejkoo/Awesome-Diffusion-Models

@ai_newz
Media is too big
VIEW IN TELEGRAM
Нвидиа порадовала крутой статьей (SIGGRAPH 2022). Тут сетки учатся реалистично и эффективно управлять мечником, что довольно нелегкая задача. Чтобы умело махать мечом и щитом нужно очень хорошо владеть своим телом. И это решается с помощью Imitation Learning и RL (подробности в посте ниже).

Чтобы быть в тренде, также прикрутили текстовые промпты. Можно написать "делай сальто назад и в полете бей мечом", и персонаж повинуется.

Ух, какие реалистичные игры нас скоро ожидают!

Видео со звуком 🔉.
Советую посмотреть еще полное видео (8 м) с описанием метода, очень интересно!

❱❱ Сайт проекта

@ai_newz