эйай ньюз – Telegram

эйай ньюз

72.7K subscribers

1.6K photos

858 videos

7 files

1.92K links

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow

Download Telegram

About

Blog

Apps

Platform

эйай ньюз

72.7K subscribers

эйай ньюз

Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.

Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.

Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.

Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте

@ai_newz

10.2K views11:44

эйай ньюз

Эта детка получает слишком много внимания

@ai_newz

11.4K views19:06

эйай ньюз

Наткнулся на любопытную статью с MICCAI 2021 (это крупнейшая конференция по AI в медицине). Оказывается, нейросеть довольно точно (ошибка 4-6 лет, в зависимости от датасета) может предсказать возраст пациента по рентгеновскому снимку кисти.

@ai_newz

10.1K views18:08

эйай ньюз

После провала с Google Glass, Гугел, видя хайп вокруг VR/AR, решил опять попробовать заскочить в этот поезд. Они объявили о том, что работают над новым прототипом AR-очков.

Прототип будет оснащен дисплеями, встроенными в линзы, микрофонами и камерами. Но гугл клянется, что на камеры и микрофоны будут наложены жэстачайшие ограничения. Например, фото- и видеосъемка будет заблокирована, хотя данные с камер будут использоваться для включения таких функций, как перевод меню перед вами или указание направления к ближайшей кофейне. Вообще, я считаю, в современном мире очень сложно контролировать, куда твои данные текут и как используются, остается только доверять и надеяться, что регуляторы будут это проверять, выявляя нарушения. Я, кстати, поэтому и не пользуюсь никакими голосовыми помощниками.

На видео — пример того, как компания планирует встроить гугл- транслейт в свои новые очки. При разговоре с иностранцем, очки будут выводить на экран субтитры на твоем родном языке. Что довольно круто все-таки. "Стираем языковые барьеры!"

Breaking down language barriers with augmented reality | Google

Augmented reality allows us to spend more time focusing on what matters in the real world, in our real lives. It can break down communication barriers — and help us better understand each other by making language visible. Watch what happens when we bring…

9.2K viewsedited 13:27

эйай ньюз

Forwarded from Love. Death. Transformers.

#чтивонаночь

Bf16 или fp16 здорового человека

Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.

FP32
Использует 8 знаков на экспоненту , 23 на мантиссу

FP16
Использует 5 знаков на экспоненту, 10 на мантиссу

BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу

Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)

- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой

- Просто делай torch.bfloat16 каждое утро и видеопамять болеть не будет

- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше

клёвая статья на медиум

Дока Nvidia про тоже самое, но с графиками и более техническое

FP64, FP32, FP16, BFLOAT16, TF32, and other members of the ZOO

There are many floating point formats you can hear about in the context of deep learning. Here is a summary of what are they about and…

8.5K views21:43

эйай ньюз

Хорошие новости падения крипты в том, что видеокарты действительно существенно подешевели за последние несколько месяцев. Еще это, возможно, связано с тем, что производители электроники, в ожидании кризиса полупроводников, забили под завязку свои склады.

Например, цена на GeForce RTX 3090 упала в два раза со времен пика (теперь она продается за 1100-1200 фунтов), а RTX 3070 подешевела вообще почти в 3 раза.

@ai_newz

9.9K views13:59

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Тут челик в твиттере сделал просто божественный ролик с помощью DALLE-2. Делая интерполяцию и последовательно подавая 57 текстовых запросов в нейросеть, он производит зум-аут от масштаба протонов, до масштаба галактики.

И качество картинки поразительное. Обалденно!

Нейросети прогрессируют у нас на глазах.

@ai_newz

36.8K views12:50

эйай ньюз

Решил освежить свои знания по multiple-view geometry. Очень хотел посмотреть курс от Стэнфорда CS231A: Computer Vision, From 3D Reconstruction to Recognition, долго искал лекции по всем торрентам, даже на китайски били-били заглянул. Ничего не нашел (поделитесь если у вас вдруг есть).

В итоге смотрю набор коротеньких лекций "Camera Calibration | Uncalibrated Stereo" от челика из Columbia University. Каждая лекция от 5 до 15 минут, коротко и по делу, как раз чтобы освежить в памяти.

У него целый канал по основам классического компьютерного зрения. Уверен, кому-то из подписчиков пригодится.

@ai_newz

14.1K views10:01

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

PyMAF-X – это очередная СОТАчка от китайцев по 3d реконструкции меши и позы человека по монокулярному видео. Тут даже руки прикрутили. Но пайплайн просто адский, как и обычно впрочем. Кода пока нет.

@ai_newz

11.6K views16:57

эйай ньюз

У нетфликса вышел документальный мини-сериал про грядущий киберпанк, эйай и новые технологии. В одной из серий, когда говорят про 3д аватары, даже фигурирует стартап моего товарища Димы Ульянова, in3d.io.

Сорри за пиар нетфликса, знаю, что сейчас снимают много мусора. Но бывают и норм выпуски. В общем, если есть нетфликс, можете глянуть на выходных.

@ai_newz

Watch The Future Of | Netflix Official Site

With the help of industry experts, this innovative docuseries examines new and emerging technological trends to imagine revolutionary possibilities.

14.5K views18:30

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

📣 𝐌𝐨𝐛𝐢𝐥𝐞𝐍𝐞𝐑𝐅: exploiting the polygon rasterization pipeline for efficient neural field rendering on mobile architectures

Ух, бля! Гугел удивил новым методом "запекания" нерфа. Новые риал-тайм приложения для мобильных устройств - Unlocked!

Даже у меня на стареньком Pixel 3 рендерит со скоростью 15fps.
На сайте проекта сами можете открыть лайв демо у себя на телефоне. Это прям крууто!

Основная идея в том, чтобы запечь нерф в виде традиционной для пайплайнов компьютерной графики текстурированной меши и использовать все наработки старичков из CG для ускорения. Изюминка – тесктура кодирует не цвет, а нейронные фичи, и во время рендеринга шейдер с маленькой нейронной сетью быстро конвертирует каждый пиксель в цвет и прозрачность. Молниеносно быстро.

❱❱ Статья

@ai_newz

35.6K views11:42

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Нипс 2022 be like*.

Считаю, что нужно для каждой конфы такое сделать. Неизменно будет только одно - ролик со Шмидхубером. Ещё бы кто приправил менее толерантными шутками.

*Для нубов. Это крупнейшая конференции по AI и нейронным сетям в мире.

@ai_newz

11.9K viewsedited 10:08

эйай ньюз

Ну кайф же! Многие хотели поиграть на фортепиано вживую, но не у всех есть усидчивость учиться с очень пологой learning curve, когда ты играешь как имбецил первые несколько месяцев.

Казалось бы идея для AR игры на поверхности. И вот, наконец сделали. Тебе через passthrough подсвечивают куда ляпать пальцами, и вот ты уже с ходу не хуже Моцарта лол.

О, этот дивный новый мир!

@ai_newz

Ладно, дополненная реальность не настолько убогая и бесполезная хуита, как я всегда писал.

PianoVision научит вас играть на пианино поможет вам думать, что вы умеете играть на пианино. Нужны только две веши: собственно пианино и VR-шлем (знаю точно, что…

11.4K viewsedited 09:16

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

OWL-ViT by GoogleAI

Давно не говорили о детекции, друзья.

Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.

По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.

Внизу схема архитектуры и минимальный код для инференса.

@ai_newz

13.3K viewsedited 19:54

эйай ньюз

Архитектура OWL-ViT и минимальный код для запуска инференса модели с предобученыии весами.

📋Документация: https://huggingface.co/docs/transformers/model_doc/owlvit

@ai_newz

11.2K views19:54

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Тут статейка вышла: 3D реконструкция по дизайнерским скетчам. Интересные результаты, местами выглядит как магия из Гарри Поттера.

После беглого осмотра статьи и кода становится понятно, что в методе нет никаких нейронок. Кажется, все работает на дифф-геометрии и оптимизации (целочисленное программирование).

❱❱ Сайт проекта
❱❱ Код

@ai_newz

11.6K viewsedited 13:09

эйай ньюз

Привет, мои ботаники! Новая рубрика: "Минутка ликбеза".

Вообще никто:

Я: вот вам список с тысячами страниц текста и десятки часов лекции про Диффузионные Модели — https://github.com/heejkoo/Awesome-Diffusion-Models

@ai_newz

10.4K views15:25

эйай ньюз

Media is too big

VIEW IN TELEGRAM

Нвидиа порадовала крутой статьей (SIGGRAPH 2022). Тут сетки учатся реалистично и эффективно управлять мечником, что довольно нелегкая задача. Чтобы умело махать мечом и щитом нужно очень хорошо владеть своим телом. И это решается с помощью Imitation Learning и RL (подробности в посте ниже).

Чтобы быть в тренде, также прикрутили текстовые промпты. Можно написать "делай сальто назад и в полете бей мечом", и персонаж повинуется.

Ух, какие реалистичные игры нас скоро ожидают!

Видео со звуком 🔉.
Советую посмотреть еще полное видео (8 м) с описанием метода, очень интересно!

❱❱ Сайт проекта

@ai_newz

11.5K viewsedited 13:00