эйай ньюз
71.9K subscribers
1.56K photos
837 videos
7 files
1.89K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Начался второй сезон AI подкаста от Питера Абеля!

В первом эпизоде второго сезона Абель пригласил светило из мира обучения с подкреплением – профессора Сергея Левина из Беркли.

У Лёхи Фридмана тоже есть выпуск с Левиным, о котором я упоминал в своем англоязычном канале ранее. Советую послушать.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn)
This media is not supported in your browser
VIEW IN TELEGRAM
Нвидия Канвас (в девичестве Гоген) обновился до версии 1.1.
И там уже появились первые признаки (очень первичные) pipeline ready инструмента.
В 4 раза большее разрешение, новая ИИ модель с улучшенным качеством и минимизацией артефактов.
И там появился экспорт в Фотошоп!
Где все ваши безумные мазки раскиданы по слоям.
В общем ИИ настойчиво рекомендует "spend more time visualizing ideas" или "ИИ все дорисует за вас".
Пробуем тут: https://www.nvidia.com/en-us/studio/canvas/
Trnio – аппка для 3D сканирования

Приложение выдаёт довольно чистые 3D сканы сцен и объектов, в отличие от других приложений, которые я видел. Используют ARKit и данные с яблочного лидара. Вычисления делают в облаке, а не на телефоне. Так что, возможно, если хорошенько навалиться, то приложение может и не выдержать;)

Из минусов, апп немного лажает на объектах с отражением. Что в принципе понятно, потому что лидар не может верно определить глубину на зеркальных поверхностях.

Сайт проекта
ConvNeXt: Конволюционная сеть нового поколения наносит удар по Трансформерам

Очень хорошая работа от FAIR и BAIR (Беркли), показывающая, что при правильном сочетании методов ConvNets лучше, чем Трансформеры для зрения.
Нужно только сделать сверточную сетку по-жирнее.

Вот несколько основных трюков: более крупные кернелы, layer norm, жирный слой внутри Res-блоков, ....
Итого, получаем 87,1% топ-1 точности на ImageNet-1k, что бьет все трансформеры.

Конечно, это не значит, что про трансформеры можно забыть. Они очень даже полезны в других задачах. Например, для end-to-end детекции учень удачна архитектуры DETR, где первые слои содержат конволюции, а затем следуют self-attention блоки, которые смотрят на все фото целиком, и могут детектировать множество объектов, не зависимо от их порядка, за один прогон.

>> Код и веса есть на гитхабе >> Статья
Google ускоряет методы секвенирования генома для лучшего понимания и лечения болезней

Секвенирование генома может помочь нам лучше понять, диагностировать и лечить болезни. Например, поставщики медицинских услуг все чаще используют секвенирование генома для диагностики редких генетических заболеваний, таких как повышенный риск рака молочной железы или легочной артериальной гипертензии, которые, по оценкам, затрагивают примерно 8% населения.

В Google Health разрабатывают ML методы для ускорения выявления генетических заболеваний. Недавно Google заключил новое партнерство с компанией Pacific Biosciences для дальнейшего продвижения геномных технологий в исследованиях и клинической работе.

Почему это важно?
Генетические заболевания могут вызывать критические состояния, и во многих случаях своевременное выявление проблемы может позволить принять меры по спасению жизни. Особенно это касается новорожденных. Генетические или врожденные болезни влияют почти на 6% рождений, но клинические тесты секвенирования для выявления этих болезней обычно занимают дни или недели. Поэтому так важно придумать методы для быстрого секвенирования генома.

Подробнее о работе гугла в области геномики читайте по ссылке.
Normalizing Flows - что это?

Если грубо, то Normalizing Flow - это такая модель, которая с помощью серии обратимых трансформаций переводит одно распределение в другое. При этом такой маппинг полностью обратим и работает в обе стороны. Таким образом можно получить маппинг из нормального распределения в любое другое сложное распространение.

Если вы когда-нибудь хотели разобраться получше в том, что такое Normalizing Flows, то вот вам хорошая подборка ресурсов про них.
A Goose of Eternal Dread (Гусь бесконечного страха)

Ух! Эффектно выглядит!

Алгоритм: Clip Guided Diffusion
Автор: @danielrussruss
This media is not supported in your browser
VIEW IN TELEGRAM
18 месяцев назад: "Обучение NeRF занимает 5 часов..."
2 месяца назад: «Обучение NeRF занимает 5 минут!»
Вчера: «Обучение NeRF занимает 5 секунд!!??»


Умелые инженеры из NVIDIA поженили мульти-скейл хеш таблицу, реализованную на CUDA, с методом NeRF.
Результат: трейн занимает несколько секунд, рендеринг новой сцены делают за десятки миллисекунд в разрешении 1920x1080 🤯.

Конечно, не все так просто. Препроцессинг требует получить позиции камер, используя SfM алгоритмы, например COLMAP, ну а это требует побольше чем пару секунд времени.

Сцена на видео выше тоже довольно громоздкая и тренировка метода заняла несколько минут.

Статья "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
>> Pdf >> Project page >> Code
Forwarded from AbstractDL
Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео
Научиться программированию сегодня может любой желающий — новые IT-курсы появляются чуть ли ни ежедневно. Голосуйте за проекты, о которых уже слышали, и делитесь своим мнением про них в комментариях.
Anonymous Poll
22%
Нетология
30%
Geekbrains
32%
Skillbox
37%
Яндекс.Практикум
20%
Академия Яндекса
24%
SkillFactory
15%
Тинькофф Образование (Тинькофф Финтех, Тинькофф Академия)
7%
Сбер образование
5%
Skypro
41%
Другое
Ресерчеры из Meta AI масштабировали разреженные языковые модели до 1.1 триллиона параметров. Причем сделали это эффективно и показали, что они требует в 4 раза меньше ресурсов чем сравнимые по точности плотные (dense) модели.

Подробнее в статье Efficient Large Scale Language Modeling with Mixtures of Experts.
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
💃 HomeStylist v.1.0 🕺

Сегодня выкатили нейросеть, которая может не только менять позу, но и переодевать человека на фотографии. Код есть, а Колаба небыло. Я исправил это недоразумение. Сделал его удобным на столько, на сколько это вообще возможно, ибо чтобы завести эту нейросеть пришлось клонировать еще парочку, но оно того стоило. Качество синтезированного изображения на высоте. Разрешение, конечно, 512 по большей стороне, но те, кому нужно, прогонят дополнительно через какой-нибудь апскейлер.

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/HomeStylist.ipynb
Сбер выложил в открытый доступ увеличенные версии ruCLIP — моделей, которые умеют вычислять «смысловую» близость любого изображения и текста на русском языке. С помощью этих моделей можно классификации новые изображение из ранее невиданых классов без обучения (zero-shot). ruCLIP модели даже превосходят в качестве оригинальной английский CLIP от OpenAI вместе с русско-английским переводчиком на большинстве тестовых датасетов.

Все модельки обучались на 240 млн пар изображение-текст на русском языке на внутреннем датасете от Сбера.

>> Код и веса моделей есть на гитхабе.
This media is not supported in your browser
VIEW IN TELEGRAM
Explaining in Style: Training a GAN to explain a classifier in StyleSpace
Google Research

Статейка, где ученые прикрутили к StyleGAN2 классификатор и заставляют StyleGAN2 генерить картинки в зависимости от заданных лейблов (тогда как оригинальный StyleGAN2 генерит картинки из случайных классов). По факту сделали conditional генерацию (что не ново само по себе, но для StyleGAN2 такого пока никто не публиковал).

Кроме того, авторы представили метод, который автоматиччески находит размерности в стилевом векторе W, которые отвечают за признаки присущие объектам определенного класса. То есть теперь можно подвигать ползунок и поменять фото кота так, чтобы он стал больше похож на собаку.

>> Код >> Сайт проекта
Архитектура метода из статьи выше. Классификатор С предобучен заранее и его выходы (logits) конкатенируются к вектору W и скармливаются в энкодер.
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще пример работы метода на атрибутах для портрета человека. С волосами поганенько получилось 😅
Media is too big
VIEW IN TELEGRAM
Stitch it in Time: GAN-Based Facial Editing of Real Videos

Тут новая статейка вышла, где показывают очень качественное редактирование видео. Статья очень хорошо написана и содержит ссылки на важные работы в области редактирования фото и видео. Рекомендую к прочтению!

Метод коротко: берем натренированный на лицах StyleGAN2, затем вырезаем лица из видео и все сразу пропускаем через энкодер, который проецирует их в пространство StyleGAN. Энкодер переводит близкие кадры в похожие вектора (результат лучше чем при оптимизации каждого вектора отдельно). Далее генератор StyleGAN2 немного файнтюнится, чтобы повысить точность реконструкции на данном видео. После этого вектора смещаются в неком направлении (которое нужно найти заранее), например в котором появляется улыбка. Затем генератор еще раз файнтюнится так, чтобы не было видно переходов на границе, но сохраняя изменения лица (тут используют сегментационную маску). Вырезанные и измененные лица вставляются назад в видео. Вуа-ля!

>> Сайт проекта >> Код скоро