эйай ньюз
71.9K subscribers
1.56K photos
837 videos
7 files
1.89K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Несколько наиболее мне понравившихся генераций VQGAN+CLIP от меня и других подписчиков.

По порядку:
1. "Modern cubist painting"
2. "Polygonal fast food"
3. "Holy war against capitalism"
4. "Metro station moscow metro"
5. "Minecraft Starcraft"

Какая вам больше нравится?
Голосование за сгенеренные картинки в посте выше ↑.
Ушлые типы используют AI, чтобы находить новые музыкальные таланты

Интернет и социальные сети позволили музыкальным талантам проявиться таким образом, что раньше было невозможно — любой мамкин репер может загрузить трек на YouTube, SoundCloud или TikTok и начать собирать аудиторию. Для крупных звукозаписывающих компаний и скаутских агентств, которым необходимо выявлять тенденции и следующих звезд, этот поток контента трудно анализировать вручную. В последнее время для составления таких рекомендаций и выявления потенциальных талантов стали использоваться алгоритмы на базе искусственного интеллекта. Некоторые алгоритмы сосредотачиваются на самой музыке, анализируя саундтрек, чтобы увидеть, насколько хорошо он соответствует определенным жанрам, и прогнозируя, насколько он может быть популярен среди определенных групп аудитории. Другие алгоритмы фокусируются на контексте — сколько прослушиваний у трека на стриминговой платформе, насколько популярен профиль исполнителя в социальных сетях и т.д.

Применение аналитики для выбора талантов не ново, применение в спорте, например, было показано в фильме "Человек, который изменил всё". Однако, не все уверены, что принятие аналогичных решений на основе аналитики может оказать устойчивое влияние на музыку. Правила в спорте меняются редко, а тренды и направления в музыке и поп-культуре более динамичны и непредсказуемы.

В общем-то сейчас AI находится на стадии зародыша, и он может предсказывать только то, чему его научили. И понятно, что какой-нибудь новый, ранее неизвестный жанр музыки может быть воспринят неадекватно такой системой. Хотя в случае нового жанра, AI может попытаться сказать, что это что-то новенькое, непохожее на все известное, что тоже может являться полезным сигналом для музыкальных лейблов.
Вот это крутая вещь (пост снизу)! Представьте дальнейшее развитие этой технологии. Анализ ваших болячек с помощью AI и вывод всех неполадок на телефон, по аналогии с приборной панелью автомобиля, где горят лампочки, если что-то неисправно.
Сейчас подкину вам немного мяса. Боюсь, что поймут только те, кто владеет терминологией и немного знаком с Трансформерами (нет, не роботами).
​​DeepMind опубликовал статью, где они представляют новую архитектуру - Perceiver.
Главная идея и мотивация — учиться на данных любой модальности (картинки, аудио, видео, точки, и т.д.) без использования каких-либо предположений о структуре этих данных знаний, таких как, например, локально гладкая 2D-структура картинок, которая повсеместно эксплойтится конволюционными нейронными сетями.

Предлагаемая модель Perceiver — это хитрый трансформер, который имеет несколько преимуществ перед существующими архитектурами:

➞ 1) Он может работать со входными последовательностями огромной длины (> 100k входов). Это достигается за счет использования Cross Atention блока, который принимает входные данные как ключи (K) и как значения (V), а вместо запросов (Q) использует гораздо меньшее число (512, если быть точным) скрытых векторов. Интуитивно это можно представить как этакий ботлнек на основе self-attention. На вход N векторов (где N может быть очень большим), а на выходе получаем ровно 512 (что является гиперпараметром).

➞ 2) Из-за описанного выше Cross Atention блока, который выступает в роли ботлнека, мы можем сделать Perceiver очень глубоким. Все потому что каждый последующий self-attention блок будет работать со входами длины 512, а не N. Поэтому даже квадратичная по сложности от длины входа наивная реализация self-attention'а будет быстро работать и не будет выжирать всю память.

➞ 3) Архитектура не опирается ни на какие структурные предположения о данных. Она настолько универсальная, что может применяться к различным модальностям почти без изменений (если не считать positional encoding). Можно запускать на картинках - Perciever бьет базовый ViT-B, хотя вообще не содержит ни одной конволюции и на вход берет тупо 50 тыщ пикселей (для картинки 224x224). Также Perciever отлично работает на аудио, видео, на комбинации аудио+видео, и на облаках 3D точек.

Сама статья довольно хорошо написана, можете в ней почитать подробности.
This media is not supported in your browser
VIEW IN TELEGRAM
Люди могут относительно легко ходить по различным поверхностям. Например, по камням, по грязи, по толстым коврам, и т.д.. Мы можем делать это с уставшими мышцами, а также неся любые предметы. Для этого мы постоянно почти мгновенно приспосабливаемся к изменяющимся условиям в нашем теле и под ногами.

Чтобы добиться такого же успеха в реальном мире, шагающие роботы также должны адаптироваться к любым поверхностям, с которыми они сталкиваются, с какими бы предметами они ни были и в каких бы условиях они ни находились — даже если они никогда раньше не подвергались воздействию этих условий во время тренировки. И, чтобы избежать падения и потенциального повреждения, такая подстройка должна происходить за доли секунды.

Ученые из Facebook AI & co сделали очередной прорыв в области искусственного интеллекта. Они представили Rapid Motor Adaptation (RMA) - алгоритм, который позволяет роботам с ногами разумно адаптироваться в реальном времени к сложной, незнакомой местности и обстоятельствам.

Продолжение ниже ↓
Rapid Motor Adaptation (RMA) - это end-to-end система, основанная на Reinforcement Learning, которая тренируется в симуляции и выдает напрямую положение суставов, не полагаясь на заранее заданные шаблоны движения ног или другие примитивы управления [как это, например, сейчас работает у Boston Dynamics, насколько мне известно].

С RMA робот демонстрирует способности, фундаментальные для всех интеллектуальных агентов, - способность адаптироваться к факторам окружающей среды, таким как вес рюкзака, внезапно брошенного на него, или количество трения на новой поверхности, независимо от каких-либо визуальных входов вообще. Смотрим видео!

Подробнее можно почитать тут.
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжается бум и увеличение качества нейросетевых картинок и роликов, сгенерированных по текстовому описанию с помощью связки сетей типа VQGAN+CLIP. Ролик выше я нашёл сегодня в твиттере, а по делу рекомендую почитать свежий пост в ML блоге университета Беркли (да и весь блог хороший, чего уж там) — в посте этом формулируется красивая мысль, что мы тут наблюдаем формирование новой демосцены.

Или почитайте научную статью про поиск следов путешественников во времени в интернете и посмотрите видео из древней компьютерной игры, которую делал Тимоти Лири.
Блог Lilian Weng (ресерчер из OpenAI) - один из моих любимых технических блогов. У нее очень емкие статьи-обзоры по различными темам в области AI.

Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.

Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.

#ликбез
@ai_newz
Кроме того, у Lilian Weng есть целая серия крутых постов о генеративных моделях:
- Про Generative Adversarial Netowrks (GANs)
- Про Aunoencoders & Variational Autoencoders (VAE)
- Про модели основанные на Normalizing Flows

В закладки!

#ликбез
@ai_newz
Media is too big
VIEW IN TELEGRAM
А вот и совсем свежая статья от Googe Brain, которая использует диффузионные модели для супер-резолюшена.

Результаты — просто шок! Их модель бьет SOTA метод основанный на GAN-ах. На видео видим пример того, как картинка 64x64 апскейлится в 1024x1024.

https://iterative-refinement.github.io/
​​Белки необходимы для жизни, и понимание их структуры может облегчить понимание их функций и принципов работы в организме. Осенью прошлого года компания DeepMind совершила очередной прорыв. Они представили AlphFold - нейронку для прогнозирования трехмерной структуры белка по последовательности аминокислот.

Задачу прогнозирования трехмерной структуры белка безуспешно пытались решить на протяжении более 50 лет, и AlphFold позволила ученым быстро получать результаты довольно близкие к уровню точности, который достижим в реальных физических экспериментах. AlphFold — это первый вычислительный метод, который может предсказывать структуры белка с атомарной точностью, даже если эта структура (либо подобная) не была известна ранее.

Сегодня DeepMind опубликовал слегка улучшенную версию AlphaFold в элитном журнале Nature и весь исходный код модели на GitHub (!). Приятный бонус — это 62-страничный доп. материал к статье, который подробно описывает все детали пайплайна с примерами в виде псевдо-кода. Теперь можно зарыться на выходные и реально изучить всю подноготную!

Исходный код | Статья в Nature - Highly accurate protein structure prediction with AlphaFold
Forwarded from Denis Sexy IT 🤖
Сделал реалистичную версию Барби, штож, такой себе ее и представлял.

Сделал по ссылке: neural.love/portraits (и немного фотошопа)

Мы кстати ускорили раз в 100 этот сервис, но ввели подписку за 249р в месяц и лимит на 3 бесплатные генерации портрета, так как сервер с GPU стоит дороговато и нужно окупать 🥲

Сейчас работаем над тем чтобы повысить точность реализма генерации портрета, чтобы как тут было примерно, напишу как будет чем похвастать
OpenAI распускает свою команду, которая занималась исследованиями связанными с робототехникой. Это как раз та команда, которая, например, обучила роботическую руку собирать кубик Рубика с помощью реинфорсмент лернинга. Такое решение было принято, потому что компания считает более перспективными исследования в областях, где не нужно физическое оборудование (кроме серверов, конечно), и уже есть много доступных данных. А так же из экономических соображений, так как производство софта и сервисов — это бизнес с гораздо более высокой маржой. Да, хохма в том, что некоммерческая организация OpenAI все больше и больше задумывается о прибыли. Это можно понять, ведь для создания общего искусственного интеллекта (AGI), способного изучить все задачи, которые умеет делать человек и даже больше, нужно много денег.

Ни для кого не секрет, что также и исследования в области робототехники — очень затратная деятельность, требующая больших инвестиций. Поэтому компаний, занимающихся этим, не так много. Из крупных и успешных на ум приходит только Boston Dynamics, которая здорово походила по рукам. Знали ли вы, что в 2013 Google купил Boston Dynamics, затем Google тоже свернул свою программу с роботами и в 2017 продал Boston Dynamic японской фирме SoftBank. На этом приключения Boston Dynamics не закончились, и в декабре 2020 SoftBank перепродал 80% акций (контрольный пакет) автопроизводителю Hyundai. Выглядит эта пляска как-то неладно, как будто каждая компания через несколько лет понимает, что на роботах из Boston Dynamics пока трудно заработать и перепродаёт её другому лопуху.

В любом случае, очень интересно наблюдать за тем, какие фокусные направления выбирают титаны исследований в области AI. Но мне немного жаль, что роботы пока плетутся в арьергарде этих исследований.
Новости из мира нейроинтерфейсов (Brain-computer interfaces). Facebook Reality Labs совместно с Университетом Сан-Франциско впервые продемонстрировали, что лишенный речи (парализованный) человек может почти мгновенно передать свои слова, только лишь подумав о том, как он их говорит.

Обошлось не без ограничений. Прибор на голове регистрирует нейронную активность мозга и декодирует ее в слова. Сам прибор — это электрод, имплантированный в череп (да, типа того, что Илон Маск продвигает). Набор распознаваемых слов ограничен — их всего 50, но их них можно составить более тысячи предложений. Точность декодирования 74%, а скорость 15 слов в минуту, что довольно неплохо.

Это первый в своем роде эксперимент, когда активность нейронов коры головного мозга парализованного человека была декодирована в полные слова. До этого похожие эксперименты работали только на человеке, который действительно вслух произносил слова (то есть он не был парализован).
​​Ученые из Toyota Research Institute научили роботов делать базовые домашние дела.

В чем сок?
Модель которая позволяет роботу видеть и понимать пространство обучена сугубо на синтетических данных. А сам робот не имеет никаких depth-камер или лидаров. В голове робота только пара обычных камер.

Почему это интересно?
У каждого в квартире есть множество прозрачных, или зеркальных предметов. Традиционные RGB-D камеры очень плохо работают с такими объектами из-за того, что ИК-излучение, спощьзуемое в depth-камерах, проходит сквозь такие предметы либо отражается от них. Поэтому было важно найти способ работать с любыми предметами, независимо от их текстуры. Геометрия объекта тут первостепенна.

Детали
Робота протестировали на четырех домашних интерьерах. С новым бинокулярным "зрением" он может успешно хватать сложные объекты в 95% случаев, тогда как модель с RGB-D сенсором успешна только в 35% случаев. Сама модель (см картинку ниже) берет на вход кадры с левой и правой камеры и пропускает через Feature Pyramid Network (FPN), на выходе выдавая: 1) сегментационные маски, 2) ориентированные 3D bounding box-ы объектов, 3) ключевые точки объектов, и 4) disparity map, которая дает представление о глубине сцены. Затем, используя такое разложение сцены, другой модуль решает, как удобнее всего схватить объект.

Есть код для обучения модели.
Подробнее в блог-посте от авторов.
Архитектура модели, позволяющая роботу (из поста выше) видеть.
Ну, наконец-то! Такого робота-уборщика нужно пустить в России на пляжах Сочи и Туапсе. Офигенная идея с тем, что обычные люди фоткают мусор (убирать-то лень, а фоткать нет) и тем самым пополняют тренировочную выборку робота.