эйай ньюз

А вот и совсем свежая статья от Googe Brain, которая использует диффузионные модели для супер-резолюшена.

Результаты — просто шок! Их модель бьет SOTA метод основанный на GAN-ах. На видео видим пример того, как картинка 64x64 апскейлится в 1024x1024.

https://iterative-refinement.github.io/

16.6K views08:01

эйай ньюз

Белки необходимы для жизни, и понимание их структуры может облегчить понимание их функций и принципов работы в организме. Осенью прошлого года компания DeepMind совершила очередной прорыв. Они представили AlphFold - нейронку для прогнозирования трехмерной структуры белка по последовательности аминокислот.

Задачу прогнозирования трехмерной структуры белка безуспешно пытались решить на протяжении более 50 лет, и AlphFold позволила ученым быстро получать результаты довольно близкие к уровню точности, который достижим в реальных физических экспериментах. AlphFold — это первый вычислительный метод, который может предсказывать структуры белка с атомарной точностью, даже если эта структура (либо подобная) не была известна ранее.

Сегодня DeepMind опубликовал слегка улучшенную версию AlphaFold в элитном журнале Nature и весь исходный код модели на GitHub (!). Приятный бонус — это 62-страничный доп. материал к статье, который подробно описывает все детали пайплайна с примерами в виде псевдо-кода. Теперь можно зарыться на выходные и реально изучить всю подноготную!

Исходный код | Статья в Nature - Highly accurate protein structure prediction with AlphaFold

13.3K viewsedited 21:09

эйай ньюз

Forwarded from Denis Sexy IT 🤖

Сделал реалистичную версию Барби, штож, такой себе ее и представлял.

Сделал по ссылке: neural.love/portraits (и немного фотошопа)

Мы кстати ускорили раз в 100 этот сервис, но ввели подписку за 249р в месяц и лимит на 3 бесплатные генерации портрета, так как сервер с GPU стоит дороговато и нужно окупать 🥲

Сейчас работаем над тем чтобы повысить точность реализма генерации портрета, чтобы как тут было примерно, напишу как будет чем похвастать ✨

9.4K views17:36

эйай ньюз

OpenAI распускает свою команду, которая занималась исследованиями связанными с робототехникой. Это как раз та команда, которая, например, обучила роботическую руку собирать кубик Рубика с помощью реинфорсмент лернинга. Такое решение было принято, потому что компания считает более перспективными исследования в областях, где не нужно физическое оборудование (кроме серверов, конечно), и уже есть много доступных данных. А так же из экономических соображений, так как производство софта и сервисов — это бизнес с гораздо более высокой маржой. Да, хохма в том, что некоммерческая организация OpenAI все больше и больше задумывается о прибыли. Это можно понять, ведь для создания общего искусственного интеллекта (AGI), способного изучить все задачи, которые умеет делать человек и даже больше, нужно много денег.

Ни для кого не секрет, что также и исследования в области робототехники — очень затратная деятельность, требующая больших инвестиций. Поэтому компаний, занимающихся этим, не так много. Из крупных и успешных на ум приходит только Boston Dynamics, которая здорово походила по рукам. Знали ли вы, что в 2013 Google купил Boston Dynamics, затем Google тоже свернул свою программу с роботами и в 2017 продал Boston Dynamic японской фирме SoftBank. На этом приключения Boston Dynamics не закончились, и в декабре 2020 SoftBank перепродал 80% акций (контрольный пакет) автопроизводителю Hyundai. Выглядит эта пляска как-то неладно, как будто каждая компания через несколько лет понимает, что на роботах из Boston Dynamics пока трудно заработать и перепродаёт её другому лопуху.

В любом случае, очень интересно наблюдать за тем, какие фокусные направления выбирают титаны исследований в области AI. Но мне немного жаль, что роботы пока плетутся в арьергарде этих исследований.

VentureBeat

OpenAI disbands its robotics research team

OpenAI has disbanded its robotics team in what might be a reflection of economic and commercial realities.

13.4K viewsedited 12:10

эйай ньюз

Новости из мира нейроинтерфейсов (Brain-computer interfaces). Facebook Reality Labs совместно с Университетом Сан-Франциско впервые продемонстрировали, что лишенный речи (парализованный) человек может почти мгновенно передать свои слова, только лишь подумав о том, как он их говорит.

Обошлось не без ограничений. Прибор на голове регистрирует нейронную активность мозга и декодирует ее в слова. Сам прибор — это электрод, имплантированный в череп (да, типа того, что Илон Маск продвигает). Набор распознаваемых слов ограничен — их всего 50, но их них можно составить более тысячи предложений. Точность декодирования 74%, а скорость 15 слов в минуту, что довольно неплохо.

Это первый в своем роде эксперимент, когда активность нейронов коры головного мозга парализованного человека была декодирована в полные слова. До этого похожие эксперименты работали только на человеке, который действительно вслух произносил слова (то есть он не был парализован).

Tech at Meta

BCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces for restoring…

BCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces for restoring speech communicationBCI milestone: New research from UCSF with support from Facebook shows the potential of brain-computer interfaces…

25.6K views17:10

эйай ньюз

Ученые из Toyota Research Institute научили роботов делать базовые домашние дела.

В чем сок?
Модель которая позволяет роботу видеть и понимать пространство обучена сугубо на синтетических данных. А сам робот не имеет никаких depth-камер или лидаров. В голове робота только пара обычных камер.

Почему это интересно?
У каждого в квартире есть множество прозрачных, или зеркальных предметов. Традиционные RGB-D камеры очень плохо работают с такими объектами из-за того, что ИК-излучение, спощьзуемое в depth-камерах, проходит сквозь такие предметы либо отражается от них. Поэтому было важно найти способ работать с любыми предметами, независимо от их текстуры. Геометрия объекта тут первостепенна.

Детали
Робота протестировали на четырех домашних интерьерах. С новым бинокулярным "зрением" он может успешно хватать сложные объекты в 95% случаев, тогда как модель с RGB-D сенсором успешна только в 35% случаев. Сама модель (см картинку ниже) берет на вход кадры с левой и правой камеры и пропускает через Feature Pyramid Network (FPN), на выходе выдавая: 1) сегментационные маски, 2) ориентированные 3D bounding box-ы объектов, 3) ключевые точки объектов, и 4) disparity map, которая дает представление о глубине сцены. Затем, используя такое разложение сцены, другой модуль решает, как удобнее всего схватить объект.

Есть код для обучения модели.
Подробнее в блог-посте от авторов.

YouTube

Robo-Selfie - Adeptness at Complex Tasks in Home Environments

Today, Toyota Research Institute (TRI) unveiled new robotics capabilities aimed at solving complex tasks in home environments. Specifically, TRI roboticists were able to train robots to understand and operate in complicated situations that confuse most other…

10.0K views09:43

эйай ньюз

Архитектура модели, позволяющая роботу (из поста выше) видеть.

9.6K views09:43

эйай ньюз

Ну, наконец-то! Такого робота-уборщика нужно пустить в России на пляжах Сочи и Туапсе. Офигенная идея с тем, что обычные люди фоткают мусор (убирать-то лень, а фоткать нет) и тем самым пополняют тренировочную выборку робота.

0:55

Denis Sexy IT 🤖

В Гааге робот BeachBot собирает окурки с пляжа с помощью ИИ — до 30 штук за 10 минут.

Узнавать, как выглядит мусор, и отличать его от других предметов ему помогают пользователи, которые присылают фото через приложение Microsoft Trove за вознаграждение

…

10.8K views12:14

эйай ньюз

Google Research забабахал сетку, которая буквально парсит музыку. На вход подается запись виртуозной игры на фортепиано, и сетка выдает MIDI-последовательность, которая кодирует все ноты в данной композиции.

Цимес в том, что представленная сеть имеет очень простую архитектуру, в отличии предыдущих архитектур для этой задачи. В будущем возможно дальнейшее развитие представленной модели для других видов музыки и инструментов. И было бы здорово научить сетку декодировать абсолютно любую музыку. Больше не придется жадно подбирать аккорды под любимые хиты Моргенштерна или Филиппа Киркорова!

Код обещают скоро выложить.
Подробности в статье.

11.5K views15:04

эйай ньюз

Forwarded from Denis Sexy IT 🤖

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Как и обещал, делюсь колабом:
Вводите свой текст, и нажимаете Play слева подряд у пунктов.

В этот раз попробовал сделать "Полет сквозь Юпитер", это короткое видео генерировалось почти 1 час 30 минут.

Have fun:
https://colab.research.google.com/drive/13AuPTY-CSoZdCxWPZeNtV3iRHXs_9ZcB

P.S. Если вы программист, было бы клево получить больше разных эффектов при convert в zoom.sh, а не только повороты или зум

9.0K views14:14

эйай ньюз

Яндекс устраивает свое соревнование по предсказанию будущих траекторий движения агентов на дороге.

Помните, я писал про соревнование от Google Waymo по предсказанию будущего движения машин, где наша команда заняла 3-е место? За полгода до этого было еще соревнование от Lyft, где мы тоже заняли 3-е место. Теперь все больше и больше исследователей интересуются этой задачей, все потому, что точное ее решение ускорит попадание машин без водителей на улицы наших городов. Конечно, и Яндекс не остался в стороне.

Разница в том, что у Яндекса на соревновании используются данные их беспилотников в разных локациях (Москва, Сколково, Модиин-Илит, Иннополис, Анн-Арбор, Тель-Авив), в отличие от Waymo и Lyft, у которых все данные были сняты в одном городе. Задача следующая: по 5 секундам истории движения агентов (людей, авто) предсказать их траекторию на 5 секунд в будущее. Так как будущее недетерминировано, то просят предсказать до пяти наиболее вероятных траекторий. Тренировка идет на данных из Москвы, а тест на данных из других городов, что сильно усложняет задачу и повышает интерес! Просто заучить данные нейронкой уже не выйдет как на соревновании от Lyft.

На воркшопе в в рамках NeurIPS 2021 победители будут рассказывать о своих решениях. Призы по трем трекам (предсказание погоды, поведения участников дорожного движения, машинный перевод текстов) поскромнее, чем бывают на Kaggle, но все же приятно: 5k$ / 3k$ / 1k$ за 1/2/3 места соответственно. Подробности про соревнование тут.

11.5K viewsedited 17:23

эйай ньюз

На гитхабе появилась клевая прога DeepFaceLive, которая заменяет ваше лицо на чужое в риалтайме. Например, во время игровых стримов или видеозвонков. Судя по описанию, пользоваться ей довольно просто. По сложности аналогично тому как в Zoom можно поменять бэкграунд во время видеозвонка (ну, может, капельку сложнее).

От того же самого автора есть очень популярная софтина DeepFaceLab (27k звезд на GitHub), с помощью которой, я думаю, сделана половина дипфейков ютуба. Также про DeepFaceLab есть тех-репорт, его можно почитать на архиве.

30.8K views14:29

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Ребята из NVIDIA (в частности Tero Karras) в очередной раз зарешали генерацию изображений. На этот раз ученые смогли убрать алиасинг в генераторе. Если на пальцах, то причина артефактов крылась в том, что из-за неверной дискретизации в CNN сигнал не мог быть точно восстановлен, что приводило к неестественным "рывкам", заметным на видео. Авторы модифицировали генератор таким образом, чтобы предотвратить эти негативные эффекты дискретизации.

Подробнее про Alias-Free GAN тут.

10.5K views12:30

А вот еще один пример безбожно гладкой генерации с помощью Alias-Free GAN, но уже для портретов.

Кода и моделей пока нет, но, я уверен, они скоро появятся на GitHub. Обещают в сентябре.

10.6K viewsedited 12:30

эйай ньюз

Попробуем новую рубрику постов. #ликбез (#fundamentals) по не очень новым, но важным алгоритмам.

Сегодня поговорим про body keypoint detection. Задача состоит в том, чтобы по фотографии найти координаты ключевых точек тела человека (зачастую это голова, глаза, нос, центр груди, и все крупные суставы, такие как колени, локти, и т.д.).

Есть две основные группы подходов:
- Top-down. Это когда сначала каждый отдельный человек на фотографии детектируется специально обученной нейронной стекой, затем кропается, ресайзится и подается в финальную сеть, которая детектирует ключевые точки тела. Как можно заметить, это двухэтапный сценарий, он требует нескольких нейронных сетей и не очень хорошо работает на сценах, где толпятся много людей. Все потому что люди пересекаются, перекрывают друг друга, и не получается аккуратно выделить каждого человека отдельно, не обрезав часть другого. Пример одной из SOTA (ну или почти) моделей такого типа — HRNet.

- Bottom-up. В этом случае на вход сети подается фотография целиком со множеством людей, и не используется детектор для обнаружения отдельных персон. Далее сеть детектирует все возможные ключевые точки всех людей на фотографии, не зависимо от того какой персоне точка принадлежит. По сути получаем множество точек, но не различаем между людьми. Затем найденные ключевые точки кластеризуются, используя либо расстояния между ними либо более изощренные фичи. В результате мы получаем отдельные группы ключевых точек, где каждая из групп отвечает отдельному человеку. Поэтому такой метод и называется bottom-up — мы начинаем работать с более мелкими структурами, такими как ключевые точки, а замет группируем их, чтобы получить отдельные экземпляры людей. В top-down подходах все наоборот: сначала находятся отдельные люди, а затем ключевые точки каждого из них.

Bottom-up работает лучше на сценах с большим скопление людей, но часто страдает в случаях, когда на фото видны люди в разных масштабах (несколько крупных фигур на переднем плане, и много маленьких на фоне), так как в этом случае от нейронной сети требуется так трудно достижимая инвариантность по масштабу. Примеры SOTA bottom-up моделей, которые стараются бороться с проблемой масштаба, — это HigherHRNet и DEKR (Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression).

GitHub

GitHub - HRNet/DEKR: This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled…

This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression" (https://arxiv.org/abs/2104.02300) - HRNet/DEKR

11.8K viewsedited 12:23

эйай ньюз

Писать ещё посты из серии #fundamentals?

Anonymous Poll

78%

Да, очень интересно.

Да, но только не часто.

Нет, скучно. Хотим только новьё.

Я ничего не понял.

Посмотреть результаты.

1.9K voters9.6K views12:23

эйай ньюз

Forwarded from Denis Sexy IT 🤖

Кибер церкви, наконец-то:
Недавно операционный директор Facebook провела саммит для религиозных лидеров, где пыталась убедить религиозные группы сотрудничать с ними, пишет The New York Times.

Пара цитат представительницы ФБ:
«Религиозные организации и социальные сети идеально подходят друг другу, потому что в основе обоих лежит связь». «Мы надеемся, что однажды люди будут проводить религиозные службы в пространствах виртуальной реальности или использовать дополненную реальность в качестве образовательного инструмента, чтобы научить своих детей истории своей веры».

Как раз недавно Цукерберг сказал, что хочет, чтобы Facebook стал «компанией метавселенной», потребитель будет взаимодействовть с ним в 3D, а не через экран смартфона – то есть можно будет сходить в церковь в VR-шлеме?

На саммите обсуждали в том числе и два новых инструмента, которые помогут церкви заработать деньги. Первый позволяет прихожанам делать пожертвования во время просмотра служб в прямом эфире (донатить то есть), второй – услуга подписки на эксклюзивный контент, включая сообщения от епископа, стоимость 10$ (что-то напоминает 🥲). Так же отмечается, что была и третья фишка – реклама во время стрима, но лидеры церкви от нее отказались.

Пастор церкви Хиллсонг Сэм Коллиер вспоминал в интервью, что у Facebook было предложение: использовать церковь в качестве примера для изучения того, как церкви могут продвигаться на Facebook. В течение нескольких месяцев перед открытием церкви разработчики Facebook ежедневно вели диалоги с её представителями, чтобы изучить как она будет выглядеть на платформе социальной сети, какие приложение они могут создать для донатов, видео или лайв-стримов. Пастор не мог поделиться подробностями, так как подписал соглашение о неразглашении, но всё же отметил «Они учат нас, мы учим их, вместе мы узнаем, каким может быть будущее церкви на Facebook”»

Любопытно наблюдать, как Facebook пытается влезть вообще во все сферы жизни и это логично – церкви по сути это сообщества, а люди (точнее их профили) самое главное для фб.

Но с покупкой через инаппы штук в церкви они уже не первые 🌚

NY Times

Facebook’s Next Target: The Religious Experience

The company is intensifying formal partnerships with faith groups across the United States and shaping the future of religious experience.

8.8K views08:40

эйай ньюз

Forwarded from DL in NLP (nlpcontroller_bot)

OpenAI Triton — новый язык программирования (ну почти), заточенный под нейросетки.

Основная мотивация: если ваш кастомный слой в нейросетке очень кастомный, вам сейчас приходится либо страдать от его низкой скорости, либо писать на CUDA (и страдать от CUDA). Причём вариант с кудой не очень классный, потому что если потом захотите портировать на iphone/android/edge/... , то будете страдать снова.

Triton это такой "Си с тайлами". Сверху языка С добавлена абстракция Tile, которая по факту — тензор. Под капотом много оптимизаций для того, чтобы всё это эффективно считалось на GPU.

Из документации видно, что сейчас язык больше продвигают как альтернативу TorchScript. То есть, вы пишете на питоне, добавляете несколько декораторов к вашим функциям и 🧙 делает ваш говнокод не лучше, но быстрее.

Проект ещё в очень ранней фазе и исходники выглядят не шибко приятно, но если он уменьшит число CUDA kernels в этом мире, я буду рад.

GitHub

GitHub - triton-lang/triton: Development repository for the Triton language and compiler

Development repository for the Triton language and compiler - triton-lang/triton

9.4K views22:12

эйай ньюз

А вот так выглядит реализация Softmax на Triton. Довольно страшно. К слову, имплементация Softmax на CUDA в репе пайторча занимает пару сотен строк и выглядит еще ужаснее.

Картинку спёр у @dlinnlp

9.9K views22:38

эйай ньюз

Очень любопытная работа от UC Berkeley + FB + Google.
Поразительно, но трансформеры, предобученные на языковых задачах, неплохо обобщаются и на другие модальности.

После обучения на текстовых данных, у трансофрмера файнтюнится только линейный входной слой, выходной слой, positional embeddings и параметры layer norm слоев (см. картинку выше). В итоге после файнтюнинга всего лишь 0.1% всех параметров на новом датасете такой трансофрмер может хорошо решать задачи в других модальностях, таких как предсказание структуры белка, математические вычисления или классификация изображений.

Выглядит так, что наш мир состоит из неких информационных структур, имеющих что-то общее даже если рассмотреть совсем разные задачи. Это довольно интересная гипотеза, и судя по всему, мы движемся к какой-то универсальной "нейронной сети", которая сможет решать много разных задач, используя накопленный опыт в других областях. Меня это жутко будоражит!

16.4K views20:16

About

Blog

Apps

Platform