эйай ньюз
73.2K subscribers
1.62K photos
859 videos
7 files
1.93K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
​​Параллельные книги

Если вы когда-нибудь задумывались об изучении иностранных языков, то наверняка знаете, что такое параллельные книги. Это когда оригинал и перевод выровнены между собой и можно переключаться с изучаемого языка на родной и обратно. Выбор таких книг не велик и найти чтиво по душе гораздо сложнее чем два текста по отдельности.

Я наткнулся на классный открытый проект под названием Lingtrain Alignment Studio, который позволяет создавать красивые многоязычные книги с подсветкой соответствующих предложений. Под капотом используются модели машинного обучения, а именно sentence transformers и гугловая Language-Agnostic BERT Sentence Embedding. Последняя из коробки поддерживает более сотни языков.

Выравнивание происходит на основе эмбеддингов предложений (под этим странным термином скрываются всего лишь вектора чисел), которые выдает модель, и рассчета близости между ними. Дополнительные алгоритмы обрабатывают случаи, когда одно предложение было переведено как несколько и наоборот, что является камнем преткновения для подобных проектов.

На выходе можно скачать книгу, настроить для нее стили и сохранить в pdf формате. Также есть возможность выкачать чистый параллельный корпус и дообучать на нем уже свои языковые модели. Код проекта открыт, про проект есть статья на хабре и видео о том, как им пользоваться. Наконец-то я выучу немецкий до уровня C1 (нет)!
​​Есть байка, что 99% процентов кода, который вы производите каждый день, уже кем-то написан. Так вот, Gitub в сотрудничестве с OpenAI выпустил убийцу профессии кодера — GitHub Copilot. Не зря же Microsoft купил GitHub.

Copilot использует контекст кода, над которым вы работаете, и дописывает вам целые строки или целые функции. Теперь писать тесты и изучать новые API можно без утомительного гугления. По мере того, как вы кодите, система адаптируется к вашему стилю.

Под капотом у Copilot - модель OpenAI Codex, которая обладает обширными знаниями о том, как люди используют код, и значительно более эффективен, чем GPT-3, в генерации кода. Всё это дело было обучена на открытых исходниках с GitHub. Соответственно, Copilot умеет работать со многими фреймворками и языками (Python, JavaScript, TypeScript, Ruby, Go, и т.д.). API к внутренней модели Codex ребята из OpenAI обещают зарелизить до конца лета, и можно будет строить свои приложения для работы с кодом на базе этой модели.

Я даже стал в очередь на демо-доступ к Copilot, сделать это можно на странице проекта. Интересно только, где Copilot инференс гоняет? Думаю, что пока на серваках OpenAI.
эйай ньюз
​​Есть байка, что 99% процентов кода, который вы производите каждый день, уже кем-то написан. Так вот, Gitub в сотрудничестве с OpenAI выпустил убийцу профессии кодера — GitHub Copilot. Не зря же Microsoft купил GitHub. Copilot использует контекст кода,…
Возвращаясь к Copilot. Челик в твитторе затестил его на Pytorch-е. Запрос был написать модуль AGI (Artificial general intelligence). Так вот Копайлот выдал LSTM с одним FC-слоём сверху. Видимо, слишком много обучали на статьях Шмидхубера 🤡.

P.S. Переписал пост, сначала не к тому сообщению реплай сделал.
Наткнулся на несколько хороших ресурсов по подготовке к Machine Learning/Data Science собеседованиям, которые можно использовать как стартовую точку. Выношу вам на обозрение.

1. Сборник ссылок и ресурсов по основным темам в ML, включая ML System Design
https://github.com/khangich/machine-learning-interview
2. Еще один компактный сборник ссылок и подкастов по темам связанным с Data Science/Data Engineering.
https://github.com/andkret/Cookbook

#ликбез #interviewprep
Я тут осознал, что не все подписчики знают о существовании такого крутого сообщества как Open Data Science. Это уникальное русскоязычное Slack-сообщество людей, заинтересованных в анализе данных, машинном обучении, дип лернинге и во всем что с этим связано. Всем новичкам очень советую туда вступить. Люди там делятся свои путем становления в сфере ML, объединяются в команды для совместных проектов и т.д. Там можно спросить любые вопросы (и на многие уже есть ответ) о том как начать изучать и как вкатиться поглубже в ML. Ребята там очень отзывчивые. Чтобы вступить туда — нужно указать реферала, можете указать меня @asanakoy.
This media is not supported in your browser
VIEW IN TELEGRAM
Немного красоты вам на ночь! VQGAN + CLIP по запросу "matte painting of the shire at dusk;trending on artstation; hyper realistic, ray tracing, fine detail, ultra settings" + 3D photo inpainting. Да — это такой длинный текстовый запрос, который подавался на вход сетке CLIP. Поразительно, но добавление в текстовую строку таких ключевых слов как "hyper realistic, ray tracing, fine detail, ultra settings" улучшает качество генерируемой картинки 🤡.

Есть бот в дискорде, где можно сгенерировать свои картинки по любому запросу.

UPD. Бот в дискорде сейчас погибнет от нагрузки. Плиз используйте лучше колаб ноутбук.
Несколько наиболее мне понравившихся генераций VQGAN+CLIP от меня и других подписчиков.

По порядку:
1. "Modern cubist painting"
2. "Polygonal fast food"
3. "Holy war against capitalism"
4. "Metro station moscow metro"
5. "Minecraft Starcraft"

Какая вам больше нравится?
Голосование за сгенеренные картинки в посте выше ↑.
Ушлые типы используют AI, чтобы находить новые музыкальные таланты

Интернет и социальные сети позволили музыкальным талантам проявиться таким образом, что раньше было невозможно — любой мамкин репер может загрузить трек на YouTube, SoundCloud или TikTok и начать собирать аудиторию. Для крупных звукозаписывающих компаний и скаутских агентств, которым необходимо выявлять тенденции и следующих звезд, этот поток контента трудно анализировать вручную. В последнее время для составления таких рекомендаций и выявления потенциальных талантов стали использоваться алгоритмы на базе искусственного интеллекта. Некоторые алгоритмы сосредотачиваются на самой музыке, анализируя саундтрек, чтобы увидеть, насколько хорошо он соответствует определенным жанрам, и прогнозируя, насколько он может быть популярен среди определенных групп аудитории. Другие алгоритмы фокусируются на контексте — сколько прослушиваний у трека на стриминговой платформе, насколько популярен профиль исполнителя в социальных сетях и т.д.

Применение аналитики для выбора талантов не ново, применение в спорте, например, было показано в фильме "Человек, который изменил всё". Однако, не все уверены, что принятие аналогичных решений на основе аналитики может оказать устойчивое влияние на музыку. Правила в спорте меняются редко, а тренды и направления в музыке и поп-культуре более динамичны и непредсказуемы.

В общем-то сейчас AI находится на стадии зародыша, и он может предсказывать только то, чему его научили. И понятно, что какой-нибудь новый, ранее неизвестный жанр музыки может быть воспринят неадекватно такой системой. Хотя в случае нового жанра, AI может попытаться сказать, что это что-то новенькое, непохожее на все известное, что тоже может являться полезным сигналом для музыкальных лейблов.
Вот это крутая вещь (пост снизу)! Представьте дальнейшее развитие этой технологии. Анализ ваших болячек с помощью AI и вывод всех неполадок на телефон, по аналогии с приборной панелью автомобиля, где горят лампочки, если что-то неисправно.
Сейчас подкину вам немного мяса. Боюсь, что поймут только те, кто владеет терминологией и немного знаком с Трансформерами (нет, не роботами).
​​DeepMind опубликовал статью, где они представляют новую архитектуру - Perceiver.
Главная идея и мотивация — учиться на данных любой модальности (картинки, аудио, видео, точки, и т.д.) без использования каких-либо предположений о структуре этих данных знаний, таких как, например, локально гладкая 2D-структура картинок, которая повсеместно эксплойтится конволюционными нейронными сетями.

Предлагаемая модель Perceiver — это хитрый трансформер, который имеет несколько преимуществ перед существующими архитектурами:

➞ 1) Он может работать со входными последовательностями огромной длины (> 100k входов). Это достигается за счет использования Cross Atention блока, который принимает входные данные как ключи (K) и как значения (V), а вместо запросов (Q) использует гораздо меньшее число (512, если быть точным) скрытых векторов. Интуитивно это можно представить как этакий ботлнек на основе self-attention. На вход N векторов (где N может быть очень большим), а на выходе получаем ровно 512 (что является гиперпараметром).

➞ 2) Из-за описанного выше Cross Atention блока, который выступает в роли ботлнека, мы можем сделать Perceiver очень глубоким. Все потому что каждый последующий self-attention блок будет работать со входами длины 512, а не N. Поэтому даже квадратичная по сложности от длины входа наивная реализация self-attention'а будет быстро работать и не будет выжирать всю память.

➞ 3) Архитектура не опирается ни на какие структурные предположения о данных. Она настолько универсальная, что может применяться к различным модальностям почти без изменений (если не считать positional encoding). Можно запускать на картинках - Perciever бьет базовый ViT-B, хотя вообще не содержит ни одной конволюции и на вход берет тупо 50 тыщ пикселей (для картинки 224x224). Также Perciever отлично работает на аудио, видео, на комбинации аудио+видео, и на облаках 3D точек.

Сама статья довольно хорошо написана, можете в ней почитать подробности.
This media is not supported in your browser
VIEW IN TELEGRAM
Люди могут относительно легко ходить по различным поверхностям. Например, по камням, по грязи, по толстым коврам, и т.д.. Мы можем делать это с уставшими мышцами, а также неся любые предметы. Для этого мы постоянно почти мгновенно приспосабливаемся к изменяющимся условиям в нашем теле и под ногами.

Чтобы добиться такого же успеха в реальном мире, шагающие роботы также должны адаптироваться к любым поверхностям, с которыми они сталкиваются, с какими бы предметами они ни были и в каких бы условиях они ни находились — даже если они никогда раньше не подвергались воздействию этих условий во время тренировки. И, чтобы избежать падения и потенциального повреждения, такая подстройка должна происходить за доли секунды.

Ученые из Facebook AI & co сделали очередной прорыв в области искусственного интеллекта. Они представили Rapid Motor Adaptation (RMA) - алгоритм, который позволяет роботам с ногами разумно адаптироваться в реальном времени к сложной, незнакомой местности и обстоятельствам.

Продолжение ниже ↓
Rapid Motor Adaptation (RMA) - это end-to-end система, основанная на Reinforcement Learning, которая тренируется в симуляции и выдает напрямую положение суставов, не полагаясь на заранее заданные шаблоны движения ног или другие примитивы управления [как это, например, сейчас работает у Boston Dynamics, насколько мне известно].

С RMA робот демонстрирует способности, фундаментальные для всех интеллектуальных агентов, - способность адаптироваться к факторам окружающей среды, таким как вес рюкзака, внезапно брошенного на него, или количество трения на новой поверхности, независимо от каких-либо визуальных входов вообще. Смотрим видео!

Подробнее можно почитать тут.
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжается бум и увеличение качества нейросетевых картинок и роликов, сгенерированных по текстовому описанию с помощью связки сетей типа VQGAN+CLIP. Ролик выше я нашёл сегодня в твиттере, а по делу рекомендую почитать свежий пост в ML блоге университета Беркли (да и весь блог хороший, чего уж там) — в посте этом формулируется красивая мысль, что мы тут наблюдаем формирование новой демосцены.

Или почитайте научную статью про поиск следов путешественников во времени в интернете и посмотрите видео из древней компьютерной игры, которую делал Тимоти Лири.
Блог Lilian Weng (ресерчер из OpenAI) - один из моих любимых технических блогов. У нее очень емкие статьи-обзоры по различными темам в области AI.

Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.

Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.

#ликбез
@ai_newz