Параллельные книги
Если вы когда-нибудь задумывались об изучении иностранных языков, то наверняка знаете, что такое параллельные книги. Это когда оригинал и перевод выровнены между собой и можно переключаться с изучаемого языка на родной и обратно. Выбор таких книг не велик и найти чтиво по душе гораздо сложнее чем два текста по отдельности.
Я наткнулся на классный открытый проект под названием Lingtrain Alignment Studio, который позволяет создавать красивые многоязычные книги с подсветкой соответствующих предложений. Под капотом используются модели машинного обучения, а именно sentence transformers и гугловая Language-Agnostic BERT Sentence Embedding. Последняя из коробки поддерживает более сотни языков.
Выравнивание происходит на основе эмбеддингов предложений (под этим странным термином скрываются всего лишь вектора чисел), которые выдает модель, и рассчета близости между ними. Дополнительные алгоритмы обрабатывают случаи, когда одно предложение было переведено как несколько и наоборот, что является камнем преткновения для подобных проектов.
На выходе можно скачать книгу, настроить для нее стили и сохранить в pdf формате. Также есть возможность выкачать чистый параллельный корпус и дообучать на нем уже свои языковые модели. Код проекта открыт, про проект есть статья на хабре и видео о том, как им пользоваться. Наконец-то я выучу немецкий до уровня C1 (нет)!
Если вы когда-нибудь задумывались об изучении иностранных языков, то наверняка знаете, что такое параллельные книги. Это когда оригинал и перевод выровнены между собой и можно переключаться с изучаемого языка на родной и обратно. Выбор таких книг не велик и найти чтиво по душе гораздо сложнее чем два текста по отдельности.
Я наткнулся на классный открытый проект под названием Lingtrain Alignment Studio, который позволяет создавать красивые многоязычные книги с подсветкой соответствующих предложений. Под капотом используются модели машинного обучения, а именно sentence transformers и гугловая Language-Agnostic BERT Sentence Embedding. Последняя из коробки поддерживает более сотни языков.
Выравнивание происходит на основе эмбеддингов предложений (под этим странным термином скрываются всего лишь вектора чисел), которые выдает модель, и рассчета близости между ними. Дополнительные алгоритмы обрабатывают случаи, когда одно предложение было переведено как несколько и наоборот, что является камнем преткновения для подобных проектов.
На выходе можно скачать книгу, настроить для нее стили и сохранить в pdf формате. Также есть возможность выкачать чистый параллельный корпус и дообучать на нем уже свои языковые модели. Код проекта открыт, про проект есть статья на хабре и видео о том, как им пользоваться. Наконец-то я выучу немецкий до уровня C1 (нет)!
Есть байка, что 99% процентов кода, который вы производите каждый день, уже кем-то написан. Так вот, Gitub в сотрудничестве с OpenAI выпустил убийцу профессии кодера — GitHub Copilot. Не зря же Microsoft купил GitHub.
Copilot использует контекст кода, над которым вы работаете, и дописывает вам целые строки или целые функции. Теперь писать тесты и изучать новые API можно без утомительного гугления. По мере того, как вы кодите, система адаптируется к вашему стилю.
Под капотом у Copilot - модель OpenAI Codex, которая обладает обширными знаниями о том, как люди используют код, и значительно более эффективен, чем GPT-3, в генерации кода. Всё это дело было обучена на открытых исходниках с GitHub. Соответственно, Copilot умеет работать со многими фреймворками и языками (Python, JavaScript, TypeScript, Ruby, Go, и т.д.). API к внутренней модели Codex ребята из OpenAI обещают зарелизить до конца лета, и можно будет строить свои приложения для работы с кодом на базе этой модели.
Я даже стал в очередь на демо-доступ к Copilot, сделать это можно на странице проекта. Интересно только, где Copilot инференс гоняет? Думаю, что пока на серваках OpenAI.
Copilot использует контекст кода, над которым вы работаете, и дописывает вам целые строки или целые функции. Теперь писать тесты и изучать новые API можно без утомительного гугления. По мере того, как вы кодите, система адаптируется к вашему стилю.
Под капотом у Copilot - модель OpenAI Codex, которая обладает обширными знаниями о том, как люди используют код, и значительно более эффективен, чем GPT-3, в генерации кода. Всё это дело было обучена на открытых исходниках с GitHub. Соответственно, Copilot умеет работать со многими фреймворками и языками (Python, JavaScript, TypeScript, Ruby, Go, и т.д.). API к внутренней модели Codex ребята из OpenAI обещают зарелизить до конца лета, и можно будет строить свои приложения для работы с кодом на базе этой модели.
Я даже стал в очередь на демо-доступ к Copilot, сделать это можно на странице проекта. Интересно только, где Copilot инференс гоняет? Думаю, что пока на серваках OpenAI.
эйай ньюз
Есть байка, что 99% процентов кода, который вы производите каждый день, уже кем-то написан. Так вот, Gitub в сотрудничестве с OpenAI выпустил убийцу профессии кодера — GitHub Copilot. Не зря же Microsoft купил GitHub. Copilot использует контекст кода,…
Возвращаясь к Copilot. Челик в твитторе затестил его на Pytorch-е. Запрос был написать модуль AGI (Artificial general intelligence). Так вот Копайлот выдал LSTM с одним FC-слоём сверху. Видимо, слишком много обучали на статьях Шмидхубера 🤡.
P.S. Переписал пост, сначала не к тому сообщению реплай сделал.
P.S. Переписал пост, сначала не к тому сообщению реплай сделал.
Наткнулся на несколько хороших ресурсов по подготовке к Machine Learning/Data Science собеседованиям, которые можно использовать как стартовую точку. Выношу вам на обозрение.
1. Сборник ссылок и ресурсов по основным темам в ML, включая ML System Design
https://github.com/khangich/machine-learning-interview
2. Еще один компактный сборник ссылок и подкастов по темам связанным с Data Science/Data Engineering.
https://github.com/andkret/Cookbook
#ликбез #interviewprep
1. Сборник ссылок и ресурсов по основным темам в ML, включая ML System Design
https://github.com/khangich/machine-learning-interview
2. Еще один компактный сборник ссылок и подкастов по темам связанным с Data Science/Data Engineering.
https://github.com/andkret/Cookbook
#ликбез #interviewprep
Я тут осознал, что не все подписчики знают о существовании такого крутого сообщества как Open Data Science. Это уникальное русскоязычное Slack-сообщество людей, заинтересованных в анализе данных, машинном обучении, дип лернинге и во всем что с этим связано. Всем новичкам очень советую туда вступить. Люди там делятся свои путем становления в сфере ML, объединяются в команды для совместных проектов и т.д. Там можно спросить любые вопросы (и на многие уже есть ответ) о том как начать изучать и как вкатиться поглубже в ML. Ребята там очень отзывчивые. Чтобы вступить туда — нужно указать реферала, можете указать меня @asanakoy.
This media is not supported in your browser
VIEW IN TELEGRAM
Немного красоты вам на ночь! VQGAN + CLIP по запросу "matte painting of the shire at dusk;trending on artstation; hyper realistic, ray tracing, fine detail, ultra settings" + 3D photo inpainting. Да — это такой длинный текстовый запрос, который подавался на вход сетке CLIP. Поразительно, но добавление в текстовую строку таких ключевых слов как "hyper realistic, ray tracing, fine detail, ultra settings" улучшает качество генерируемой картинки 🤡.
Есть бот в дискорде, где можно сгенерировать свои картинки по любому запросу.
UPD. Бот в дискорде сейчас погибнет от нагрузки. Плиз используйте лучше колаб ноутбук.
Есть бот в дискорде, где можно сгенерировать свои картинки по любому запросу.
UPD. Бот в дискорде сейчас погибнет от нагрузки. Плиз используйте лучше колаб ноутбук.
Несколько наиболее мне понравившихся генераций VQGAN+CLIP от меня и других подписчиков.
По порядку:
1. "Modern cubist painting"
2. "Polygonal fast food"
3. "Holy war against capitalism"
4. "Metro station moscow metro"
5. "Minecraft Starcraft"
Какая вам больше нравится?
По порядку:
1. "Modern cubist painting"
2. "Polygonal fast food"
3. "Holy war against capitalism"
4. "Metro station moscow metro"
5. "Minecraft Starcraft"
Какая вам больше нравится?
Ушлые типы используют AI, чтобы находить новые музыкальные таланты
Интернет и социальные сети позволили музыкальным талантам проявиться таким образом, что раньше было невозможно — любой мамкин репер может загрузить трек на YouTube, SoundCloud или TikTok и начать собирать аудиторию. Для крупных звукозаписывающих компаний и скаутских агентств, которым необходимо выявлять тенденции и следующих звезд, этот поток контента трудно анализировать вручную. В последнее время для составления таких рекомендаций и выявления потенциальных талантов стали использоваться алгоритмы на базе искусственного интеллекта. Некоторые алгоритмы сосредотачиваются на самой музыке, анализируя саундтрек, чтобы увидеть, насколько хорошо он соответствует определенным жанрам, и прогнозируя, насколько он может быть популярен среди определенных групп аудитории. Другие алгоритмы фокусируются на контексте — сколько прослушиваний у трека на стриминговой платформе, насколько популярен профиль исполнителя в социальных сетях и т.д.
Применение аналитики для выбора талантов не ново, применение в спорте, например, было показано в фильме "Человек, который изменил всё". Однако, не все уверены, что принятие аналогичных решений на основе аналитики может оказать устойчивое влияние на музыку. Правила в спорте меняются редко, а тренды и направления в музыке и поп-культуре более динамичны и непредсказуемы.
В общем-то сейчас AI находится на стадии зародыша, и он может предсказывать только то, чему его научили. И понятно, что какой-нибудь новый, ранее неизвестный жанр музыки может быть воспринят неадекватно такой системой. Хотя в случае нового жанра, AI может попытаться сказать, что это что-то новенькое, непохожее на все известное, что тоже может являться полезным сигналом для музыкальных лейблов.
Интернет и социальные сети позволили музыкальным талантам проявиться таким образом, что раньше было невозможно — любой мамкин репер может загрузить трек на YouTube, SoundCloud или TikTok и начать собирать аудиторию. Для крупных звукозаписывающих компаний и скаутских агентств, которым необходимо выявлять тенденции и следующих звезд, этот поток контента трудно анализировать вручную. В последнее время для составления таких рекомендаций и выявления потенциальных талантов стали использоваться алгоритмы на базе искусственного интеллекта. Некоторые алгоритмы сосредотачиваются на самой музыке, анализируя саундтрек, чтобы увидеть, насколько хорошо он соответствует определенным жанрам, и прогнозируя, насколько он может быть популярен среди определенных групп аудитории. Другие алгоритмы фокусируются на контексте — сколько прослушиваний у трека на стриминговой платформе, насколько популярен профиль исполнителя в социальных сетях и т.д.
Применение аналитики для выбора талантов не ново, применение в спорте, например, было показано в фильме "Человек, который изменил всё". Однако, не все уверены, что принятие аналогичных решений на основе аналитики может оказать устойчивое влияние на музыку. Правила в спорте меняются редко, а тренды и направления в музыке и поп-культуре более динамичны и непредсказуемы.
В общем-то сейчас AI находится на стадии зародыша, и он может предсказывать только то, чему его научили. И понятно, что какой-нибудь новый, ранее неизвестный жанр музыки может быть воспринят неадекватно такой системой. Хотя в случае нового жанра, AI может попытаться сказать, что это что-то новенькое, непохожее на все известное, что тоже может являться полезным сигналом для музыкальных лейблов.
the Guardian
‘A talent scout can’t go to 100 shows a night’ – how big data is choosing the next pop stars
Faced with so much new music, major labels are using algorithms to hunt down tomorrow’s hits. Is this great news for rising stars – or the recipe for a bland new future?
Вот это крутая вещь (пост снизу)! Представьте дальнейшее развитие этой технологии. Анализ ваших болячек с помощью AI и вывод всех неполадок на телефон, по аналогии с приборной панелью автомобиля, где горят лампочки, если что-то неисправно.
Telegram
addmeto
Не совсем IT, хотя сейчас настолько сложно понять где грань… В нью-йоркском медицинском разработали имплант для мозга. который снимает любую боль. Причем работает очень хитро, если упрощать - расшифровывает сигнал в той части мозга, которая отвечает за интерпретацию…
Сейчас подкину вам немного мяса. Боюсь, что поймут только те, кто владеет терминологией и немного знаком с Трансформерами (нет, не роботами).
DeepMind опубликовал статью, где они представляют новую архитектуру - Perceiver.
Главная идея и мотивация — учиться на данных любой модальности (картинки, аудио, видео, точки, и т.д.) без использования каких-либо предположений о структуре этих данных знаний, таких как, например, локально гладкая 2D-структура картинок, которая повсеместно эксплойтится конволюционными нейронными сетями.
Предлагаемая модель Perceiver — это хитрый трансформер, который имеет несколько преимуществ перед существующими архитектурами:
➞ 1) Он может работать со входными последовательностями огромной длины (> 100k входов). Это достигается за счет использования Cross Atention блока, который принимает входные данные как ключи (K) и как значения (V), а вместо запросов (Q) использует гораздо меньшее число (512, если быть точным) скрытых векторов. Интуитивно это можно представить как этакий ботлнек на основе self-attention. На вход N векторов (где N может быть очень большим), а на выходе получаем ровно 512 (что является гиперпараметром).
➞ 2) Из-за описанного выше Cross Atention блока, который выступает в роли ботлнека, мы можем сделать Perceiver очень глубоким. Все потому что каждый последующий self-attention блок будет работать со входами длины 512, а не N. Поэтому даже квадратичная по сложности от длины входа наивная реализация self-attention'а будет быстро работать и не будет выжирать всю память.
➞ 3) Архитектура не опирается ни на какие структурные предположения о данных. Она настолько универсальная, что может применяться к различным модальностям почти без изменений (если не считать positional encoding). Можно запускать на картинках - Perciever бьет базовый ViT-B, хотя вообще не содержит ни одной конволюции и на вход берет тупо 50 тыщ пикселей (для картинки 224x224). Также Perciever отлично работает на аудио, видео, на комбинации аудио+видео, и на облаках 3D точек.
Сама статья довольно хорошо написана, можете в ней почитать подробности.
Главная идея и мотивация — учиться на данных любой модальности (картинки, аудио, видео, точки, и т.д.) без использования каких-либо предположений о структуре этих данных знаний, таких как, например, локально гладкая 2D-структура картинок, которая повсеместно эксплойтится конволюционными нейронными сетями.
Предлагаемая модель Perceiver — это хитрый трансформер, который имеет несколько преимуществ перед существующими архитектурами:
➞ 1) Он может работать со входными последовательностями огромной длины (> 100k входов). Это достигается за счет использования Cross Atention блока, который принимает входные данные как ключи (K) и как значения (V), а вместо запросов (Q) использует гораздо меньшее число (512, если быть точным) скрытых векторов. Интуитивно это можно представить как этакий ботлнек на основе self-attention. На вход N векторов (где N может быть очень большим), а на выходе получаем ровно 512 (что является гиперпараметром).
➞ 2) Из-за описанного выше Cross Atention блока, который выступает в роли ботлнека, мы можем сделать Perceiver очень глубоким. Все потому что каждый последующий self-attention блок будет работать со входами длины 512, а не N. Поэтому даже квадратичная по сложности от длины входа наивная реализация self-attention'а будет быстро работать и не будет выжирать всю память.
➞ 3) Архитектура не опирается ни на какие структурные предположения о данных. Она настолько универсальная, что может применяться к различным модальностям почти без изменений (если не считать positional encoding). Можно запускать на картинках - Perciever бьет базовый ViT-B, хотя вообще не содержит ни одной конволюции и на вход берет тупо 50 тыщ пикселей (для картинки 224x224). Также Perciever отлично работает на аудио, видео, на комбинации аудио+видео, и на облаках 3D точек.
Сама статья довольно хорошо написана, можете в ней почитать подробности.
This media is not supported in your browser
VIEW IN TELEGRAM
Люди могут относительно легко ходить по различным поверхностям. Например, по камням, по грязи, по толстым коврам, и т.д.. Мы можем делать это с уставшими мышцами, а также неся любые предметы. Для этого мы постоянно почти мгновенно приспосабливаемся к изменяющимся условиям в нашем теле и под ногами.
Чтобы добиться такого же успеха в реальном мире, шагающие роботы также должны адаптироваться к любым поверхностям, с которыми они сталкиваются, с какими бы предметами они ни были и в каких бы условиях они ни находились — даже если они никогда раньше не подвергались воздействию этих условий во время тренировки. И, чтобы избежать падения и потенциального повреждения, такая подстройка должна происходить за доли секунды.
Ученые из Facebook AI & co сделали очередной прорыв в области искусственного интеллекта. Они представили Rapid Motor Adaptation (RMA) - алгоритм, который позволяет роботам с ногами разумно адаптироваться в реальном времени к сложной, незнакомой местности и обстоятельствам.
Продолжение ниже ↓
Чтобы добиться такого же успеха в реальном мире, шагающие роботы также должны адаптироваться к любым поверхностям, с которыми они сталкиваются, с какими бы предметами они ни были и в каких бы условиях они ни находились — даже если они никогда раньше не подвергались воздействию этих условий во время тренировки. И, чтобы избежать падения и потенциального повреждения, такая подстройка должна происходить за доли секунды.
Ученые из Facebook AI & co сделали очередной прорыв в области искусственного интеллекта. Они представили Rapid Motor Adaptation (RMA) - алгоритм, который позволяет роботам с ногами разумно адаптироваться в реальном времени к сложной, незнакомой местности и обстоятельствам.
Продолжение ниже ↓
Rapid Motor Adaptation (RMA) - это end-to-end система, основанная на Reinforcement Learning, которая тренируется в симуляции и выдает напрямую положение суставов, не полагаясь на заранее заданные шаблоны движения ног или другие примитивы управления [как это, например, сейчас работает у Boston Dynamics, насколько мне известно].
С RMA робот демонстрирует способности, фундаментальные для всех интеллектуальных агентов, - способность адаптироваться к факторам окружающей среды, таким как вес рюкзака, внезапно брошенного на него, или количество трения на новой поверхности, независимо от каких-либо визуальных входов вообще. Смотрим видео!
Подробнее можно почитать тут.
С RMA робот демонстрирует способности, фундаментальные для всех интеллектуальных агентов, - способность адаптироваться к факторам окружающей среды, таким как вес рюкзака, внезапно брошенного на него, или количество трения на новой поверхности, независимо от каких-либо визуальных входов вообще. Смотрим видео!
Подробнее можно почитать тут.
Facebook
AI now enables robots to adapt rapidly to changing real world conditions
Researchers from Facebook AI, @berkeley_ai and @SCSatCMU have developed AI that can enable a legged robot or other machines to adapt in fractions of a second to changing conditions in the real world.
Forwarded from Жалкие низкочастотники
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжается бум и увеличение качества нейросетевых картинок и роликов, сгенерированных по текстовому описанию с помощью связки сетей типа VQGAN+CLIP. Ролик выше я нашёл сегодня в твиттере, а по делу рекомендую почитать свежий пост в ML блоге университета Беркли (да и весь блог хороший, чего уж там) — в посте этом формулируется красивая мысль, что мы тут наблюдаем формирование новой демосцены.
Или почитайте научную статью про поиск следов путешественников во времени в интернете и посмотрите видео из древней компьютерной игры, которую делал Тимоти Лири.
Или почитайте научную статью про поиск следов путешественников во времени в интернете и посмотрите видео из древней компьютерной игры, которую делал Тимоти Лири.
Блог Lilian Weng (ресерчер из OpenAI) - один из моих любимых технических блогов. У нее очень емкие статьи-обзоры по различными темам в области AI.
Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.
Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.
#ликбез
@ai_newz
Недавно у Лилиан вышла очередной блогпост о Диффузионных моделях (Diffusion Models). Если коротко, то диффузионные модели - это новый тип генеративных моделей, которые достаточно гибки, чтобы выучить любое произвольно сложное распределение данных, и в то же время поддаются аналитической оценке выученного распределения. Недавно было показано, что диффузионные модели могут генерировать высококачественные изображения и по своим характеристикам не уступают SOTA GAN. Существенный минус этих моделей на данный момент — это то, что они довольно медленные.
Я уже писал об этих моделях в мае, но чтобы более досконально разобраться в них, советую почитать блогпост от Лилиан.
#ликбез
@ai_newz