эйай ньюз
72.1K subscribers
1.57K photos
846 videos
7 files
1.9K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Все знают очень сильную картину Верещагина "Апофеоз войны". Вот анимашка, которая визуализирует запрос "реалистичная картина олицетворяющая ужасы войны" нейронками. Сделано все с помощью одной из моделей Text-to-Image, то есть что-то вроде BigGAN+CLIP.

Оказывается (шок!), что есть прога Visions of Chaos под винду, которая умеет делать такие крутые штуки (и не только). Скачать можно здесь.

Учтите, что для некоторых функций вам понадобится GPU. Из интересного, Visions of Chaos умеет в DeepDream, Style Transfer, Text-to-Image, генерить картинки с помощью StyleGAN2, а также визуализировать фракталы, клеточные автоматы и т.д. Автор анимации, кстати, и есть создатель Visions of Chaos.
Прошла новость, что Гугл теперь будет использовать процессоры от AMD у себя в клауде. Гугл ожидает получить на 40% больше перфоманса за ту же цену.

Это не может не радовать, потому что может быть таким макаром и до видеокарт от AMD дойдет очередь. Я вообще очень болею за AMD, и хочу чтобы они наконец составили монополисту NVIDIA достойную конкуренцию в сфере диплернинга.
This media is not supported in your browser
VIEW IN TELEGRAM
Игра «Жизнь» выполняемая внутри Игры «Жизнь». Смотреть до конца!

Т.к. игра «Жизнь» является полной по Тьюрингу, то она может симулировать саму себя, что и показывает эта впечатляющая визуализация. Осторожно! Можно испытать рекурсионный оргазм!

Полнота по Тьюрингу — это свойство системы при некотором простом представлении ввода и вывода реализовать любую вычислимую функцию. То есть по сути игра «Жизнь» может исполнять любые конечные программы, нужно только придумать как правильно кодировать вход и выход.

Стырено из твиттора.
This media is not supported in your browser
VIEW IN TELEGRAM
Вы только полюбуйтесь на этих "красоток" из Инстаграма, которые никогда не существовали в белковой оболочке. Да, есть артефакты, но кто не без греха?
​​Facebook серьёзно взялся за интернет-шопинг и планируют скоро выкатить визуальный поиск в Instagram — можно будет искать похожие продукты просто по одному фото. Строят эту технологию на улучшенной сетке для Product Recognition и Deep Metric Learning — GrokNet, которую Facebook Applied AI Research показал еще в прошлом году.

То есть цель фейсбука сейчас — сделать возможным для пользователя покупать любую вещь на любой фотке. Понравилась футболка или блейзер у кого-то на фото в инсте — просто кликаете на предмет и вас переносит в магазин с этим товаром. Либо смотрите лайв-стрим концерта своего любимого исполнителя и онлайн просматриваете во что он одет, и сколько это стоит. Звучит круто для шопоголиков!

Так как различных товаров и и объектов очень-очень много, то нейронка, которая лежит в основе этой технологии, должна уметь во время инференса работать с новыми классами объектов и новыми аттрибутами, которых не было в тренировочной выборке. Обычно это достигается с помощью обучения проекции из домена RGB картинок в какое-то многомерное Евклидово пространство, где, измерив расстояние между объектами, можно понять насколько они похожи. В этом случае вовсе не обязательно знать класс объекта, главное — это то, что похожие объекты будут проецироваться в одну область пространства. Также возможно обучить еще один энкодер, которые будет брать на вход текстовое описание продукта, например "роскошны диван конца 19 века", и тоже мапить в некую точку в пространства, по которой можно найти ближайшую картинку, измерив расстояние до соседних точек в этом пространстве.

Подробнее можно почитать тут.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Вы наверное видели все эти безумные видео где нейронка синтезирует разные гифки — лица, панд, просто абстрактную фигню под музыку и тп, и как правило делается это все в нейронной сети StyleGan 2 и при синтезе таких вещей очень заметно, что постепенно меняется текстура у объектов, оживают волосы и появляются другие прикольные гличи.

Пару часов назад Nvidia поделилась новым алгоритмом — Alias-Free GAN, задача которого как раз генерировать правдоподобные «переходы» между разными признаками при генерации (даже не буду пытаться тут объяснить, что такое латентный вектор, так как не смогу даже если захочу).

В общем, я собрал гифку, вы только посмотрите как офигенно выглядит такая анимация.

Сайт проекта:
https://nvlabs.github.io/alias-free-gan/

Код будет тут:
https://github.com/NVlabs/alias-free-gan

Всем дайверам латентного пространства посвящается 🤿
​​Нет дыма без искусственного интеллекта
Автоматическая система предупреждает пожарных о начале пожара.

Южнокорейская компания Alchera обучила систему компьютерного зрения для мониторинга за более чем 800 камерами для обнаружения пожаров в округе Сонома, Калифорния.

Сверточная нейронная сеть (CNN) помечает видеокадры, в которых она распознает клубы дыма, а LSTM анализирует последовательность кадров, чтобы подтвердить классификацию. Если задымленность подтверждается, сигнал тревоги предупреждает оператора на центральной станции мониторинга.

Система была запущена в прошлом месяце. За первую неделю было зарегистрировано более 60 предупреждений с вероятностью ложных срабатываний 0,08%. Система обнаружил одно пламя за 10 минут до того, как первый человек-наблюдатель набрал 911. Если эта система окажется успешной, то сферу ее действия расширят и на другие лесные камеры, установленные по всему штату.

Почему это круто? В то время как другие системы обнаружения лесных пожаров полагаются на единичные аэрофотоснимки или спутниковые снимки, эта система постоянно наблюдает с помощью камер на земле, что позволяет обнаруживать опасности на ранней стадии и с меньшими затратами (ну, только за камеры и за интернет платить надо).
Интересный опрос о "зарплатах, занятости и хотелках" в сфере DS от Дьяконова.

Несколько
хайлайтов:
- На Западе можно получать большие деньги никем не командуя.
- У обладателей золотых медалей на Каггле самая большая средняя зарплата!
- У обладателей PhD она тоже большая (хотя и не настолько).
- Ясно, что хорошо быть известным, хотя таковых всего 2% опрошенных (у них больше всего дополнительный и суммарный доход).
- У выпускников платных курсов большие ожидания по доходам, причём они расходятся с действительностью (зарплаты небольшие).
- Выпускники бесплатных хороших программ (ШАД, OzonMasters, MADE) часто живут прижимисто и довольно скромными в требованиях к прожиточному минимуму.
- Больше всего денях нужно писателям блогов и владельцам телеграм-каналов (кек).
- Интересна высокая корреляция между членством в ODS и наличием github-профиля (я удивлен, что он в наше время еще не у всех есть).

От себя добавлю, что ЗП по западу фигурирует сильно усредненная, и все очень зависит от страны.

Подробнее тут.
Рад поделиться с вами хорошей новостью. Наша команда (я, Степан Конев и Кирилл Бродт) заняла 3-е место на Waymo Motion Prediction Challenge 2021.

Чтобы спланировать безопасный и эффективный маршрут, автономное транспортное средство должно предвидеть будущие движения других агентов вокруг него. Прогнозирование движения - чрезвычайно сложная задача, которая в последнее время привлекла значительное внимание исследовательского сообщества. Мы предлагаем простой, но довольно мощный метод для прогнозирования сразу нескольких траекторий движения. Наш метод основан исключительно на сверточных нейронных сетях (всё очень просто), в отличие от других методов которые используют self-attention и графовые нейронные сети.

Задача на соревке была следующая: учитывая траекторию агентов за последнюю 1 секунду (с координатами на карте), мы должны были спрогнозировать позиции агентов на дороге на 8 секунд в будущее.

Наша модель принимает растровое изображение с целевым агентом (тот, для кого идет предсказание) в центре на вход и напрямую предсказывает набор возможных траекторий вместе с их уверенностью (confidence). Растровое изображение получается растеризацией сцены и истории всех агентов. См. пайплайн нашего подхода в посте ниже↓.

То есть мы решаем задачу регрессии, но так как нужно предсказать несколько возможных вариантов траектории, то лосс нужен более хитрый, чем просто MSE (Mean Squared Error): мы предсказываем распределение траекторий в виде смеси из K Гауссиан, и максимизиуем функцию правдоподобия этого распределения при условии, что GT траектория была сгенерирована этим распределением.

Несмотря на то, что предлагаемый подход прост в реализации, он показывает сравнимые результаты с SOTA методами на Waymo Open Dataset Motion Prediction Challenge (2021): наша модель занимает 1-е место по метрике minADE (minimum average displacement error) и 3-е место по метрике mAP (mean avarage precision).

Мы написали небольшую статью про нашу модель и зарелизили код!

#personal #мойпуть
Схема нашей модели. Удивительно (или нет), но одна такая простая модель может бить ансамбли более сложных архитектур.
Nvidia запартнерилась с Google Cloud для того чтобы чипировать всех через 5G объединить две хайповые технологии - AI и 5G. Насколько я понял, они хотят соединить вместе миллиарды устройств c помощью 5G, расширяя охват приложений AI на все подключенные объекты. Nvidia+ Google CLoud создадут даже целую лаюбу AI-on-5G, которая будет разрабатывать новые приложения искуственного интеллекта для работы в сети 5G.

Только не понятно, зачем им именно 5G? Сейчас, кажется, если взять миллиард датчиков, то и пропускной способности 4G хватит за глаза, чтобы генерить больше данных в секунду, чем это может обрабатывать огромный кластер. Видать, готовят инфраструктуру для будущего скайнета 🌚.
​​Параллельные книги

Если вы когда-нибудь задумывались об изучении иностранных языков, то наверняка знаете, что такое параллельные книги. Это когда оригинал и перевод выровнены между собой и можно переключаться с изучаемого языка на родной и обратно. Выбор таких книг не велик и найти чтиво по душе гораздо сложнее чем два текста по отдельности.

Я наткнулся на классный открытый проект под названием Lingtrain Alignment Studio, который позволяет создавать красивые многоязычные книги с подсветкой соответствующих предложений. Под капотом используются модели машинного обучения, а именно sentence transformers и гугловая Language-Agnostic BERT Sentence Embedding. Последняя из коробки поддерживает более сотни языков.

Выравнивание происходит на основе эмбеддингов предложений (под этим странным термином скрываются всего лишь вектора чисел), которые выдает модель, и рассчета близости между ними. Дополнительные алгоритмы обрабатывают случаи, когда одно предложение было переведено как несколько и наоборот, что является камнем преткновения для подобных проектов.

На выходе можно скачать книгу, настроить для нее стили и сохранить в pdf формате. Также есть возможность выкачать чистый параллельный корпус и дообучать на нем уже свои языковые модели. Код проекта открыт, про проект есть статья на хабре и видео о том, как им пользоваться. Наконец-то я выучу немецкий до уровня C1 (нет)!
​​Есть байка, что 99% процентов кода, который вы производите каждый день, уже кем-то написан. Так вот, Gitub в сотрудничестве с OpenAI выпустил убийцу профессии кодера — GitHub Copilot. Не зря же Microsoft купил GitHub.

Copilot использует контекст кода, над которым вы работаете, и дописывает вам целые строки или целые функции. Теперь писать тесты и изучать новые API можно без утомительного гугления. По мере того, как вы кодите, система адаптируется к вашему стилю.

Под капотом у Copilot - модель OpenAI Codex, которая обладает обширными знаниями о том, как люди используют код, и значительно более эффективен, чем GPT-3, в генерации кода. Всё это дело было обучена на открытых исходниках с GitHub. Соответственно, Copilot умеет работать со многими фреймворками и языками (Python, JavaScript, TypeScript, Ruby, Go, и т.д.). API к внутренней модели Codex ребята из OpenAI обещают зарелизить до конца лета, и можно будет строить свои приложения для работы с кодом на базе этой модели.

Я даже стал в очередь на демо-доступ к Copilot, сделать это можно на странице проекта. Интересно только, где Copilot инференс гоняет? Думаю, что пока на серваках OpenAI.
эйай ньюз
​​Есть байка, что 99% процентов кода, который вы производите каждый день, уже кем-то написан. Так вот, Gitub в сотрудничестве с OpenAI выпустил убийцу профессии кодера — GitHub Copilot. Не зря же Microsoft купил GitHub. Copilot использует контекст кода,…
Возвращаясь к Copilot. Челик в твитторе затестил его на Pytorch-е. Запрос был написать модуль AGI (Artificial general intelligence). Так вот Копайлот выдал LSTM с одним FC-слоём сверху. Видимо, слишком много обучали на статьях Шмидхубера 🤡.

P.S. Переписал пост, сначала не к тому сообщению реплай сделал.
Наткнулся на несколько хороших ресурсов по подготовке к Machine Learning/Data Science собеседованиям, которые можно использовать как стартовую точку. Выношу вам на обозрение.

1. Сборник ссылок и ресурсов по основным темам в ML, включая ML System Design
https://github.com/khangich/machine-learning-interview
2. Еще один компактный сборник ссылок и подкастов по темам связанным с Data Science/Data Engineering.
https://github.com/andkret/Cookbook

#ликбез #interviewprep
Я тут осознал, что не все подписчики знают о существовании такого крутого сообщества как Open Data Science. Это уникальное русскоязычное Slack-сообщество людей, заинтересованных в анализе данных, машинном обучении, дип лернинге и во всем что с этим связано. Всем новичкам очень советую туда вступить. Люди там делятся свои путем становления в сфере ML, объединяются в команды для совместных проектов и т.д. Там можно спросить любые вопросы (и на многие уже есть ответ) о том как начать изучать и как вкатиться поглубже в ML. Ребята там очень отзывчивые. Чтобы вступить туда — нужно указать реферала, можете указать меня @asanakoy.
This media is not supported in your browser
VIEW IN TELEGRAM
Немного красоты вам на ночь! VQGAN + CLIP по запросу "matte painting of the shire at dusk;trending on artstation; hyper realistic, ray tracing, fine detail, ultra settings" + 3D photo inpainting. Да — это такой длинный текстовый запрос, который подавался на вход сетке CLIP. Поразительно, но добавление в текстовую строку таких ключевых слов как "hyper realistic, ray tracing, fine detail, ultra settings" улучшает качество генерируемой картинки 🤡.

Есть бот в дискорде, где можно сгенерировать свои картинки по любому запросу.

UPD. Бот в дискорде сейчас погибнет от нагрузки. Плиз используйте лучше колаб ноутбук.