эйай ньюз
69.9K subscribers
1.52K photos
812 videos
7 files
1.85K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
С Dalle2 случился пранк промпт-инженер.

Запрос: Elmo holding up a sign that says “fluck you”.

@ai_newz
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Всем любителям нейро-музыки – тут выкатили клевую генерацию аудио в реалтайме, веса, и инстуркцию как на своих данных доучить алгоритм 🌚

Даже в LoFi умеет

Код: https://github.com/marcoppasini/musika

Онлайн демка: https://huggingface.co/spaces/marcop/musika

UPD. Собрал колаб для желающих погенерировать (файнтюнинг пока не работает)
эйай ньюз
Можно организовать встречу в Тель-Авиве. Сколько из нас едут на конференцию?
Я создал чат для встречи в Тель-Авиве. Заходите туда, если вы тут и не прочь встретиться.

Когда поймём, сколько нас, я забронирую какой-нибудь рест для нашей сходки в ближайшие дни.

Кстати, любые рекомендации мест от местных очень приветствуются.

https://t.iss.one/+tqhnPzNOnwVkZDUy
This media is not supported in your browser
VIEW IN TELEGRAM
Все ещё офигеваю, какие полотна теперь можно рисовать с помощью нейронок.

А вот и новый бесплатный интерфейс для новой версии модели Stable Diffusion, которая умеет в хороший inpainting. Качество генерации больших полотен существенно выросло.

❱❱ Код интерфейса
❱❱ Демка на хагинфейсе

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Тут спрашивали, как меня опознать на конференции. Теперь вы знаете, так что можете подходить пообщаться.

Просьба: фейс-детекторы на мне не обучать 😅

#конфа
Очешуеть! Вот вам и метаверс внутри Call of Duty. Интересно, как они добились такого реализма?

Использовали ли они что-то типа нейронного рендеринга чтобы отсканировать и реконструировать реальные улицы? Надо покопаться.

@ai_newz
Три вещи, которые вы должны знать о Vision Transformers
[Meta AI]

На вчерашней постер-сессии мне больше всего понравилась вот эта статья.

Что надо знать:
1. Если хотите сделать трансформер побольше, то растите его в толщину, а не в глубину
2. Если дообучаете трансформер на небольшом датасете, то файнтюньте только MHA блоки (они составляют только 30% от всех весов), а все остальное замораживайте.
3. Вместо нарезки входной картинки на патчи и применения линейных слоев, используйте несколько конволюционных слоев с большим страйдом.

❱❱ Статья

@ai_newz
Еще парочка красивых фото железяк с первого дня ECCV

1. Красавец-сервер на платформе Gigabyte с 8x A100. Аналог Nvidia DGX, но дешевле (120-200к $).
2. Израильский беспилотный GMC. Мне просто машина нравится 😀

#конфа
@ai_newz
Forwarded from AI для Всех
Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код
This media is not supported in your browser
VIEW IN TELEGRAM
Chief Twit: Маск вчера наконец-то купил Твиттер за $44 млрд.

Эпичное видео 😅.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Время реконструкции: 3.5 минуты

Модели: mipnerf360 для бэкграунда и instant-ngp для переднего плана

Очень крутые результаты 3Д реконструкции уже могут быть достигнуты с помощью опен-соурс моделей!

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Галя, тут GPT3 прямо в Экселе!

Чел интегрировал GPT3 в Гугл таблицы. Нужно только вместо формулы вписать =GPT3("..."), где указать что сделать с данными в качестве запроса.

Особенно понравилось, как автор просит сгенереть письма благодарности гостям в зависимости от того, что они подарили на свадьбу. Вот где прагматизм.

Однако, на запросе выдать почтовые индексы по имени городов GPT3 ошибается в 20% случаев 🌚. Будущее с AI будет великое, говорили они!

@ai_newz
Yandex Cup 2022

Некоторые подписчики знают, что я в свое время тащил каггл (был топ 50 в мировом рейтинге на пике). А в студенческие годы до PhD я качался в олимпиадном программировании (знал, что этот скилл пригодится на собесах в big tech 😁). И один из ежегодных чемпионатов, который я старался не пропускать был Yandex Cup.

Так вот Yandex Cup 2022 стартует уже сегодня и пройдет в два этапа — квалификация и финал. Призовой фонд – 6,2 млн рублей,
а лучшие студенты в каждом направлении получат еще по 100к рублей.

В этом году Yandex Cup предлагает шесть разных треков:

❤️ алгоритмы,
❤️ машинное обучение,
аналитика,
⚡️ фронтенд,
бэкенд,
мобильная разработка.

Задачи основного раунда по ML уже доступны и их целых две: по рекомендательным системам и по анализу аудио. В их основу легли реальные обезличенные данные Яндекса.

Принять участие в квалификации можно до 7 ноября, так что расчехляем свои копайлоты и го решать!

@ai_newz
В Цюрихе бывают очень интересные события и доклады, за счет наличия многих тех-компаний и сильных технических университетов.

Сегодня я попал на доклад Эда Катмулла в ETH. Если вы не знаете, кто это, то Эд Катмулл - это кофаундер студии Pixar, Директор Disney Animation, лауреат премии Тюринга по 3D графике и четырех премий "Оскар".

В общем, Эд - один из самых маститых чуваков в 3D графике. Он тот самый человек, который дольше всех работал со Стивом Джобсом.

Подумайте, он поучаствовал в 50+ конференциях SIGGRAPH начиная с 1970-х годов. Из самых известных алгоритмов в 3D CG, которые он создал, многими вы пользуетесь каждый день. Например, текстурирование 3D поверхностей (1974) и Алгоритм Катмулла — Кларка (1978), используемый для создания гладких поверхностей путём подразделения примитивов.

Однажды, Катмулл написал, статью на 18 страниц с доказательствами нового метода, а его научный руководитель бросил ее ему в лицо со словами "что за дерьмо". В итоге через лет десять тот метод, который когда-то забраковал проф, стал де-факто стандартом в 3D графике. Тут Эд сказал такую мотивирующую фразу: "Sometimes it takes time to get the shit done". Так что не бойтесь пробовать и создавать новое, нужно только быть упорным!

@ai_newz
OpenAI наконец выкатили простое публичное API к Dalle-2. Конец засилию Stable Diffusion, и появится куча приложений на DALLE-2.

https://openai.com/blog/dall-e-api-now-available-in-public-beta/

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
И просто моментально появился плагин DALL-E 2 для Photoshop! Там можно и на Stable Diffusion переключить, если очень хочется.

С понедельника будет доступно обновление https://www.flyingdog.de/sd/

@ai_newz
🔥Новая Text-to-image модель ERNIE-ViLG 2.0 дает прикурить Dalle-2 и SD!

Baidu сделали новую модель, результаты которой просто ошеломляют! Это результаты моих генераций без черепика! Ни SD, ни DALLE-2 так не умеет.

За основу взята архитектура Unet от SD, но с приколами:
- Mixture of Denoising Experts:
Обучили 10 сеток вместо одной. Каждая отвечает только за определенные шаги диффузии.
- Textual knowledge:
Автоматически перевзвесили слова в запросе. Ключевые слова получают больший вес.
- Visual knowledge:
Во время обучения детектировали объекты на промежуточных результатах генерации и увеличивали вес функции потерь на регионах с объектами.

В итоге вышла самая большая на планете модель text-2-im с 24 млрд параметров (×10 больше чем SD).

* "flame, giant cat, girl, futuristic, high-definition, 3d, delicate face, cg sense, ancient style, beautiful, fine hair, upper body painting". Но лучше делать запрос на китайском.

❱❱ Статья
❱❱ Халявное Demo

@artem