эйай ньюз – Telegram

эйай ньюз

72.8K subscribers

1.61K photos

858 videos

7 files

1.92K links

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow

Download Telegram

About

Blog

Apps

Platform

эйай ньюз

72.8K subscribers

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

18 месяцев назад: "Обучение NeRF занимает 5 часов..."
2 месяца назад: «Обучение NeRF занимает 5 минут!»
Вчера: «Обучение NeRF занимает 5 секунд!!??»

Умелые инженеры из NVIDIA поженили мульти-скейл хеш таблицу, реализованную на CUDA, с методом NeRF.
Результат: трейн занимает несколько секунд, рендеринг новой сцены делают за десятки миллисекунд в разрешении 1920x1080 🤯.

Конечно, не все так просто. Препроцессинг требует получить позиции камер, используя SfM алгоритмы, например COLMAP, ну а это требует побольше чем пару секунд времени.

Сцена на видео выше тоже довольно громоздкая и тренировка метода заняла несколько минут.

Статья "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
>> Pdf >> Project page >> Code

14.4K viewsedited 08:14

эйай ньюз

Forwarded from AbstractDL

Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео

7.9K views17:41

эйай ньюз

Научиться программированию сегодня может любой желающий — новые IT-курсы появляются чуть ли ни ежедневно. Голосуйте за проекты, о которых уже слышали, и делитесь своим мнением про них в комментариях.

Anonymous Poll

Нетология

Яндекс.Практикум

Академия Яндекса

Тинькофф Образование (Тинькофф Финтех, Тинькофф Академия)

Сбер образование

963 voters9.0K views14:52

эйай ньюз

Ресерчеры из Meta AI масштабировали разреженные языковые модели до 1.1 триллиона параметров. Причем сделали это эффективно и показали, что они требует в 4 раза меньше ресурсов чем сравнимые по точности плотные (dense) модели.

Подробнее в статье Efficient Large Scale Language Modeling with Mixtures of Experts.

11.2K views16:58

эйай ньюз

Forwarded from ExMuffin

This media is not supported in your browser

VIEW IN TELEGRAM

💃 HomeStylist v.1.0 🕺

Сегодня выкатили нейросеть, которая может не только менять позу, но и переодевать человека на фотографии. Код есть, а Колаба небыло. Я исправил это недоразумение. Сделал его удобным на столько, на сколько это вообще возможно, ибо чтобы завести эту нейросеть пришлось клонировать еще парочку, но оно того стоило. Качество синтезированного изображения на высоте. Разрешение, конечно, 512 по большей стороне, но те, кому нужно, прогонят дополнительно через какой-нибудь апскейлер.

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/HomeStylist.ipynb

7.6K views13:40

эйай ньюз

Сбер выложил в открытый доступ увеличенные версии ruCLIP — моделей, которые умеют вычислять «смысловую» близость любого изображения и текста на русском языке. С помощью этих моделей можно классификации новые изображение из ранее невиданых классов без обучения (zero-shot). ruCLIP модели даже превосходят в качестве оригинальной английский CLIP от OpenAI вместе с русско-английским переводчиком на большинстве тестовых датасетов.

Все модельки обучались на 240 млн пар изображение-текст на русском языке на внутреннем датасете от Сбера.

>> Код и веса моделей есть на гитхабе.

10.7K views19:47

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Explaining in Style: Training a GAN to explain a classifier in StyleSpace
Google Research

Статейка, где ученые прикрутили к StyleGAN2 классификатор и заставляют StyleGAN2 генерить картинки в зависимости от заданных лейблов (тогда как оригинальный StyleGAN2 генерит картинки из случайных классов). По факту сделали conditional генерацию (что не ново само по себе, но для StyleGAN2 такого пока никто не публиковал).

Кроме того, авторы представили метод, который автоматиччески находит размерности в стилевом векторе W, которые отвечают за признаки присущие объектам определенного класса. То есть теперь можно подвигать ползунок и поменять фото кота так, чтобы он стал больше похож на собаку.

>> Код >> Сайт проекта

8.9K views16:09

эйай ньюз

Архитектура метода из статьи выше. Классификатор С предобучен заранее и его выходы (logits) конкатенируются к вектору W и скармливаются в энкодер.

8.5K viewsedited 16:09

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Вот еще пример работы метода на атрибутах для портрета человека. С волосами поганенько получилось 😅

8.8K viewsedited 16:09

эйай ньюз

Go Спарк! Еее.

Future Sailors — VR, AR and stuff

Прямое сравнение технологии face tracking.

Effector конечно кирпич 3-е место без обсуждений. А вот Lens и Spark уже не однозначно, но по практики, да и по этому видео, я бы отдал первое место Spark.

1 place: Spark AR Studio (Instagram and Facebook)
2 place:…

8.8K views11:12

эйай ньюз

Media is too big

VIEW IN TELEGRAM

Stitch it in Time: GAN-Based Facial Editing of Real Videos

Тут новая статейка вышла, где показывают очень качественное редактирование видео. Статья очень хорошо написана и содержит ссылки на важные работы в области редактирования фото и видео. Рекомендую к прочтению!

Метод коротко: берем натренированный на лицах StyleGAN2, затем вырезаем лица из видео и все сразу пропускаем через энкодер, который проецирует их в пространство StyleGAN. Энкодер переводит близкие кадры в похожие вектора (результат лучше чем при оптимизации каждого вектора отдельно). Далее генератор StyleGAN2 немного файнтюнится, чтобы повысить точность реконструкции на данном видео. После этого вектора смещаются в неком направлении (которое нужно найти заранее), например в котором появляется улыбка. Затем генератор еще раз файнтюнится так, чтобы не было видно переходов на границе, но сохраняя изменения лица (тут используют сегментационную маску). Вырезанные и измененные лица вставляются назад в видео. Вуа-ля!

>> Сайт проекта >> Код скоро

9.0K views18:54

эйай ньюз

А это подробности архитектуры метода из поста выше.

8.4K views18:54

эйай ньюз

Как много приложений и возможностей открыл StyleGAN. Хотя были ганы и до этого, но именно StyleGAN воистину универсальная и прорывная штука.

С декабря 2018 года, когда его впервые опубликовали на архиве, статья набрала 3.5к цитирований. Бесчисленное множество прилог было построено на StyleGAN 1 и 2 за три года. Вот только StyleGAN3 все ещё не так сильно пошел в массы. Люди боятся теории что ли?

Всё-таки NVIDIA – красавчики.

8.5K viewsedited 08:55

эйай ньюз

Forwarded from DL in NLP (Vlad Lialin)

Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! 🤗 Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.

Tasks - Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

8.5K views10:26

эйай ньюз

Кстати, в Tasks от Hugging Face есть инфа не только о том, как решать стандартные задачи из NLP, но и из Audio и Computer Vision. Все это аккомпанируется подробными примерами, датасетами и готовыми моделями.

https://huggingface.co/tasks

10.7K viewsedited 10:33

эйай ньюз

Forwarded from TechSparks

Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc

Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research

9.1K views04:38

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Вот вы говорите «Да, зачем эти генеративные модели? От них толку на практике ноль». Может оно и так ~~или нет~~, но зато какой арт из них получается!

Вот например челик прибабахал к диффузионным моделям возможность генерить псевдо 3D сцены с зумом. Выглядит как полёт внутри фантастической пещеры художника!

Коллаб Disco Diffusion v 4.1 (пока без 3D)

35.3K viewsedited 20:55

эйай ньюз

Молодцы ребята! Офигенный прогресс по сохранению деталей в задачи ресторации старых портретов. Особенно мне нравится автопортрет ван Гога. А у Достоевского, кажется, сетка сделала бороду менее широкой.

28.9K viewsedited 08:49

эйай ньюз

Forwarded from DL in NLP (Vlad Lialin)

Давно не было подборки новостей и интересных блогпостов

1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.

Introducing text and code embeddings

We are introducing embeddings, a new endpoint in the OpenAI API that makes it easy to perform natural language and code tasks like semantic search, clustering, topic modeling, and classification.

10.4K views16:44

эйай ньюз

ShiftViT: An Extremely Simple Alternative to Attention Mechanism

Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.

Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.

Статья | Код

15.6K views12:37