эйай ньюз
75.1K subscribers
1.66K photos
875 videos
7 files
1.98K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Media is too big
VIEW IN TELEGRAM
Новое интервью с Ильёй Суцкевером, ко-фаундером и главным сайнтистом в OpenAI.

Го смотреть!

Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того, что очень большая нейронная сеть может достичь AGI. То есть "scale is all we need" (почти).

— AGI - это компьютерная система, которая может автоматизировать большую часть интеллектуального труда.

— "Are Transformers all we need?" - вопрос не корректно поставлен. С Трансформерами (такими, как они сейчас) мы сможем зайти очень далеко, но это не значит, что нет более эффективной архитектуры.

— Про LSTM vs Transformers. Если докрутить архитектуру LSTM, увеличить размер внутреннего состояния и сделать так, чтобы они стабильно тренировались на large scale, то с LSTM мы сможем зайти довольно далеко. В тоже время Илья считает что Трансформеры все равно будут слегка лучше.

— Мы не очень хорошо понимаем scaling laws.

(Продолжение ниже)

@ai_newz
Главные тейки от Ильи Суцкевера (ч.2):

— Илья пишет код в паре с GPT, и ему по кайфу, когда большую часть кода для него пишет нейросеть.

— Если мы сможем обуздать силу "супер-интеллекта" (то, что сейчас называют AI Alignment), то мы сможем существенно улучшить качество жизни людей. Тут мы говорим не о текущей GPT-4, а о чем-то гораздо более мощном и умном.

— Когда мы достигнем "супер-интеллекта", нам нужны будут регуляции и правила в сфере AI на уровне государств. Поэтому CEO OpenAI Сэм Альтман и ходит в Конгресс США на поклон.

@ai_newz
Недавно StabilityAI выпустили обновление - Stable Diffusion XL v1.0

Я наконец добрался до него и протестировал SDXL v0.9 (верхняя строка) vs SDXL v1.0 (нижняя срока). Я зафиксировал промпт, сид и количество шагов, и прогнал разные модели.

- Важно понимать, что архитектура модели не менялась. Они просто натренировали версию v1.0 на другом датасете, возможно более чистом.

- Модель стала более фотореалистичная, это заметно.

- Вроде бы стало меньше генерить уродцев с тремя руками.

- Понимание и рисование текста осталось таким же не очень.

- Есть проблемки с генерацией известных личностей. Они вроде бы и выглядт ок, но всегда какие-то детали лица не точно отражены. Ян ЛеКун не очень на себя похож, а Маска и Цукерберга так вообще смешало в одну личность - получился бой близнецов.

- Работает, мягко говоря, все еще не быстро. Скоро напишу о некоторых трюках для ускорения таких моделей.

Мой предыдущий пост про тест SDXL v0.9: тут.

❱❱ Код + веса
❱❱ Папира
❱❱ DreamStudio
❱❱ ClipDrop

@ai_newz
Друзья, в нашей команде в Meta Generative AI открылась вакансия Research Scientist. Я уверен, что среди моих читателей есть те, кто глубоко шарит в Gen AI, и на раз-два тренит всякие модели диффузии и LLM.

Так что если кто-то из вас хочет поработать в Цюрихе и заниматься крутыми вещами с влиянием на миллиарды пользователей, то стучите в личку.

Нам нужен сильный исследователь, который будет
- Участвовать в рисерче и публиковать статьи на топовых конференциях
- Разрабатывать SOTA генеративные модели, которые реально работают (и работают быстро) и выкатывать их в прод на масштабах Meta.

Требования:
- Опыт с Diffusion Models, GANs, and LLMs
- Публикации первым автором на топовых конфах типа CVPR, NeurIPS, ICCV, ICML... Вообще отлично - если по теме Gen AI.
- А, ну и да, нужен PhD.

Бонусом засчитывается:
- Медальки на Kaggle, стажировки, классные пет-проекты.
- Опыт оптимизации моделей для CPU/GPU/мобилок.
- Опыт выкатывания моделей в прод.

Вот ссылка. Если есть какие-то вопросы - пишите в комменты.

@ai_newz
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0

Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.

Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:

- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.

- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).

- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.

- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.

(Ждите серию постов про каждую из этих моделей)

Еще добавлены веса AudioGen и MultiBandDiffusion.

🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.

Блог
Код и веса
Демо в колабе
MusicGen ноутбук

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Аватары без волос не останутся!

Вышла работа CT2Hair: High-Fidelity 3D Hair Modeling using Computed Tomography для построения реалистичных 3д моделей волос.

На вход: CT (Computer Romography) скан парика.
На выходе: реконструкция высоко-детализированной 3D модель волос, где можно разглядеть отдельны волосинки.

Далее это дело можно пихать в любые пайплаынй 3д графики и симулировать движение волос на персонажах. Такие дела.

Очень клевая работа, под стать SIGGRAPH, где она и опубликована.

Код и данные для обучения - все в репозитории.
Сайт проекта.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так выглядит пайплан CT2Hair, если не вдаваться в детали.

1. Вычисление 3D ориентационного поля: Начальный этап начинается с вычисления 3D ориентаций из входной плотности 3D скана.
2. Генерация направляющих прядей (guide strands): Затем создают направляющие пряди, используя рассчитанные ориентации.
3. Интерполяция направляющих прядей: Далее направляющие пряди интерполируют, чтобы они равномерно распределялись по коже головы.
4. Оптимизация: Оцененный пряди волос оптимизируются, чтобы они совпадали с исходной 3D плотностью.

Вуа-ля, у вас есть отличный виртуальный парик! Напяливаем и можно хоть в Фортнайт бегать (если стилизовать его еще).

@ai_newz
В Time вышла статья о том, что AI превзошел человека во многих задачах (ну, мы это и так знаем), а в которых еше не превзошел - скорость прогресса просто сумасшедашая.

Судя по графику, да и на моем опыте использования больших языковых моделей - код они пока не умеют писать также хорошо как опытные дяди (пока не лучше джуна), и в различных экзаменах, еще не везде бьют человека. Но приближаются, и улучшения идут очень бодренько.

Главная мысль статьи - судя по текущей ситуации, маловероятно, что прогресс в сфере AI замедлится в течение следующих нескольких лет.

@ai_newz
👀Breaking!

В твитторе автор статьи под названием "Würstchen" (нем. "Колбаска") делится результатами генерации новой модели Würstchen v2.

Генерация 4-х картинок 1024x2048 занимает 7 сек — неплохо так! Для сравнения, ванильной SDXL потребовалось бы 40 сек.

Würstchen v1 - это тоже Latent Diffusion (как и SDXL), но c более быстрой архитектурой Unet.
Автор пообещал, что в ближайшее время поделится деталями архитектуры v2.

@ai_newz
Llama2.rs

Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.

Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.

70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.

GitHub

@ai_newz
Чёрт, а представьте такой киберпанк — ты просишь Лламу5 переписать и оптимизировать инференс самой себя под определенное железо. И она этот код пишет, он компилируется и скорость инференса на твоем пне увеличивается в X раз 🤯.

@ai_newz
Encodec - High Fidelity Neural Audio Compression

Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.

Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.

Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.

Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.

Работает real-time на 1 ядре CPU (MB Pro 2019)

Примеры

@ai_newz