Media is too big
VIEW IN TELEGRAM
Новое интервью с Ильёй Суцкевером, ко-фаундером и главным сайнтистом в OpenAI.
Го смотреть!
Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того, что очень большая нейронная сеть может достичь AGI. То есть "scale is all we need" (почти).
— AGI - это компьютерная система, которая может автоматизировать большую часть интеллектуального труда.
— "Are Transformers all we need?" - вопрос не корректно поставлен. С Трансформерами (такими, как они сейчас) мы сможем зайти очень далеко, но это не значит, что нет более эффективной архитектуры.
— Про LSTM vs Transformers. Если докрутить архитектуру LSTM, увеличить размер внутреннего состояния и сделать так, чтобы они стабильно тренировались на large scale, то с LSTM мы сможем зайти довольно далеко. В тоже время Илья считает что Трансформеры все равно будут слегка лучше.
— Мы не очень хорошо понимаем scaling laws.
(Продолжение ниже)
@ai_newz
Го смотреть!
Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того, что очень большая нейронная сеть может достичь AGI. То есть "scale is all we need" (почти).
— AGI - это компьютерная система, которая может автоматизировать большую часть интеллектуального труда.
— "Are Transformers all we need?" - вопрос не корректно поставлен. С Трансформерами (такими, как они сейчас) мы сможем зайти очень далеко, но это не значит, что нет более эффективной архитектуры.
— Про LSTM vs Transformers. Если докрутить архитектуру LSTM, увеличить размер внутреннего состояния и сделать так, чтобы они стабильно тренировались на large scale, то с LSTM мы сможем зайти довольно далеко. В тоже время Илья считает что Трансформеры все равно будут слегка лучше.
— Мы не очень хорошо понимаем scaling laws.
(Продолжение ниже)
@ai_newz
Главные тейки от Ильи Суцкевера (ч.2):
— Илья пишет код в паре с GPT, и ему по кайфу, когда большую часть кода для него пишет нейросеть.
— Если мы сможем обуздать силу "супер-интеллекта" (то, что сейчас называют AI Alignment), то мы сможем существенно улучшить качество жизни людей. Тут мы говорим не о текущей GPT-4, а о чем-то гораздо более мощном и умном.
— Когда мы достигнем "супер-интеллекта", нам нужны будут регуляции и правила в сфере AI на уровне государств. Поэтому CEO OpenAI Сэм Альтман и ходит в Конгресс США на поклон.
@ai_newz
— Илья пишет код в паре с GPT, и ему по кайфу, когда большую часть кода для него пишет нейросеть.
— Если мы сможем обуздать силу "супер-интеллекта" (то, что сейчас называют AI Alignment), то мы сможем существенно улучшить качество жизни людей. Тут мы говорим не о текущей GPT-4, а о чем-то гораздо более мощном и умном.
— Когда мы достигнем "супер-интеллекта", нам нужны будут регуляции и правила в сфере AI на уровне государств. Поэтому CEO OpenAI Сэм Альтман и ходит в Конгресс США на поклон.
@ai_newz
Telegram
эйай ньюз
Новое интервью с Ильёй Суцкевером, ко-фаундером и главным сайнтистом в OpenAI.
Го смотреть!
Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того…
Го смотреть!
Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того…
Недавно StabilityAI выпустили обновление - Stable Diffusion XL v1.0
Я наконец добрался до него и протестировал SDXL v0.9 (верхняя строка) vs SDXL v1.0 (нижняя срока). Я зафиксировал промпт, сид и количество шагов, и прогнал разные модели.
- Важно понимать, что архитектура модели не менялась. Они просто натренировали версию v1.0 на другом датасете, возможно более чистом.
- Модель стала более фотореалистичная, это заметно.
- Вроде бы стало меньше генерить уродцев с тремя руками.
- Понимание и рисование текста осталось таким же не очень.
- Есть проблемки с генерацией известных личностей. Они вроде бы и выглядт ок, но всегда какие-то детали лица не точно отражены. Ян ЛеКун не очень на себя похож, а Маска и Цукерберга так вообще смешало в одну личность - получился бой близнецов.
- Работает, мягко говоря, все еще не быстро. Скоро напишу о некоторых трюках для ускорения таких моделей.
Мой предыдущий пост про тест SDXL v0.9: тут.
❱❱ Код + веса
❱❱ Папира
❱❱ DreamStudio
❱❱ ClipDrop
@ai_newz
Я наконец добрался до него и протестировал SDXL v0.9 (верхняя строка) vs SDXL v1.0 (нижняя срока). Я зафиксировал промпт, сид и количество шагов, и прогнал разные модели.
- Важно понимать, что архитектура модели не менялась. Они просто натренировали версию v1.0 на другом датасете, возможно более чистом.
- Модель стала более фотореалистичная, это заметно.
- Вроде бы стало меньше генерить уродцев с тремя руками.
- Понимание и рисование текста осталось таким же не очень.
- Есть проблемки с генерацией известных личностей. Они вроде бы и выглядт ок, но всегда какие-то детали лица не точно отражены. Ян ЛеКун не очень на себя похож, а Маска и Цукерберга так вообще смешало в одну личность - получился бой близнецов.
- Работает, мягко говоря, все еще не быстро. Скоро напишу о некоторых трюках для ускорения таких моделей.
Мой предыдущий пост про тест SDXL v0.9: тут.
❱❱ Код + веса
❱❱ Папира
❱❱ DreamStudio
❱❱ ClipDrop
@ai_newz
Друзья, в нашей команде в Meta Generative AI открылась вакансия Research Scientist. Я уверен, что среди моих читателей есть те, кто глубоко шарит в Gen AI, и на раз-два тренит всякие модели диффузии и LLM.
Так что если кто-то из вас хочет поработать в Цюрихе и заниматься крутыми вещами с влиянием на миллиарды пользователей, то стучите в личку.
Нам нужен сильный исследователь, который будет
- Участвовать в рисерче и публиковать статьи на топовых конференциях
- Разрабатывать SOTA генеративные модели, которые реально работают (и работают быстро) и выкатывать их в прод на масштабах Meta.
Требования:
- Опыт с Diffusion Models, GANs, and LLMs
- Публикации первым автором на топовых конфах типа CVPR, NeurIPS, ICCV, ICML... Вообще отлично - если по теме Gen AI.
- А, ну и да, нужен PhD.
Бонусом засчитывается:
- Медальки на Kaggle, стажировки, классные пет-проекты.
- Опыт оптимизации моделей для CPU/GPU/мобилок.
- Опыт выкатывания моделей в прод.
Вот ссылка. Если есть какие-то вопросы - пишите в комменты.
@ai_newz
Так что если кто-то из вас хочет поработать в Цюрихе и заниматься крутыми вещами с влиянием на миллиарды пользователей, то стучите в личку.
Нам нужен сильный исследователь, который будет
- Участвовать в рисерче и публиковать статьи на топовых конференциях
- Разрабатывать SOTA генеративные модели, которые реально работают (и работают быстро) и выкатывать их в прод на масштабах Meta.
Требования:
- Опыт с Diffusion Models, GANs, and LLMs
- Публикации первым автором на топовых конфах типа CVPR, NeurIPS, ICCV, ICML... Вообще отлично - если по теме Gen AI.
- А, ну и да, нужен PhD.
Бонусом засчитывается:
- Медальки на Kaggle, стажировки, классные пет-проекты.
- Опыт оптимизации моделей для CPU/GPU/мобилок.
- Опыт выкатывания моделей в прод.
Вот ссылка. Если есть какие-то вопросы - пишите в комменты.
@ai_newz
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0
Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.
Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:
- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.
- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).
- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.
- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.
(Ждите серию постов про каждую из этих моделей)
Еще добавлены веса AudioGen и MultiBandDiffusion.
🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.
Блог
Код и веса
Демо в колабе
MusicGen ноутбук
@ai_newz
Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.
Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:
- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.
- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).
- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.
- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.
(Ждите серию постов про каждую из этих моделей)
Еще добавлены веса AudioGen и MultiBandDiffusion.
🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.
Блог
Код и веса
Демо в колабе
MusicGen ноутбук
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Аватары без волос не останутся!
Вышла работа CT2Hair: High-Fidelity 3D Hair Modeling using Computed Tomography для построения реалистичных 3д моделей волос.
На вход: CT (Computer Romography) скан парика.
На выходе: реконструкция высоко-детализированной 3D модель волос, где можно разглядеть отдельны волосинки.
Далее это дело можно пихать в любые пайплаынй 3д графики и симулировать движение волос на персонажах. Такие дела.
Очень клевая работа, под стать SIGGRAPH, где она и опубликована.
Код и данные для обучения - все в репозитории.
Сайт проекта.
@ai_newz
Вышла работа CT2Hair: High-Fidelity 3D Hair Modeling using Computed Tomography для построения реалистичных 3д моделей волос.
На вход: CT (Computer Romography) скан парика.
На выходе: реконструкция высоко-детализированной 3D модель волос, где можно разглядеть отдельны волосинки.
Далее это дело можно пихать в любые пайплаынй 3д графики и симулировать движение волос на персонажах. Такие дела.
Очень клевая работа, под стать SIGGRAPH, где она и опубликована.
Код и данные для обучения - все в репозитории.
Сайт проекта.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так выглядит пайплан CT2Hair, если не вдаваться в детали.
1. Вычисление 3D ориентационного поля: Начальный этап начинается с вычисления 3D ориентаций из входной плотности 3D скана.
2. Генерация направляющих прядей (guide strands): Затем создают направляющие пряди, используя рассчитанные ориентации.
3. Интерполяция направляющих прядей: Далее направляющие пряди интерполируют, чтобы они равномерно распределялись по коже головы.
4. Оптимизация: Оцененный пряди волос оптимизируются, чтобы они совпадали с исходной 3D плотностью.
Вуа-ля, у вас есть отличный виртуальный парик! Напяливаем и можно хоть в Фортнайт бегать (если стилизовать его еще).
@ai_newz
1. Вычисление 3D ориентационного поля: Начальный этап начинается с вычисления 3D ориентаций из входной плотности 3D скана.
2. Генерация направляющих прядей (guide strands): Затем создают направляющие пряди, используя рассчитанные ориентации.
3. Интерполяция направляющих прядей: Далее направляющие пряди интерполируют, чтобы они равномерно распределялись по коже головы.
4. Оптимизация: Оцененный пряди волос оптимизируются, чтобы они совпадали с исходной 3D плотностью.
Вуа-ля, у вас есть отличный виртуальный парик! Напяливаем и можно хоть в Фортнайт бегать (если стилизовать его еще).
@ai_newz
В Time вышла статья о том, что AI превзошел человека во многих задачах (ну, мы это и так знаем), а в которых еше не превзошел - скорость прогресса просто сумасшедашая.
Судя по графику, да и на моем опыте использования больших языковых моделей - код они пока не умеют писать также хорошо как опытные дяди (пока не лучше джуна), и в различных экзаменах, еще не везде бьют человека. Но приближаются, и улучшения идут очень бодренько.
Главная мысль статьи - судя по текущей ситуации, маловероятно, что прогресс в сфере AI замедлится в течение следующих нескольких лет.
@ai_newz
Судя по графику, да и на моем опыте использования больших языковых моделей - код они пока не умеют писать также хорошо как опытные дяди (пока не лучше джуна), и в различных экзаменах, еще не везде бьют человека. Но приближаются, и улучшения идут очень бодренько.
Главная мысль статьи - судя по текущей ситуации, маловероятно, что прогресс в сфере AI замедлится в течение следующих нескольких лет.
@ai_newz
👀Breaking!
В твитторе автор статьи под названием "Würstchen" (нем. "Колбаска") делится результатами генерации новой модели Würstchen v2.
Генерация 4-х картинок 1024x2048 занимает 7 сек — неплохо так! Для сравнения, ванильной SDXL потребовалось бы 40 сек.
Würstchen v1 - это тоже Latent Diffusion (как и SDXL), но c более быстрой архитектурой Unet.
Автор пообещал, что в ближайшее время поделится деталями архитектуры v2.
@ai_newz
В твитторе автор статьи под названием "Würstchen" (нем. "Колбаска") делится результатами генерации новой модели Würstchen v2.
Генерация 4-х картинок 1024x2048 занимает 7 сек — неплохо так! Для сравнения, ванильной SDXL потребовалось бы 40 сек.
Würstchen v1 - это тоже Latent Diffusion (как и SDXL), но c более быстрой архитектурой Unet.
Автор пообещал, что в ближайшее время поделится деталями архитектуры v2.
@ai_newz
Llama2.rs
Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.
Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.
70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.
GitHub
@ai_newz
Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.
Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.
70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.
GitHub
@ai_newz
GitHub
GitHub - srush/llama2.rs: A fast llama2 decoder in pure Rust.
A fast llama2 decoder in pure Rust. . Contribute to srush/llama2.rs development by creating an account on GitHub.
Чёрт, а представьте такой киберпанк — ты просишь Лламу5 переписать и оптимизировать инференс самой себя под определенное железо. И она этот код пишет, он компилируется и скорость инференса на твоем пне увеличивается в X раз 🤯.
@ai_newz
@ai_newz
Encodec - High Fidelity Neural Audio Compression
Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.
Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.
Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.
Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.
Работает real-time на 1 ядре CPU (MB Pro 2019)
Примеры
@ai_newz
Рассмотрим подробнее, как работает один из SOTA методов по сжатию звука. Принцип похож на VQGAN для картинок.
Архитектура быстра и легка. Это автоэнкодер: в энкодере - 1D конволюции и двухслойный LSTM (для агрегации глобального контекста), декодер - зеркальное отражение. В ботлнеке происходит квантизация векторов с помощью Residual Vector Quantization - это хитрый трюк, который позволяет одному вектору ставить в соответствие серию из N токенов из разных словарей, каждый из которых кодирует невязку, получаемую после предыдущего токена.
Для ускорения обучают еще небольшой трансформер в ботлнеке, кодирующий каждый вектор в N токенов параллельно, а не последовательно.
Все тренируется end-to-end с лоссами:
- Reconstruction loss во временном домене (исходный аудио сигнал) и в частотном (FT спектрограма).
- Adversarial loss от дискриминаторов на разном разрешении.
- Лосс для квантизации.
Работает real-time на 1 ядре CPU (MB Pro 2019)
Примеры
@ai_newz