эйай ньюз
67.9K subscribers
1.52K photos
808 videos
7 files
1.84K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
🔥CM3leon - Новая универсальная генеративная модель для Картинок и текста

Ребята из Meta AI (FAIR) представили новую генеративную модель. Это по сути мультимодальная decoder-only LLM на базе архитектуры OPT, которая умеет работать как с изображениями, так и с текстом.

Для картинок используется предобученный токенизатор VQ-VAE, который разбивает 256x256 изображеие на 1024 токена из словаря размером в 8192.

Натренили модельку на 7 млрд параметров — CM3Leon-7B, которая хорошо генерит в 256x256 и выдает state-of-the-art FID = 4.8 на MS-COCO.

Модель умеет:
1. text-to-image
2. image-to-text, то есть можно спрашивать любые вопросы по картинке
3. image-to-image с текстовой инструкцией

Одна генерация 256x256 занимает 9 сек в int8 (для сравнения авторегрессионная модель Parti-3В требует 6.4 сек, но дает хуже результаты).

Блог
Статья

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Именно. PhD - это просто подтверждение того, что ты можешь долго и упорно бить в одну точку и, несмотря на неопределенность и долгие неудачи, идти к решению роблемы, создавать новое.

Это одна из причин почему в ресерч-команды в большинстве случаев нанимают именно людей с PhD (у нас в команде тоже так).

И на самом деле не очень важно иметь 100% совпадение темы PhD и того, над чем команда работает. Если видно, что человек способный и затащил PhD с сильными публикациями, то он разберется в любой новой теме.

@ai_newz
🔥Meta зарелизила набор моделей LLaMa-2-Chat разного размера!

Это огромное событие в мире опенсоурса и науки. Коллеги из LLM отдела GenAI выпустили бомбу! LLaMa-2 на 70B параметров сравнима по качетству с GPT-3.5 и даже лучше ее на некоторых бенчмарках.

Это, кстати, первая модель такого размера, затюненая c помощью RLHF, и которую выложили для коммерческого использования БЕСПЛАТНО. Запросить ссылку на скачивание можно тут.

Наконец-то, на базе LLaMa-2-Chat можно строить свои локальные аналоги ChatGPT и не отсылать никаких данных в OpenAI.

LLaMa 2-Chat сравнима по качеству с ChatGPT-3.5 по метрикам human eval, а, например, на математических задачах - даже лучше.

Размер контекста: 4к.
Тренировались модели на 2 триллионах токенов, что в два раза больше чем LLaMa 1.

Больше подробностей в статье

@ai_newz
Закрыл корпоративный гештальт. Пообщался 1 на 1 со всей цепочкой начальства, начиная с моего менеджера (с ним я и так каждый день вижусь), и до VP. В пятницу было последнее звено – наш Senior Director в GenAI. Осталось только выбить 1:1 слот с Марком 😅

В карьеризме важно, чтобы боссы знали тебя лично и были в курсе того, какие крутые штуки ты делаешь. Иначе можно делать много всякого, но если никто из лидеров об этом не знает, то признания за импакт ты не получишь.

У нашей команды довольно видное место в организации и в разговоре легко показать, что мы делаем для Generative AI. Конкретики пока не могу дать, так как еще не было релиза (мы работаем не только над ресерчем, но и делаем модели для продуктов).

@ai_newz
Еще немного про LLaMa-2

LLaMa-2 - это самая мощная языковая модель, которая есть в открытом доступе на сегодняшний день. Это дает огромны толчок дальнейшему развитию LLM и их использованию в разных продуктах. Открытй релиз LLaMA-1 породил просто тучу крутых проектов породил, я в предвкушении того, что в ближайшее время сделают на базе LLaMa-2, коротая еще позволяет и свободное коммерческое использование.

В интервью BBC, один из топов Meta, Nick Clegg, сказал, выпуск LLM в open-source делает их «более безопасными», так как привлекает тщательные исследования и анализ извне.
Вот еще несколько интересных мыслей от Ника:

- LLaMa-2 более безопасна, чем любая друга open-source модель на сегодняшний день (и это подтверждается бенчмарками в статье).

- По поводу экзистенциальной угрозы: «Я считаю, что шумиха несколько опережает технологии. Я думаю, что многие экзистенциальные угрозы относятся к моделям, которые в настоящее время не существуют, к так называемым сверхинтеллектуальным, сверхмощным моделям ИИ — вариант, в котором ИИ самостоятельно развивает автономию и свободу действий, где он может думать сам и воспроизводить себя.»

«Модели, исходный код которых мы открываем, далеки от этого. На самом деле, во многом они довольно глупы».

- Ник убежден, что AI должен регулироваться, и добавил, что это «не означает, что все AI модели должны быть открытыми».

За последние 10 лет Мета зарелизила в открытый доступ более 1000 моделей, библиотек и датасетов. Чего стоит только React, PyTorch и, например, недавняя модель Segment Anything. Мне кажется, некоторые другие компании незаслуженно зовутся "Open".

@ai_newz
В поддержку открытому подходу Меты к разработке AI (Statement of Support for Meta’s Open Approach to Today’s AI) подписалась куча влиятельного народа в сфере, включая топов крупных компаний и исследователей:

“We support an open innovation approach to AI. Responsible and open innovation gives us all a stake in the AI development process, bringing visibility, scrutiny and trust to these technologies. Opening today’s Llama models will let everyone benefit from this technology.”

Я кекнул, что в списке подписантов есть, например, AMD и NVIDIA (потому что на произведенном ими железе будут крутиться модели в датацентрах), но нет OpenAI.

@ai_newz
Apple GPT: На прошлой неделе прошел слух, что Apple строит свою языковую модель уровня ChatGPT

Apple увеличила свою рыночную стоимость на $71 млрд (!) после этой новости о тайной разработке конкурента ChatGPT. Это только подтверждает величину хайпа вокруг AI в этом году.

Что нам известно?
- Внутри Apple уже есть некий прототип чата на базе "Apple GPT", которым уже могут пользоваться разработчики. А в мае сотрудникам Apple запретили пользоваться ChatGPT.
- Для обучения больших языковых моделей они построили свой фреймворк Ajax на базе гуглового JAX.
- Выход технологии в продукт планируется не ранее 2024 года.

Эппл, как всегда, аккуратничает. Даже во время релиза AR шлема на WWDC, все упоминания слова AI были заменены на ML.

Вот как Тим Кук прокомментировал AI на созвоне инвесторов в мае:
"Мы продолжим внедрять это в нашу продукцию очень осознанно," - сказал он. "Я думаю, что очень важно быть рассудительными и обдуманными... Есть ряд вопросов, которые нужно разрешить." - Я думаю тут он говорит про приватность данных и галлюцинации моделей.

Пока не понятно в какие именно продукты они хотят встроить Apple GPT, но мне кажется наиболее вероятным, что первым делом они интегрируют AppleGPT в Siri, где как будто бы уже несколько лет не было сильного развития.

Apple славится сильным железом и Edge девайсами, но не очень умеет в масштабные облачные вычисления. Интересно, будут ли они пытаться делать инференс LLM прямо на мобильниках?

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🤯Там Андрей Карпатый уже вовсю запускает LLaMa-2 на рисоварке

Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.

llama2.c — тупо 500 строк... и без всяких внешних зависимостей. Шикарный код! Запускается хоть на чайнике, хоть на калькуляторе, если там есть CPU.

Из-за минималистичности, в коде реализована только точность fp32 и инференс на CPU с паралелизацией через OpenMP. Однако, можно гонять даже LLaMa-2 7B c адекватной скоростью.

Код llama2.c и модели

@ai_newz
Мой товарищ, который делает PhD у нас в GenAI в Лондоне, выпустил классную работу по трекингу пикселей на видео. Результаты говорят сами за себя.

Наконец-то можно забыть, что такое optical flow (он тупой как барабан, т.к. смотрит только на интенсивность цвета и не понимает семантику изображений).

Код и модели доступны на GitHub.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Новое интервью с Ильёй Суцкевером, ко-фаундером и главным сайнтистом в OpenAI.

Го смотреть!

Главные тейки от Ильи:
— Если вы верите, что биологический нейрон при должном упрощении похож на искусственный нейрон в нейронной сети, то у нас есть пример того, что очень большая нейронная сеть может достичь AGI. То есть "scale is all we need" (почти).

— AGI - это компьютерная система, которая может автоматизировать большую часть интеллектуального труда.

— "Are Transformers all we need?" - вопрос не корректно поставлен. С Трансформерами (такими, как они сейчас) мы сможем зайти очень далеко, но это не значит, что нет более эффективной архитектуры.

— Про LSTM vs Transformers. Если докрутить архитектуру LSTM, увеличить размер внутреннего состояния и сделать так, чтобы они стабильно тренировались на large scale, то с LSTM мы сможем зайти довольно далеко. В тоже время Илья считает что Трансформеры все равно будут слегка лучше.

— Мы не очень хорошо понимаем scaling laws.

(Продолжение ниже)

@ai_newz
Главные тейки от Ильи Суцкевера (ч.2):

— Илья пишет код в паре с GPT, и ему по кайфу, когда большую часть кода для него пишет нейросеть.

— Если мы сможем обуздать силу "супер-интеллекта" (то, что сейчас называют AI Alignment), то мы сможем существенно улучшить качество жизни людей. Тут мы говорим не о текущей GPT-4, а о чем-то гораздо более мощном и умном.

— Когда мы достигнем "супер-интеллекта", нам нужны будут регуляции и правила в сфере AI на уровне государств. Поэтому CEO OpenAI Сэм Альтман и ходит в Конгресс США на поклон.

@ai_newz
Недавно StabilityAI выпустили обновление - Stable Diffusion XL v1.0

Я наконец добрался до него и протестировал SDXL v0.9 (верхняя строка) vs SDXL v1.0 (нижняя срока). Я зафиксировал промпт, сид и количество шагов, и прогнал разные модели.

- Важно понимать, что архитектура модели не менялась. Они просто натренировали версию v1.0 на другом датасете, возможно более чистом.

- Модель стала более фотореалистичная, это заметно.

- Вроде бы стало меньше генерить уродцев с тремя руками.

- Понимание и рисование текста осталось таким же не очень.

- Есть проблемки с генерацией известных личностей. Они вроде бы и выглядт ок, но всегда какие-то детали лица не точно отражены. Ян ЛеКун не очень на себя похож, а Маска и Цукерберга так вообще смешало в одну личность - получился бой близнецов.

- Работает, мягко говоря, все еще не быстро. Скоро напишу о некоторых трюках для ускорения таких моделей.

Мой предыдущий пост про тест SDXL v0.9: тут.

❱❱ Код + веса
❱❱ Папира
❱❱ DreamStudio
❱❱ ClipDrop

@ai_newz
Друзья, в нашей команде в Meta Generative AI открылась вакансия Research Scientist. Я уверен, что среди моих читателей есть те, кто глубоко шарит в Gen AI, и на раз-два тренит всякие модели диффузии и LLM.

Так что если кто-то из вас хочет поработать в Цюрихе и заниматься крутыми вещами с влиянием на миллиарды пользователей, то стучите в личку.

Нам нужен сильный исследователь, который будет
- Участвовать в рисерче и публиковать статьи на топовых конференциях
- Разрабатывать SOTA генеративные модели, которые реально работают (и работают быстро) и выкатывать их в прод на масштабах Meta.

Требования:
- Опыт с Diffusion Models, GANs, and LLMs
- Публикации первым автором на топовых конфах типа CVPR, NeurIPS, ICCV, ICML... Вообще отлично - если по теме Gen AI.
- А, ну и да, нужен PhD.

Бонусом засчитывается:
- Медальки на Kaggle, стажировки, классные пет-проекты.
- Опыт оптимизации моделей для CPU/GPU/мобилок.
- Опыт выкатывания моделей в прод.

Вот ссылка. Если есть какие-то вопросы - пишите в комменты.

@ai_newz
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0

Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.

Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:

- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.

- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).

- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.

- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.

(Ждите серию постов про каждую из этих моделей)

Еще добавлены веса AudioGen и MultiBandDiffusion.

🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.

Блог
Код и веса
Демо в колабе
MusicGen ноутбук

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Аватары без волос не останутся!

Вышла работа CT2Hair: High-Fidelity 3D Hair Modeling using Computed Tomography для построения реалистичных 3д моделей волос.

На вход: CT (Computer Romography) скан парика.
На выходе: реконструкция высоко-детализированной 3D модель волос, где можно разглядеть отдельны волосинки.

Далее это дело можно пихать в любые пайплаынй 3д графики и симулировать движение волос на персонажах. Такие дела.

Очень клевая работа, под стать SIGGRAPH, где она и опубликована.

Код и данные для обучения - все в репозитории.
Сайт проекта.

@ai_newz