эйай ньюз
57.8K subscribers
1.38K photos
728 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
А вот так выглядит сам суперчип GB200.

Подробности: https://blogs.nvidia.com/blog/2024-gtc-keynote/

@ai_newz
Media is too big
VIEW IN TELEGRAM
Чел в кожаной куртке : “ChatGPT момент для роботов может быть уже за углом”

На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.

GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.

Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.

Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )

А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.

Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Stability.ai выкатили Stable Video 3D: 3D mesh из одной картинки через костыль в виде генерации видео

По одной фотографии Stable Video 3D генерит видео с вращающимся объектом, достраивая недостающие планы. Можно задать самому с каких углов генерить облет вокруг объекта. Получается видео, которое затем можно использовать для обучения NeRF и экстракции 3d меша. Сама моделька строится и файнтюнится из базовой Stable Video Diffusion.

Если использовать апскейлер (5 очков грифиндору за смекалку), то качество видео действительно улучшается, но вот меш все такой же кривой и бесполезный.

Модель влазит в 4090 (24GB VRAM), но с трудом. Нужно выставить параметр `decoding_t = 5` в `simple_video_sample.py`.

Сайт проекта
Модель и код

@ai_newz
Microsoft нанимает большую часть команды Inflection AI, с двумя сооснователями

Inflection - выходцы из DeepMind, они выпустили ассистента Pi, клон ChatGPT с "высоким эмоциональным интеллектом". Я писал о Pi раньше, у них очень классная озвучка голосом. Пару недель назад у Inflection вышла новая базовая модель – Inflection 2.5, которая бегает под капотом у Pi, и которая почти догнала GPT-4. Может быть и догнала бы если бы CEO (на фото) не тратил кучу времени на написание и продвижение своей книги.

Всё это, несмотря на неплохие технологии, не полетело и основной инвестор – Microsoft просто решил захайрить команду для работы над своими продуктами. Мустафа Сулеймани (до Inflection - один из сооснователей Deepmind) станет CEO Microsoft AI, в его владения переходит значительная часть AI продуктов Microsoft (Copilot, Bing, etc.). Карен Симонян (автор VGG Net), ещё один кофаундер, станет Chief Scientist. По словам Bloomberg с ними уходит большая часть команды. Microsoft уже пыталась провернуть такой трюк с OpenAI, когда там царил хаос после увольнения Альтмана – тогда не сложилось, но идея осталась.

В Inflection остаётся третий сооснователь - Рид Хоффман (кофаундер LinkedIn, ранний инвестор в OpenAI) и новый CEO - Шон Вайт, который особого отношения к AI раньше не имел. Планируют развернуть компанию в сторону продажи доступа к API и тренировки кастомных моделей для энтерпрайза. На обоих рынках конкуренция лютая, и не до конца понятно как Inflection будет продавать свои услуги. У компании остаются 22 тысячи H100, Inflection 2.5 и какая-то часть команды. Разработка Pi, судя по всему, заморожена. Как думаете, выкарабкаются?

@ai_newz
По слухам Chat GPT-5 зарелизят в ближайшие месяцы (mid-year)

Уважения к Business Insider за их бесконечные сливы у меня особенно нет, но довольно часто их слухи оказываются правдой. На этот раз они сообщают, что Open ai уже разослала демку долгожданной 5-ой версии некоторым партнёрам для тестов. К сожалению (или к счастью), о agi пока речи не идёт, но говорят что эта модель "значительно лучше".

Так же источник намекнул на возможность новой модели взаимодействовать с агентами внутри экосистемы open ai для выполнения сложных задач и автоматизации. Хорошая фича для корпоративных клиентов. И это похоже на правду, учитывая, что плагины удалили. За время беты ими мало кто пользовался и их накопилось чуть больше 1000.

Модель все еще тренируется, поэтому, конечно, ещё рано судить о том будет это революшен или минорный апдейт. Кто-то говорил, что нас ждет скачок сопоставимый с выходом 4й версии, а теперь говорят, что модель просто "значительно лучше". Как-то не слишком воодушевляет. Да и Sama вдруг заговорил о том, что они хотят двигаться "маленькими шажками".

Ещё, судя по презентации Nvidia, текущая GPT-4 возможно имеет около 1.8Т параметров, и новое железо от Nvidia позволит задеплоить GPT модели размером до 27Т параметров. Поэтому разумно предполагаю, что GPT-5 будет в диапазоне от 2T до 27Т.

@ai_newz
Forwarded from Сиолошная
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать
эйай ньюз
Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat Можно загрузить видео или целую папку с файлами для анализа Го тестировать
Она, правда, много откуда недоступна (во всей Европе не работает). Из Грузии, Казахстана и США должно работать.

Нужно менять регион в настройках гугл аккаунта.

Так что расчехляем випиэны.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🤖Продолжая разговор о гуманоидах: EVE от 1X

Только Nvidia представила свое будущее с блэкджеком и роботами, так оно уже стоит у нас на пороге.
Если честно, пока я смотрел видос про EVE, мой мозг представлял имнно человека в трикошках вместо робота.

Создан этот робот Норвежским стартапом 1X BET, который занимается разработкой андроидов для индустрии и для дома. В 22м году 1X запартнерились с OpenAi, а в начале этого года зарейзили еще $100м в series B.

Раньше под капотом EVE был огромный набор моделей затюненых под определённые задачи, которые включаются по ситуации.

1. Базовая модель для понимания физического мира и каких-то простых задач, типа передвижения предметов.
2. Чуть более узконаправленная модель. Например, для открывания дверей – ведь это одна из самых сложных задач с которой ботам приходится сталкиваться.
3. И еще более специфичная модель для того чтобы успешно дергать за ручку именно этой двери!

И вот недавно все эти модели объединили в одну большую универсальную e2e модель – так что теперь она может всё:)

Бот по голосовой команде может выполнять широкий спектр задач от уже упомянутой двери до уборки разбросанных вещей и складывания футболок в стопку. Кривовато, конечно, но как можно осуждать ребенка. Он ведь еще учится!

Как по мне, то Eve все еще очень медлительный. Забавно, что в названии компании 1X как раз подчеркивается, что они не ускоряют свои демо-видео, как это делают другие производители роботов, а проигрывают все на скорости 1x.

Разрабы утверждают, что могут научить свое детище новому скилу за пару минут! А затем робот будет самосовершенствоваться, оптимизируя процесс самостоятельно. (По крайней мере так говорит рекламка)

Eve уже можно купить (только для индустрии), но ценника на сайте нет. Видимо, вакансий на заводе скоро совсем не будет...

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

↪️ И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

↪️ Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают все же вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

↪️ В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

↪️ Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

↪️Убрали  L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

↪️ Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

↪️ Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет 🫥. Ждем веса, чтобы провести reality check!

Статья

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вдогонку, еще результаты SD3-Turbo:

Как улучшаетcя качество SD3-Turbo после применения DPO-LoRa.

==

Как фейлится модель на сложных промптах.

==

Сравнение 4-х шаговой SD3-Turbo с другими моделями, включая DALLE-3, MJ6 и Ideogram-1.0. Тут, конечно, есть сомнения, так как использовалась очень мелкая выборка промптов из PartiPrompts.

@ai_newz
Кажется, Stability.ai себя не очень хорошо чувствует как компания (нестабильно).

Сегодня Эмад ушел с поста CEO и из совета директоров, а ранее на этой неделе уволились ключевые авторы Stable Diffusion. Думаю, парни просто организуют что-то новое, а Стабилити как компания скоро может перестать существовать.

@ai_newz
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Увидел в Threads анекдот: Bloomberg потратил ~$10 миллионов (в AWS SageMaker) на тренировку BloombergGPT (50B параметров на 700B токенов), специально для финансовых задач. Иииии.... модель всухую проиграла на этих же финансовых тасках GPT-4, которая вышла за две недели до этого.

И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).

Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого 😂

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так эти двое могли бы дружно праздновать релиз GPT-5.

@ai_newz
Неродайджест за неделю (#10)

Я решил возобновить рубрику нейродайджестов (последний раз они были в 2023), думаю будет полезно. Тут будет выжимка всех основных постов за неделю со ссылками.

1. Новости AI и Big Tech
- Open Grok от XAI: новая модель с 314B параметров, и код доступен на GitHub. Полностью открыта, все веса на гихабе и никакой цензуры!
- Зарплаты в Big Tech vs. академия, GPU для народа: Washington Post осознали, что BigTech значительно превосходит академическую сферу по уровню зарплат.
- Apple готовится залететь в AI с двух ног, и покупает Darwin AI для ускорения и уменьшения AI моделей. А так же, ведет переговоры с Google. Это шаг к использованию LLM локально на устройствах.

2. Разработки и инновации
- Новые GPU от Nvidia: Blackwell B200 и GB200 "суперчип", ускоряющие AI тренировки и снижающие энергопотребление.
- ChatGPT момент для роботов может быть уже за углом: что нового Nvidia делает в робототехнике.
- Робот-Гуманоид EVE от норвежского стартапа 1X получил в качестве мозга одну большую модель, которая помогает ему выполнять разные задачи - это шаг к генерализации.
- Stable Video 3D от Stability: созданию 3D меша из одного изображения с помощью видео-дифуузии.

3. Обновления
- Google Gemini 1.5 Pro теперь доступен для всех, позволяя анализировать видео и файлы с 1M токенами контекста.
- Ожидается ChatGPT-5 этим летом, обещая значительные улучшения и новые возможности для пользователей и разработчиков.

4. Перспективы и предсказания
- BitNet 1.58 от Microsoft обещает оптимизировать инференс моделей, делая процесс в РАЗЫ быстрее и энергоэффективнее.
- SD3-Turbo: пейпер обещает prompt alignment и даже красоту лучше чем у миджорни за 4 шага диффузии.

5. Закулисье и инсайды
- Microsoft переманил к себе ⅔ основателей Inflection AI. Не понятно что теперь будет со стартапом.
- Stability ai: CEO и ключевые сотрудники ушли из компании. Стабилити - всё? Надеюсь, хоть SD3 заопенсорсят.
- История Bloomberg о том, как они свой BloombergGPT тренировали, и почему так делать не стоит.

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 74 FPS на шлеме Quest Pro.

Сайт проекта

@ai_newz