эйай ньюз
63.8K subscribers
1.48K photos
789 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
XAI построили крупнейший тренировочный кластер в мире

Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии хватает примерно на четыре тысячи. В начале следующего месяца ситуация должна поправиться - подстанция, питающая датацентр заработает на полную. Это даст на него 50 мегаватт и позволит выйти на уровень производительности одного из двух кластеров, которые Meta запустила в марте. Полностью запустить кластер удастся только в конце этого года/начале следующего.

Затык в тренировке ИИ всё больше и больше не в чипах, а в энергии. Это приведёт в ближайшие годы к куче странных феноменов: мы всё больше будем видеть компании, сбрасывающие GPU прошлого поколения за бесценок, просто потому что их нечем питать. Так и в реакторы синтеза от Альтмана начинаешь верить.

Кажется, Grok 3 всё-таки релизнется по Elon time, а не в декабре

@ai_newz
эйай ньюз
XAI построили крупнейший тренировочный кластер в мире Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии…
Апдейт: кластер хоть запитан не весь, но работает там сильно больше GPU, чем можно подумать по его потреблению из электросети. А именно ~32 тысячи H100, треть кластера.

Секрет успеха - генераторы, которые подвезли прямо к кластеру. Если количество генераторов останется константным, то в августе может заработать уже больше половины кластера.

А вот в четвёртом квартале энергии будет уже с избытком - подведено к датацентру будет 200 мегаватт, тогда как кушать он будет всего ~150.

@ai_newz
Meta выпустила Llama 3.1

Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов.

https://llama.meta.com/

@ai_newz
Сравнение 3.1 с 3.0, бенчмарки заметно подросли, за счёт дистилляции 405B в модели поменьше.

@ai_newz
А вот сравнение моделей с конкурентами. У нас теперь есть модель уровня GPT-4o, которую могут скачать простые смертные (те, у которых есть одна нода 8xGPU). Ждём результаты с арены и вайбчеки от обычных юзеров.

@ai_newz
эйай ньюз
Meta выпустила Llama 3.1 Версии на 8B, 70B и наконец на 405B! Размер контекста увеличился до 128к токенов. https://llama.meta.com/ @ai_newz
Доступные для скачивания модели LLaMa 3.1

Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M

Примечание для 405B:
Выпустили несколько версий модели 405B, чтобы уместить ее большой размер и обеспечить различные варианты деплоя:
– MP16 (Model Parallel 16) - это полная версия весов BF16. Эти веса можно деплоить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU для деплоя.
– MP8 - это также полная версия весов BF16, но может быть задеплоена на одном ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8). Выложили код для этого.
– FP8 (Floating Point 8) - это квантованная версия весов. Эти веса можно деплоить на одном ноде с 8 GPU с использованием статической квантования FP. Есть код и для этого.
– Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.

@ai_newz
Первые API провайдеры начали предлагать Llama 3.1 405B в своих сервисах. И это теперь самая дешёвая фронтирная модель!

fireworks.ai продаёт токены по цене в $3 за миллион и input и output токенов (у 3.5 Sonnet - $3 input/$15 output, 4o - $5 input/$15 output). При этом цена может упасть ещё больше, по мере того как провайдеры конкурируют друг с другом.

Ждём чтобы context caching и batch API предоставляло больше провайдеров

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Llama 3.1 405B, квантизированная до 4 бит, запущенная на двух макбуках (128 гиг оперативки у каждого). Возможно это с помощью exo - тулы, позволяющей запускать модельку распределённо на нескольких девайсах. Поддерживаются практически любые GPU, телефоны, планшеты, макбуки и почти всё о чём можно подумать.

Запустить ламу на домашнем кластере

@ai_newz
День за днём новости все жарче!

Kling раскатили на весь мир. Регистрация просто по почте. Ожидаются кратковременные лежащие сервера. Хотя интересно как китайцы подготовились к наплыву.

В бесплатном режиме каждый день дают кредитов, которых хватит чтобы сгенерить 6 видео.

Бегом тестить на klingai.com

@ai_newz
⚡️Файнтюним LLaMa 3.1 8B бесплатно в Google Collab

Принес вам колабчик от Unsloth-ai, в котором можно бесплатно зафайнтюнить LLaMa 3.1 8B и еще кучу других моделей в 4 bit. Всё дело влазит в 8GB VRAM. Вот блогпост об этом.

Если хотите, то можно и Llama-3.1 70b затюнить c помощью QLoRA – потребуется 48GB VRAM.

https://colab.research.google.com/drive/1Ys44kVvmeZtnICzWz0xgpRnrIOjZAuxp?usp=sharing

@ai_newz
Эта арена сломалась, несите новую

Что-то GPT-4o mini слишком высоко на арене. Видимо, OpenAI начали слишком сильно тюнить модели для арены (если кто не знал, lmsys публикует 20% чатов, которые случаются на арене, OpenAI этого было достаточно). Что ж, закон Гудхарта в действии.

Кстати, с последнего раза, когда я писал об арене, топ-1 опенсорс модель успела смениться несколько раз. Сначала Nemotron 340B от Nvidia обошёл Llama 3.0 70B, после этого его уже обскакала Gemma 2, а сейчас лидирует новая версия DeepSeek V2. Llama 3.1 там ещё нет, но результаты должны быть уже скоро.

Узнать подробнее, что за Арена можно в этом посте.

@ai_newz
AlphaProof - нейросеть Google решает задачи с IMO (международной олимпиады по математике) на уровне серебряного медалиста

Модель идеально решила 4 проблемы из 6, набрав 28 баллов из 42. Для золотой медали нужно 29 баллов. Единственная проблема - на некоторые задачи уходило больше 60 часов, тогда как у человека на все задачи в сумме 9 часов.

Подход концептуально относительно простой - зафайнтюненная Gemini переводит условие задачи в формат Lean (инструмент доказательства теорем такой). Дальше в дело вступает знакомый алгоритм AlphaZero, который научили решать формальные проблемы.

Если вы не знакомы с Lean и интересно что это такое - попробуйте natural numbers game, это прекрасное введение в Lean, которое прошёл даже Терри Тао.

Блогпост

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI запустили превью своего поиска!

Это временный прототип, функции из которого планируют интегрировать в обычный ChatGPT. Поиск будет давать ссылки на источники. Ему можно будет задавать наводящие вопросы.

Отмечают, что они работают с издателями и криейторами чтобы лицензировать их контент. Это важно, ведь текущий лидер по ИИ поиску Perplexity (я, кстати, и сам им пользуюсь), недавно попал в скандал из-за игнорирования robots.txt.

Моя догадка: Скорее всего они будут покупать поисковые запросы у Бинга.

Записаться в вейтлист


@ai_newz
Слили список видео, на которых тренировали Runway GEN-3.

Спойлер: конечно же, там куча пиратского контента. Также выкачивали красивые блогерскик видео с Ютуба.

Хз, правда кого в 2024-м можно этим удивить.

404media ссылается на бывшего сотрудника, который слил целый документ со ссылками на избранные плейлисты и каналы в ютубе для парсинга видео в датасет. Кроме того, документ содержит ссылки на сайты с пиратскими фильмами.

Примечательно, что такие сливы обычно опираются на "чьи-то слова" и притянутые за уши примеры похожих генераций, а тут прям целый документ с конкретными ссылками и тегами.

Смешно, что до обращения 404media runway спокойно генерала видосы с именами Ютуберов в промпте, а сейчас говорят, отказывается работать, лол.

Интересно, чем этот скандал закончится. Я не удивлюсь, если и OpenAI тренились на видео из Ютуба, и поэтому сейчас они особенно боятся давать доступ к SORA (вы ещё помните, что такая была?).

Источник
Документ

@ai_newz
In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)

In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).

А есть ли что-то аналогичное для  Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.

В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:

1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.

Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.

В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.

В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.

В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться 🔫.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы прочитали пост выше и ничего не поняли, то вот вам подборка курсов и материалов, чтобы вкатиться в Reinforcement Learning (RL).

1️⃣Библия Reinforcement Learning от Ричарда Саттона, хардкорная книга со всей базой.

2️⃣Курс по Deep Reinforcement Learning от HuggingFace, с практикой.

3️⃣Spinning Up in Deep RL - мини-курс от OpenAI. База за 3 часа, с кодом.

4️⃣Пример как в гугле обучали мультизадачных робо-руки с помощью Offline RL. Довольно старая статья, но это интересный и понятный кейс.

Вперед к новым знаниям!

#ликбез
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел убийца Kling! Генерит за 30 секунд!

Ну почти...
Тут чуваки из Zhipu AI (это AI-стартап, китайский аналог Open AI со своим блэкджеком и ChatGPTGLM) выпустили свою Sora. Штука генерит 6-секундные видео за 30 секунд, что ну очень быстро, согласитесь (в Клинге я ждал больше часа, у Лумы 5 сек генерится 2 минуты). Так быстро работает, насколько я понял, из-за их хитрого 3D автоэнкодера, который сжимает представление видео в latent space до 2% от оригинального размера.

Вот промпты для видосиков из примера с голливудской адаптацией на английский язык от Google переводчика:

In a lush forest, some sunlight shines through the gaps between leaves, creating a Tyndall effect, giving the light shape.

When the tsunami roared in like a raging monster, the entire village was instantly swallowed up by the sea, just like a classic scene in a doomsday movie.

In the neon-lit city night scene, a little monkey full of cyber beauty holds high-tech tools and repairs equally flashing, futuristic electronic equipment.

Changing the style of painting, the kitten opened its mouth wide, showing a human-like confused expression, with question marks written all over its face.


Остальные без инструкций, так, для примера.

Качество ну не синематик, видно, что тренили на стоках и каких-то странных китайских видео. Назвали Qingying или Ying. Пока кредиты безлимитные. Я хотел потестить, но похоже, мы снова столкнулись с новым феноменом: paywall по-китайски. Опять нужен китайский номер :( Может, у кого из вас выйдет вот ссылка.

Как же китайцы дрючат!

Источник
Пытаемся вломиться здесь

@ai_newz