Machinelearning

⚡️

INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.

Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.

Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.

Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.

Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.

▶️

Детали проекта INTELLECT-1

INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.

В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.

▶️

Prime: фреймворк для децентрализованного обучения.

Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:

🟢

ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;

🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;

🟢Восстановление чекпоинтов в реальном времени;

🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;

🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.

🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.

🟢Выгрузка тензоров в CPU.

Дорожная карта Prime:

🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;

🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;

🟠Создание фреймворка для инициации децентрализованного цикла обучения.

Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.

Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.

▶️Локальная установка и запуск фреймворка Prime:

# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env

# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive

# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml