Вдохновившись NanoGPT, команда Hugging Face разработала Picotron — минималистичный фреймворк для обучения моделей с поддержкой 4D-параллелизма (Data, Tensor, Pipeline, Context parallel).
Проект задуман как учебный инструмент и его код умещается в 300 строк, чтобы эксперименты и изучение тонкостей распределенного обучения были просты и доступны.
По тестам, Picotron показывает MFU до 38% на LLaMA-2-7B (64 GPU H100) и около 50% для SmolLM-1.7B (8 H100). Хотя производительность пока не рекордная, разработчики активно ее улучшают.
MFU (Model FLOPS Utilization) — это метрика, которая показывает, насколько эффективно используются вычислительные ресурсы GPU во время обучения модели. Она рассчитывается как отношение реально выполненных операций с плавающей точкой (FLOPS) к теоретически максимально возможному количеству операций этой видеокарты.
Фреймворк фокусируется на образовании — авторы выпустили серию обучающих видео, где шаг за шагом объясняют, как собрать систему с нуля и отдельный репозиторий с скриптами-примерами каждой операции.
Для старта достаточно создать конфиг через
create_config.py
и запустить обучение через torchrun
. Поддерживаются 3D-параллелизм, Slurm и даже CPU (но последний — медленно).⚠️ Picotron использует API HF, токен создать можно в профиле учетной записи тут.
@ai_machinelearning_big_data
#AI #ML #LLM #Parallelism #HuggingFace #Picotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥34❤31🤣7