Анализ данных (Data analysis)
46.8K subscribers
2.5K photos
287 videos
1 file
2.18K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.

Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

https://leetgpu.com/

@data_analysis_ml

#cuda #gpu #cpu #playground
Please open Telegram to view this post
VIEW IN TELEGRAM
👍237🔥71
📖 Новая работа ByteDance + Harvard: *Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training*

Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.

🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.

🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине

Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая

🔗 https://arxiv.org/abs/2509.03018

#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard
6🔥6👍4