Интересное что-то

Forwarded from Ebout Data Science | Дима Савелко

Андрюша Карпатый снова навалил базы: nanochat miniseries v1

😮

Андрей Карпатый не перестаёт радовать нас годным контентом. Он выкатил жирный апдейт в своём репозитории nanochat - проекте, который учит создавать свой ChatLGBT с полного нуля.

Если раньше мы просто учились запускать пайплайн, чтобы оно работало, то теперь Андрюха погружает нас именно в сам процесс обучения. Главный вопрос апдейта: как тратить вычислительные ресурсы (бабосиксаны) максимально эффективно? 🤔

Разбираем, что там внутри:

1️⃣

Scaling Laws
Для многих новичков подбор параметров модели звучит как что-то непонятное, но Карпатый показывает, что это - строгая и понятная математика. Суть проста: хватит гадать на кофейной гуще, какую архитектуру выбрать и сколько данных скормить. Бро использует законы масштабирования.

Эксперимент: Карпатый запустил серию обучений (miniseries) с фиксированным бюджетом (~$100 на H100) и потратил его по-разному:
🟣 Одни модели были «маленькими», но учились долго (много токенов)
🟡 Другие были «жирными», но учились быстро (мало токенов)

Результат: Все модели стоили одинаково, но одна конкретная конфигурация дала лучшее качество

2️⃣

Предсказуемость - наше всё
Вы не играете в казик, когда запускаете обучение. Вы можете провести дешёвые эксперименты за сотку баксов, найти идеальную формулу, а затем просто увеличить масштаб (вложить $100k или $1M) и гарантированно получить ожидаемый прирост качества. Инженеры OpenAI/Anthropic не тыкают пальцем в небо, они так считает деньги и масштабы 🍗

3️⃣

Сдвиг фокуса на Pretraining
В первой версии nanochat фишкой был «полный цикл» до веб-интерфейса. В miniseries v1 акцент сместился на Pretraining. Запомните: именно здесь закладывается фундамент интеллекта. Если вы обосрались на претрейне, то никакой файн-тюн (SFT/RLHF) это уже не исправит 🍌

Что с этим делать? Если хотите реально понимать, как работают LLM , а не просто импортировать либы:
• Залетайте в обсуждение: github.com/karpathy/nanochat/discussions/420
• Смотрите на графики Loss vs Compute
• Ковыряйте код скрипта miniseries.sh - это эталон того, как нужно организовывать эксперименты

Итог

🏋️

Масштабирование - это сплошная инженерка. Андрюха дал вам песочницу, чтобы освоить её за копейки, прежде чем лезть в серьёзные бюджеты. Поэтому тыкаем это обсуждение с ЛЛМ-кой, чтобы понять его

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

99 views18:05