Технозаметки Малышева

Новая аналитика от любимых Epoch AI: с 2022 Nvidia продала около 3 млн GPU H100

💵

При этом большинство продаж пришлось всего на 4 комапнии: Google, Microsoft, Meta и Amazon (не удивляйтесь, что тут нет OpenAI: они арендуют компьют у Microsoft).

При этом все перечисленные гиганты дополнительно разрабатывают собственные чипы, которые, правда, в основном не продают, а просто используют внутри компании или сдают в аренду в облаках.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

873 views09:58

Технозаметки Малышева

Законы масштабирования ИИ от NVIDIA

Pretraining Scaling:
Больше параметров
Больше данных
Больше вычислительной мощности
= Лучше результат

Именно отсюда растут модели на триллионы параметров и MoE (Mixture of Experts) архитектуры.

Post-training Scaling:
Fine-tuning на специфических задачах
Дистилляция (большая модель учит маленькую)
RLHF/RLAIF для коррекции на обратной связи от человека или ИИ
Best-of-n sampling для улучшения выходных данных

Неожиданный факт: на пост-тренинг производных моделей уходит в 30 раз больше вычислений, чем на тренировку базовой! 🤯

Test-time Scaling (он же Long/Deep Thinking) - горячий тренд:
Модель не выдаёт ответ сразу, а "размышляет"
На сложных задачах может думать минутами или часами
Потребляет в 100 раз больше ресурсов по сравнению с обычным инференсом
Использует chain-of-thought prompting и поиск по дереву решений

Технические детали:
Chain-of-thought: разбивает сложные проблемы на простые шаги

Majority voting: генерирует несколько ответов и выбирает самый частый

Search: исследует дерево возможных решений

Что дальше?
Уже появились первые модели с упором на reasoning:

OpenAI o1-mini и o3-mini
DeepSeek R1
Gemini 2.0 Flash Thinking

Индустрия делает серьёзную ставку на "думающие" модели - но это требует космических вычислительных ресурсов.

Нужно больше золота, милорд! :)

#NVIDIA #ScalingLaws #Computing
———
@tsingular

👍7

950 views08:35

About

Blog

Apps

Platform