Forwarded from Data Secrets
Новая аналитика от любимых Epoch AI: с 2022 Nvidia продала около 3 млн GPU H100 💵
При этом большинство продаж пришлось всего на 4 комапнии: Google, Microsoft, Meta и Amazon (не удивляйтесь, что тут нет OpenAI: они арендуют компьют у Microsoft).
При этом все перечисленные гиганты дополнительно разрабатывают собственные чипы, которые, правда, в основном не продают, а просто используют внутри компании или сдают в аренду в облаках.
При этом большинство продаж пришлось всего на 4 комапнии: Google, Microsoft, Meta и Amazon (не удивляйтесь, что тут нет OpenAI: они арендуют компьют у Microsoft).
При этом все перечисленные гиганты дополнительно разрабатывают собственные чипы, которые, правда, в основном не продают, а просто используют внутри компании или сдают в аренду в облаках.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Законы масштабирования ИИ от NVIDIA
Pretraining Scaling:
Больше параметров
Больше данных
Больше вычислительной мощности
= Лучше результат
Именно отсюда растут модели на триллионы параметров и MoE (Mixture of Experts) архитектуры.
Post-training Scaling:
Fine-tuning на специфических задачах
Дистилляция (большая модель учит маленькую)
RLHF/RLAIF для коррекции на обратной связи от человека или ИИ
Best-of-n sampling для улучшения выходных данных
Неожиданный факт: на пост-тренинг производных моделей уходит в 30 раз больше вычислений, чем на тренировку базовой! 🤯
Test-time Scaling (он же Long/Deep Thinking) - горячий тренд:
Модель не выдаёт ответ сразу, а "размышляет"
На сложных задачах может думать минутами или часами
Потребляет в 100 раз больше ресурсов по сравнению с обычным инференсом
Использует chain-of-thought prompting и поиск по дереву решений
Технические детали:
Chain-of-thought: разбивает сложные проблемы на простые шаги
Majority voting: генерирует несколько ответов и выбирает самый частый
Search: исследует дерево возможных решений
Что дальше?
Уже появились первые модели с упором на reasoning:
OpenAI o1-mini и o3-mini
DeepSeek R1
Gemini 2.0 Flash Thinking
Индустрия делает серьёзную ставку на "думающие" модели - но это требует космических вычислительных ресурсов.
Нужно больше золота, милорд! :)
#NVIDIA #ScalingLaws #Computing
———
@tsingular
Pretraining Scaling:
Больше параметров
Больше данных
Больше вычислительной мощности
= Лучше результат
Именно отсюда растут модели на триллионы параметров и MoE (Mixture of Experts) архитектуры.
Post-training Scaling:
Fine-tuning на специфических задачах
Дистилляция (большая модель учит маленькую)
RLHF/RLAIF для коррекции на обратной связи от человека или ИИ
Best-of-n sampling для улучшения выходных данных
Неожиданный факт: на пост-тренинг производных моделей уходит в 30 раз больше вычислений, чем на тренировку базовой! 🤯
Test-time Scaling (он же Long/Deep Thinking) - горячий тренд:
Модель не выдаёт ответ сразу, а "размышляет"
На сложных задачах может думать минутами или часами
Потребляет в 100 раз больше ресурсов по сравнению с обычным инференсом
Использует chain-of-thought prompting и поиск по дереву решений
Технические детали:
Chain-of-thought: разбивает сложные проблемы на простые шаги
Majority voting: генерирует несколько ответов и выбирает самый частый
Search: исследует дерево возможных решений
Что дальше?
Уже появились первые модели с упором на reasoning:
OpenAI o1-mini и o3-mini
DeepSeek R1
Gemini 2.0 Flash Thinking
Индустрия делает серьёзную ставку на "думающие" модели - но это требует космических вычислительных ресурсов.
Нужно больше золота, милорд! :)
#NVIDIA #ScalingLaws #Computing
———
@tsingular
👍7