This media is not supported in your browser
VIEW IN TELEGRAM
💰 Цукерберг: $600B на ИИ к 2028 году
- К 2028 году Zuck вложит компания около $600 млрд в инфраструктуру для ИИ
- Уже известны планы компании: $70 млрд вложений в 2025 и примерно $100 млрд в 2026 году.
То есть траты будут расти взрывными темпами, и к концу десятилетия его компания станет одной из крупнейших инвестирующих компаний в мире.
- К 2028 году Zuck вложит компания около $600 млрд в инфраструктуру для ИИ
- Уже известны планы компании: $70 млрд вложений в 2025 и примерно $100 млрд в 2026 году.
То есть траты будут расти взрывными темпами, и к концу десятилетия его компания станет одной из крупнейших инвестирующих компаний в мире.
😱11👍2🔥2🥰2👏2
🦾 На Hugging Face опубликовали обзор открытых ML-датасетов, в котором выделили Yambda-5B от Яндекса — крупнейший в мире музыкальный рекомендательный датасет.
🎵 Yambda-5B содержит 4,79 млрд взаимодействий: прослушивания, лайки и дизлайки. Датасет идеально подходит для обучения и тестирования рекомендательных систем.
🗣 ML-эксперты Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) и Айксин Сан (NTU Singapore) отметили значимость датасета для исследований и индустрии.
🌍 Разработки Яндекса в области машинного обучения востребованы на глобальном уровне и применяются наряду с решениями мировых компаний.
https://huggingface.co/blog/avi81/open-datasets-and-tools-an-overview-for-hugging-fa
🎵 Yambda-5B содержит 4,79 млрд взаимодействий: прослушивания, лайки и дизлайки. Датасет идеально подходит для обучения и тестирования рекомендательных систем.
🗣 ML-эксперты Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) и Айксин Сан (NTU Singapore) отметили значимость датасета для исследований и индустрии.
🌍 Разработки Яндекса в области машинного обучения востребованы на глобальном уровне и применяются наряду с решениями мировых компаний.
https://huggingface.co/blog/avi81/open-datasets-and-tools-an-overview-for-hugging-fa
🤣19🔥13❤3👍3🗿2😨1
🧡 MATLAB + Google Colab
Теперь можно связать MATLAB и Python через Colab:
- Поднять бесплатный GPU в Google Colab
- Запустить полноценный MATLAB через MATLAB Package Manager
- Обучить deep learning модель с использованием GPU
- Экспортировать её в TensorFlow
- Протестировать в Python
⚡ Всё это занимает всего несколько минут.
🔗 Блог
@machinelearning_interview
Теперь можно связать MATLAB и Python через Colab:
- Поднять бесплатный GPU в Google Colab
- Запустить полноценный MATLAB через MATLAB Package Manager
- Обучить deep learning модель с использованием GPU
- Экспортировать её в TensorFlow
- Протестировать в Python
⚡ Всё это занимает всего несколько минут.
🔗 Блог
@machinelearning_interview
🔥16👍8❤3🙊3
🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)
💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.
Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор
Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты
📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом
🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.
🟢 Paper: https://arxiv.org/abs/2508.14094
🟢 Github: https://github.com/Pikus16/grpo_difficulty
💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.
Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор
Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты
📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом
🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤5🥰3
Здесь есть все — ссылки на бесплатные лекции от Стэнфорда, готовых агентов и чат-ботов, а также библиотеки для обучения собственных нейронок под любые задачи.
Репозитрий: https://github.com/balavenkatesh3322/awesome-AI-toolkit
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🥰3💊2
Media is too big
VIEW IN TELEGRAM
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.
Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).
В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.
При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.
Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.
OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍11🔥5
⚡️ REFRAG: новое поколение RAG
REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.
📌 Результаты:
- До 30.85× быстрее первый токен
- До 16× длиннее эффективный контекст без потери точности
🔍 В чём идея:
Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.
REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.
Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.
🎯 Как работает:
- Большинство чанков остаются сжатыми.
- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.
- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).
- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.
📄 Paper: arxiv.org/abs/2509.01092
REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.
📌 Результаты:
- До 30.85× быстрее первый токен
- До 16× длиннее эффективный контекст без потери точности
🔍 В чём идея:
Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.
REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.
Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.
🎯 Как работает:
- Большинство чанков остаются сжатыми.
- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.
- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).
- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.
📄 Paper: arxiv.org/abs/2509.01092
❤13👍8🔥5
🤖 «Пионер AI» рассказал о расставании, устроенном через ChatGPT
Джеффри Хинтон, известный как «крёстный отец ИИ», поделился, что его бывшая девушка воспользовалась ChatGPT, чтобы разорвать с ним отношения.
> “She got the chatbot to explain how awful my behaviour was and gave it to me,” — говорит Хинтон про момент расставания. По его словам, ему это не показалось таким уж тяжёлым переживанием:
> “I didn’t think I had been a rat, so it didn’t make me feel too bad. I met somebody I liked more, you know how it goes.”
Ещё один слой к теме: исследования говорят о том, что ChatGPT может усиливать чувство одиночества у активных пользователей.
📌 Подробности
Джеффри Хинтон, известный как «крёстный отец ИИ», поделился, что его бывшая девушка воспользовалась ChatGPT, чтобы разорвать с ним отношения.
> “She got the chatbot to explain how awful my behaviour was and gave it to me,” — говорит Хинтон про момент расставания. По его словам, ему это не показалось таким уж тяжёлым переживанием:
> “I didn’t think I had been a rat, so it didn’t make me feel too bad. I met somebody I liked more, you know how it goes.”
Ещё один слой к теме: исследования говорят о том, что ChatGPT может усиливать чувство одиночества у активных пользователей.
📌 Подробности
😁18👍8🔥5🥰3💔3❤2
🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Екатеринбурге и поборись за призовой фонд 600 000 рублей!
📅 Когда: 30 сентября–3 октября
🌐Формат: онлайн + финал на площадке
Участвуй, если ты:
🔹обучаешься на технической или ИТ-специальности;
🔹развиваешься в направлении разработки, аналитики, информационной безопасности или DevOp;
🔹сможешь быть в Екатеринбурге 3 октября.
Выбери свой кейс:
🔸 Terraform LogViewer: от хаоса к порядку. Разработай инструмент, который автоматизирует визуализацию и поиск проблем при развертывании и использовании инфраструктуры.
🔸 Обход защиты Web Application Firewall. Найди уязвимости, замаскируй атаки и попытайся «обойти» инструменты защиты ИБ.
Почему стоит участвовать:
🔻Кейс в портфолио и полезная обратная связь от менторов Т1;
🔻Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний;
🔻Реальный опыт командной работы;
🔻Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси.
Регистрация открыта!
➡️ Успей до 28 сентября по ссылке.
Ты не из Екатеринбурга, но хочешь принять участие? Смотри расписание хакатонов в других городах.
#реклама
О рекламодателе
📅 Когда: 30 сентября–3 октября
🌐Формат: онлайн + финал на площадке
Участвуй, если ты:
🔹обучаешься на технической или ИТ-специальности;
🔹развиваешься в направлении разработки, аналитики, информационной безопасности или DevOp;
🔹сможешь быть в Екатеринбурге 3 октября.
Выбери свой кейс:
🔸 Terraform LogViewer: от хаоса к порядку. Разработай инструмент, который автоматизирует визуализацию и поиск проблем при развертывании и использовании инфраструктуры.
🔸 Обход защиты Web Application Firewall. Найди уязвимости, замаскируй атаки и попытайся «обойти» инструменты защиты ИБ.
Почему стоит участвовать:
🔻Кейс в портфолио и полезная обратная связь от менторов Т1;
🔻Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний;
🔻Реальный опыт командной работы;
🔻Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси.
Регистрация открыта!
➡️ Успей до 28 сентября по ссылке.
Ты не из Екатеринбурга, но хочешь принять участие? Смотри расписание хакатонов в других городах.
#реклама
О рекламодателе
❤10
🚀 Инференс-движок для QWEN3-0.6B на CUDA
qwen600 — это минималистичный движок для инференса модели QWEN3-0.6B, разработанный с акцентом на производительность и простоту. Он использует статическую оптимизацию и работает без зависимостей от Python, что делает его идеальным для изучения LLM и CUDA.
🚀 Основные моменты:
- Высокая скорость: быстрее llama.cpp на 8.5%
- Оптимизированный для работы на RTX 3050
- Минимальные зависимости и простота конфигурации
- Эффективное управление памятью на GPU
- Поддержка режима размышлений для улучшенного вывода
📌 GitHub: https://github.com/yassa9/qwen600
#cuda
@machinelearning_interview
qwen600 — это минималистичный движок для инференса модели QWEN3-0.6B, разработанный с акцентом на производительность и простоту. Он использует статическую оптимизацию и работает без зависимостей от Python, что делает его идеальным для изучения LLM и CUDA.
🚀 Основные моменты:
- Высокая скорость: быстрее llama.cpp на 8.5%
- Оптимизированный для работы на RTX 3050
- Минимальные зависимости и простота конфигурации
- Эффективное управление памятью на GPU
- Поддержка режима размышлений для улучшенного вывода
📌 GitHub: https://github.com/yassa9/qwen600
#cuda
@machinelearning_interview
👍12❤4🔥4
Forwarded from Machinelearning
▪API:https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031
▪ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
▪Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
▪Blog:https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list
@ai_machinelearning_big_data
#ASR #SpeechRecognition #Qwen3 #AI #MachineLearning #DeepLearning #VoiceAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤8👏2
📰 Microsoft закупает GPU-мощности у Nebius за $17.4 млрд
Microsoft заключила 5-летний контракт с Nebius на поставку GPU-инфраструктуры.
✅ Сумма сделки: $17.4 млрд
✅ Поставки стартуют во второй половине 2025 года
✅ Мощность площадки Vineland - около 300MW, со «своей» энергией для стабильности кластеров
✅ Microsoft получает выделенные GPU-блоки, а не общий пул
🔎 Что это значит:
- Microsoft гарантирует себе долгосрочные мощности без огромных капзатрат «с первого дня»
- Nebius финансирует строительство за счёт контракта + долгов, что ускорит рост с 2026 года
- Контракт снижает риски перебоев в GPU-поставках для экосистемы Microsoft
📍 Nebius — AI-инфраструктурная компания из Амстердама (выделилась из Yandex), с R&D-хабами в Европе, Северной Америке и Израиле.
💹 Акции Nebius взлетели после анонса.
#Microsoft #Nebius #AI #GPU #Infrastructure
Microsoft заключила 5-летний контракт с Nebius на поставку GPU-инфраструктуры.
✅ Сумма сделки: $17.4 млрд
✅ Поставки стартуют во второй половине 2025 года
✅ Мощность площадки Vineland - около 300MW, со «своей» энергией для стабильности кластеров
✅ Microsoft получает выделенные GPU-блоки, а не общий пул
🔎 Что это значит:
- Microsoft гарантирует себе долгосрочные мощности без огромных капзатрат «с первого дня»
- Nebius финансирует строительство за счёт контракта + долгов, что ускорит рост с 2026 года
- Контракт снижает риски перебоев в GPU-поставках для экосистемы Microsoft
📍 Nebius — AI-инфраструктурная компания из Амстердама (выделилась из Yandex), с R&D-хабами в Европе, Северной Америке и Израиле.
💹 Акции Nebius взлетели после анонса.
#Microsoft #Nebius #AI #GPU #Infrastructure
🔥11👍7❤3🥰2🗿2
⚡️ Новый HunyuanImage-2.1 — мощный генератор 2K изображений от Tencent
В Hugging Face появился свежий Space —
Что это за модель?
HunyuanImage-2.1 — это эффективная текст-в-изображение модель, способная генерировать изображения в разрешении 2K (2048×2048) с отличной семантической связью и качеством. Основана на двухступенчатом пайплайне:
1. Базовая модель с двумя энкодерами текста (мультимодальный LLM и ByT5) и 17 млрд параметров, усиленная RLHF.
2. Refiner-модель улучшает детализацию и устраняет артефакты.
Также имеются:
- PromptEnhancer — автоматически улучшает ввод для более точных и выразительных изображений.
- Meanflow-дистилляция — ускоряет инференс с минимальным числом шагов.
Почему это интересно?
- Обеспечивает качественную генерацию семантически точных и визуально выразительных изображений. Модель демонстрирует сравнимый или лучший результат по сравнению с открытыми и закрытыми аналогами в оценках SSAE и GSB :contentReference[oaicite:0]{index=0}.
- Работает с мультиязычным вводом (английский и китайский) и поддерживает различные соотношения сторон (1:1, 16:9, 4:3 и др.).
- Бесплатно доступна: вес модели, код и демонстрация прямо в браузере через Hugging Face.
Как попробовать?
Перейдите на Space, введите свой текстовый запрос, и за секунды получите 2K визуализацию.
HunyuanImage-2.1 демонстрирует, как современные модели могут генерировать крупные и точные изображения, оставаясь при этом доступными и удобными в использовании.
Github: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
#HunyuanImage21 #TextToImage #AI #OpenSource
В Hugging Face появился свежий Space —
tencent/HunyuanImage-2.1
, где можно тестировать новейшую текст-в-изображение модель от Tencent.Что это за модель?
HunyuanImage-2.1 — это эффективная текст-в-изображение модель, способная генерировать изображения в разрешении 2K (2048×2048) с отличной семантической связью и качеством. Основана на двухступенчатом пайплайне:
1. Базовая модель с двумя энкодерами текста (мультимодальный LLM и ByT5) и 17 млрд параметров, усиленная RLHF.
2. Refiner-модель улучшает детализацию и устраняет артефакты.
Также имеются:
- PromptEnhancer — автоматически улучшает ввод для более точных и выразительных изображений.
- Meanflow-дистилляция — ускоряет инференс с минимальным числом шагов.
Почему это интересно?
- Обеспечивает качественную генерацию семантически точных и визуально выразительных изображений. Модель демонстрирует сравнимый или лучший результат по сравнению с открытыми и закрытыми аналогами в оценках SSAE и GSB :contentReference[oaicite:0]{index=0}.
- Работает с мультиязычным вводом (английский и китайский) и поддерживает различные соотношения сторон (1:1, 16:9, 4:3 и др.).
- Бесплатно доступна: вес модели, код и демонстрация прямо в браузере через Hugging Face.
Как попробовать?
Перейдите на Space, введите свой текстовый запрос, и за секунды получите 2K визуализацию.
HunyuanImage-2.1 демонстрирует, как современные модели могут генерировать крупные и точные изображения, оставаясь при этом доступными и удобными в использовании.
Github: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
#HunyuanImage21 #TextToImage #AI #OpenSource
❤6🔥6👍5
📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.
🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.
Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.
⚡ Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.
🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.
🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.
🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.
🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.
Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.
⚡ Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.
🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.
🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.
🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.
❤8🔥5👍3🥰2😱2