🚀 Cerebras WSE-3: революция в скорости AI благодаря полной загрузке модели в SRAM
Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:
Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!
⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM
На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с
Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.
📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше
🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic
💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания
🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.
Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.
Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.
Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.
Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.
#cerebras #chip #hardware
———
@tsingular
Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:
Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!
⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM
На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с
Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.
📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше
🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic
💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания
🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.
Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.
Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.
Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.
Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.
#cerebras #chip #hardware
———
@tsingular
👍10🔥9💯3✍1