FPGA открывают новые горизонты в аппаратном обеспечении ИИ
FPGA - программируемые логические матрицы, универсальные чипы с низкими задержками и энергопотреблением.
В отличие от специализированных ASIC, FPGA можно перепрограммировать под разные задачи ИИ и машинного обучения.
Высокоуровневый синтез (HLS) упрощает разработку на FPGA с помощью C++ и Python.
Интеграция FPGA с GPU и TPU обещает создание мощных гибридных систем.
Спрос на универсальное ИИ-железо стимулирует инновации в FPGA.
Давно пора. Еще пару лет назад про это говорил. Очень напрашивается, как было в майнинге.
#FPGA #HybridAI #Hardware
-------
@tsingular
FPGA - программируемые логические матрицы, универсальные чипы с низкими задержками и энергопотреблением.
В отличие от специализированных ASIC, FPGA можно перепрограммировать под разные задачи ИИ и машинного обучения.
Высокоуровневый синтез (HLS) упрощает разработку на FPGA с помощью C++ и Python.
Интеграция FPGA с GPU и TPU обещает создание мощных гибридных систем.
Спрос на универсальное ИИ-железо стимулирует инновации в FPGA.
Давно пора. Еще пару лет назад про это говорил. Очень напрашивается, как было в майнинге.
#FPGA #HybridAI #Hardware
-------
@tsingular
Верите, нет, но это корпус компьютера.
Модель "мясом наружу".
Думал взять майнинговую раму, но этот практически такой же по цене, но прикольнее.
Под 2 видеокарты будет.
#Cryptone #hardware #распаковка #сборка
------
@tsungular
Модель "мясом наружу".
Думал взять майнинговую раму, но этот практически такой же по цене, но прикольнее.
Под 2 видеокарты будет.
#Cryptone #hardware #распаковка #сборка
------
@tsungular
🔥8👀3
Короче тут один товарищ в LinkedIn что пишет.
Агенты не нужны, РАГи не нужны, поиск этот ваш не нужен. Вообще ничего не нужно кроме Deepseek R1 в полной комплектации (это 800гигов VRAM) и цикл loop while количеством более 10 минут!.
Т.е. берёшь любую задачу, решаешь её DS и отдаешь ему же на оценку и исправление и переделку не глядя. (вьетнамские флэшбэки из школы)
И после 10-15 ти МИНУТ проверяешь.
Если брать в среднем 30 секунд на цикл, это не менее 20ти прогонов, а то и все 50...
Результаты 100% идеальны. И уж точно лучше любой команды людей.
Ну и классическая рекомендация - ИИ должен быть у вас локально, чтобы вы могли без ограничений грузить его такими циклами.
Сегодня это удовольствие стоит примерно $400К (7хH200 + память + железо вокруг неё) и помещается в 1 стойке.
Не такая уж и большая цена для юрлиц за "бога в коробке".
#deepseek #hardware
———
@tsingular
Агенты не нужны, РАГи не нужны, поиск этот ваш не нужен. Вообще ничего не нужно кроме Deepseek R1 в полной комплектации (это 800гигов VRAM) и цикл loop while количеством более 10 минут!.
Т.е. берёшь любую задачу, решаешь её DS и отдаешь ему же на оценку и исправление и переделку не глядя. (вьетнамские флэшбэки из школы)
И после 10-15 ти МИНУТ проверяешь.
Если брать в среднем 30 секунд на цикл, это не менее 20ти прогонов, а то и все 50...
Результаты 100% идеальны. И уж точно лучше любой команды людей.
Ну и классическая рекомендация - ИИ должен быть у вас локально, чтобы вы могли без ограничений грузить его такими циклами.
Сегодня это удовольствие стоит примерно $400К (7хH200 + память + железо вокруг неё) и помещается в 1 стойке.
Не такая уж и большая цена для юрлиц за "бога в коробке".
#deepseek #hardware
———
@tsingular
🤔17👍3🔥3🤯2❤🔥1
🚀 Cerebras WSE-3: революция в скорости AI благодаря полной загрузке модели в SRAM
Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:
Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!
⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM
На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с
Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.
📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше
🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic
💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания
🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.
Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.
Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.
Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.
Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.
#cerebras #chip #hardware
———
@tsingular
Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:
Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!
⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM
На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с
Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.
📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше
🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic
💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания
🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.
Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.
Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.
Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.
Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.
#cerebras #chip #hardware
———
@tsingular
👍10🔥9💯3✍1
А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware
———
@tsingular
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware
———
@tsingular
✍3