Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
FPGA открывают новые горизонты в аппаратном обеспечении ИИ

FPGA - программируемые логические матрицы, универсальные чипы с низкими задержками и энергопотреблением.
В отличие от специализированных ASIC, FPGA можно перепрограммировать под разные задачи ИИ и машинного обучения.
Высокоуровневый синтез (HLS) упрощает разработку на FPGA с помощью C++ и Python.
Интеграция FPGA с GPU и TPU обещает создание мощных гибридных систем.
Спрос на универсальное ИИ-железо стимулирует инновации в FPGA.

Давно пора. Еще пару лет назад про это говорил. Очень напрашивается, как было в майнинге.

#FPGA #HybridAI #Hardware
-------
@tsingular
Верите, нет, но это корпус компьютера.
Модель "мясом наружу".

Думал взять майнинговую раму, но этот практически такой же по цене, но прикольнее.

Под 2 видеокарты будет.

#Cryptone #hardware #распаковка #сборка
------
@tsungular
🔥8👀3
Короче тут один товарищ в LinkedIn что пишет.

Агенты не нужны, РАГи не нужны, поиск этот ваш не нужен. Вообще ничего не нужно кроме Deepseek R1 в полной комплектации (это 800гигов VRAM) и цикл loop while количеством более 10 минут!.

Т.е. берёшь любую задачу, решаешь её DS и отдаешь ему же на оценку и исправление и переделку не глядя. (вьетнамские флэшбэки из школы)
И после 10-15 ти МИНУТ проверяешь.
Если брать в среднем 30 секунд на цикл, это не менее 20ти прогонов, а то и все 50...

Результаты 100% идеальны. И уж точно лучше любой команды людей.

Ну и классическая рекомендация - ИИ должен быть у вас локально, чтобы вы могли без ограничений грузить его такими циклами.
Сегодня это удовольствие стоит примерно $400К (7хH200 + память + железо вокруг неё) и помещается в 1 стойке.
Не такая уж и большая цена для юрлиц за "бога в коробке".

#deepseek #hardware
———
@tsingular
🤔17👍3🔥3🤯2❤‍🔥1
🚀 Cerebras WSE-3: революция в скорости AI благодаря полной загрузке модели в SRAM

Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:

Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!

⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM

На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с

Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.

📊 Технические характеристики:
900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
21 ПБ/с пропускная способность памяти — в 12,800 раз выше
214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше

🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic

💼 Что нам это даст в ближайшем будущем:

Мгновенные агенты: цепочки рассуждений без задержек
Генерация кода в реальном времени: целые функции и страницы одним запросом
Рассуждения менее чем за 1 секунду: вместо минут ожидания

🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.

Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.

Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.

Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.

Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.

#cerebras #chip #hardware
———
@tsingular
👍10🔥9💯31
А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать

Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.

LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете

в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s

#benchmarks #inference #LLM #hardware
———
@tsingular
3