Обзор локальных архитектур для больших языковых моделей. Часть 4/4
4️⃣ Сравнения и выводы
👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.
👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.
В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).
Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.
👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.
#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс
🚀 ©ТехноТренды
4️⃣ Сравнения и выводы
👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.
👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.
В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).
Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.
👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.
#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс
🚀 ©ТехноТренды
⚡1👍1👏1
💰 Экономика LLM: из чего складывается стоимость инференса?
Внедрение больших языковых моделей (LLM) в бизнес-процессы требует не только технической экспертизы, но и глубокого понимания экономики эксплуатации и влияния оборудования на скорость отклика.
В этой серии постов мы разберем ключевые факторы, влияющие на стоимость инференса, сравним облачные и локальные решения и посчитаем, какой подход выгоднее и когда.
Часть 1: Общее представление и аппаратные факторы задержки
1️⃣ Основные статьи затрат
• Размер и сложность модели
Модели на 3B, 7B, 13B, 70B+ параметров требуют всё больше GPU-памяти и вычислительных ресурсов, а значит — растут затраты.
• Объём входных и выходных токенов
Чем больше контекста и детализированный ответ вы запрашиваете, тем выше счёт за токены и нагрузка на инфраструктуру.
• Тип данных
• Текст — минимальные требования к ресурсам.
• Аудио — предварительная транскрипция (Whisper, Wav2Vec) повышает нагрузку на GPU и RAM.
• Видео — самый ресурсоёмкий сценарий: специализированные модели (ViT, CLIP) и десятки гигабайт памяти.
• Формат эксплуатации
• Собственная инфраструктура — полный контроль, но высокие CAPEX и OPEX.
• Облачные решения (SaaS) — оплата по факту использования; выгодно при небольшом или переменном объёме запросов.
2️⃣ Как аппаратные характеристики GPU влияют на задержку (latency)
Для приложений с критичными требованиями к скорости (чат-боты, interactive AI) задержка состоит из двух ключевых фаз:
• Prefill + TTFT (Time to First Token) — вычислительно-ограниченная фаза, когда GPU строит KV-кеш и генерирует первый токен.
• ITL (Inter-Token Latency) — межтокеновая задержка при генерации каждого последующего токена, часто ограничивается пропускной способностью памяти.
🔹 Пропускная способность памяти (Memory Bandwidth)
• Основное «узкое место» при низких батчах: скорость загрузки весов и KV-кеша из глобальной памяти.
• У NVIDIA A100 HBM2e достигает 1.6 TB/s (40 GB) и 2.0 TB/s (80 GB) — это помогает минимизировать межтокеновую задержку.
🔹 CUDA-ядра (FP32/FP16 throughput)
• Отвечают за операции FMA при prefill и TTFT.
• В A100 их 6912, что обеспечивает до 19.5 TFLOPS в FP32 и 156 TFLOPS в TF32, ускоряя расчёт первых токенов.
🔹 Tensor-ядра (mixed-precision ускорение)
• Специализированы на матричных операциях с низкой/смешанной точностью.
• Третье поколение Tensor-ядер A100 выдаёт до 312 TFLOPS в FP16 и обеспечивает 16× ускорение по сравнению с FP32 на обычных CUDA-ядрах, критично для throughput и минимизации задержки на длинных последовательностях.
3️⃣ Рекомендации по оптимизации
• KV-caching — кэширование ключей/значений для избежания повторных расчётов.
• Квантование (INT8/INT4) — уменьшение объёма памяти и ускорение операций.
• Параллелизм и батчинг — рост пропускной способности (throughput), при этом важно балансировать с требованиями к latency одиночного запроса.
🚀 Вывод:
Стоимость инференса LLM складывается из вычислительных ресурсов (GPU/CPU), объёма обрабатываемых токенов и требований к скорости отклика. Грамотный выбор архитектуры, оптимизация ПО и правильный баланс между собственной инфраструктурой и облачными сервисами помогут найти оптимальное сочетание качества, скорости и стоимости.
#инференс #экономикаИИ #LLM
🚀 ©ТехноТренды
Внедрение больших языковых моделей (LLM) в бизнес-процессы требует не только технической экспертизы, но и глубокого понимания экономики эксплуатации и влияния оборудования на скорость отклика.
В этой серии постов мы разберем ключевые факторы, влияющие на стоимость инференса, сравним облачные и локальные решения и посчитаем, какой подход выгоднее и когда.
Часть 1: Общее представление и аппаратные факторы задержки
1️⃣ Основные статьи затрат
• Размер и сложность модели
Модели на 3B, 7B, 13B, 70B+ параметров требуют всё больше GPU-памяти и вычислительных ресурсов, а значит — растут затраты.
• Объём входных и выходных токенов
Чем больше контекста и детализированный ответ вы запрашиваете, тем выше счёт за токены и нагрузка на инфраструктуру.
• Тип данных
• Текст — минимальные требования к ресурсам.
• Аудио — предварительная транскрипция (Whisper, Wav2Vec) повышает нагрузку на GPU и RAM.
• Видео — самый ресурсоёмкий сценарий: специализированные модели (ViT, CLIP) и десятки гигабайт памяти.
• Формат эксплуатации
• Собственная инфраструктура — полный контроль, но высокие CAPEX и OPEX.
• Облачные решения (SaaS) — оплата по факту использования; выгодно при небольшом или переменном объёме запросов.
2️⃣ Как аппаратные характеристики GPU влияют на задержку (latency)
Для приложений с критичными требованиями к скорости (чат-боты, interactive AI) задержка состоит из двух ключевых фаз:
• Prefill + TTFT (Time to First Token) — вычислительно-ограниченная фаза, когда GPU строит KV-кеш и генерирует первый токен.
• ITL (Inter-Token Latency) — межтокеновая задержка при генерации каждого последующего токена, часто ограничивается пропускной способностью памяти.
🔹 Пропускная способность памяти (Memory Bandwidth)
• Основное «узкое место» при низких батчах: скорость загрузки весов и KV-кеша из глобальной памяти.
• У NVIDIA A100 HBM2e достигает 1.6 TB/s (40 GB) и 2.0 TB/s (80 GB) — это помогает минимизировать межтокеновую задержку.
🔹 CUDA-ядра (FP32/FP16 throughput)
• Отвечают за операции FMA при prefill и TTFT.
• В A100 их 6912, что обеспечивает до 19.5 TFLOPS в FP32 и 156 TFLOPS в TF32, ускоряя расчёт первых токенов.
🔹 Tensor-ядра (mixed-precision ускорение)
• Специализированы на матричных операциях с низкой/смешанной точностью.
• Третье поколение Tensor-ядер A100 выдаёт до 312 TFLOPS в FP16 и обеспечивает 16× ускорение по сравнению с FP32 на обычных CUDA-ядрах, критично для throughput и минимизации задержки на длинных последовательностях.
3️⃣ Рекомендации по оптимизации
• KV-caching — кэширование ключей/значений для избежания повторных расчётов.
• Квантование (INT8/INT4) — уменьшение объёма памяти и ускорение операций.
• Параллелизм и батчинг — рост пропускной способности (throughput), при этом важно балансировать с требованиями к latency одиночного запроса.
🚀 Вывод:
Стоимость инференса LLM складывается из вычислительных ресурсов (GPU/CPU), объёма обрабатываемых токенов и требований к скорости отклика. Грамотный выбор архитектуры, оптимизация ПО и правильный баланс между собственной инфраструктурой и облачными сервисами помогут найти оптимальное сочетание качества, скорости и стоимости.
#инференс #экономикаИИ #LLM
🚀 ©ТехноТренды
Экономика LLM: из чего складывается стоимость инференса?
Часть 2. Оцениваем накладные расходы
В предыдущем посте мы говорили о том, что влияет на цену инференса В ОБЩЕМ. Теперь давайте посмотрим на ожидаемые конкретные суммы вложений в пользование облачным сервисом или в создание собственной инфраструктуры.
1️⃣ Облачный инференс: почем нынче токен
Ведущие облачные провайдеры, такие как OpenAI, Anthropic, Azure и Google, предлагают различные варианты использования своих LLM в качестве сервиса с оплатой за токены. Следует учитывать, что стоимость 1 млн токенов резко возрастает при больших объемах запросов, а на выходе токены в разы дороже, чем на входе.
Многие cloud-провайдеры (например, Selectel, Яндекс, другие компании) предлагают уже настроенные серверы с предустановленными LLM, как проприетарными, так и опенсорсными. Но это аренда инфраструктуры, а не SaaS, и там имеются свои накрутки. Провайдеры могут брать доплату за хранение данных, обработку и другие услуги.
Итоговая стоимость облачных LLM зависит от задач и объемов использования. Облачный инференс удобен для старта, но при масштабировании может повлечь непредвиденные расходы.
2️⃣ Локальный инференс: капитальные затраты vs. долгосрочная экономия
Развертывание LLM на своих серверах требует значительных первоначальных вложений, но может быть выгодно при больших нагрузках (100+ млн токенов/мес.). Основные статьи расходов:
a) Затраты на оборудование (CAPEX)
Приобретение мощных GPU может стоить от $1000 до $10000 и более за устройство. Карты Nvidia (A100, H100, H200) в России стоят от ₽ 1 млн до 5 млн. Альтернатива — игровые карты RTX 4090, 5090 (32 Gb).
б) Энергопотребление и эксплуатация (OPEX)
Электричество в России сейчас стоит от ₽1,77 (Иркутская обл.) до ₽11,36 (Чукотка) за кВт·ч. Для дата-центров возможны спецтарифы от ₽3/кВт·ч. Накинем также расходы на охлаждение (+20–30%, в зависимости от климатического пояса) и на аренду стойки в дата-центре: от ₽10-15 тыс./мес.
Помимо CAPEX и OPEX, нужно вложиться в интеграцию и развертывание LLM на собственной инфраструктуре, в т.ч. в инженерные ресурсы, лицензирование ПО и т.п.
Таким образом, стоимость локального инференса LLM может быть значительно выше, чем в облачном сервисе. Но это оправдано, если проект даст большую отдачу. Плюс безопасность, если речь идет о медицинской или коммерческой тайне. Напомним, что в РФ действует запрет на обработку персональных данных (ФЗ 152), а облачные провайдеры используют данные пользователей для обучения своих моделей.
3️⃣ Итого: что выгоднее?
Выбор зависит от конкретных потребностей и возможностей вашего предприятия. Распределение бюджета должно начинаться с вопроса: чего вы хотите добиться? Повысить эффективность работы сотрудников с помощью SaaS, или монетизировать ИИ, интегрировав LLM в собственное приложение и продавая его как услугу или продукт?
👉 Если потребность в инференсе LLM невелика, облачные решения являются более экономичными. Малый и средний бизнес обычно склонен к использованию «облака».
👉 При долгосрочном использовании квантованных LLM (и, соответственно, меньших затратах на CAPEX), локальное развертывание может оказаться выгоднее, особенно если учитывать растущие затраты на облачные сервисы.
👉 Также свой дата-центр предпочтительнее, если для вашего бизнеса требуются специализированные настройки или интеграции — например, большая гибкость, безопасность и контроль.
#инференс #экономикаИИ #LLM #SaaS #capex #opex
🚀 ©ТехноТренды
Часть 2. Оцениваем накладные расходы
В предыдущем посте мы говорили о том, что влияет на цену инференса В ОБЩЕМ. Теперь давайте посмотрим на ожидаемые конкретные суммы вложений в пользование облачным сервисом или в создание собственной инфраструктуры.
1️⃣ Облачный инференс: почем нынче токен
Ведущие облачные провайдеры, такие как OpenAI, Anthropic, Azure и Google, предлагают различные варианты использования своих LLM в качестве сервиса с оплатой за токены. Следует учитывать, что стоимость 1 млн токенов резко возрастает при больших объемах запросов, а на выходе токены в разы дороже, чем на входе.
Многие cloud-провайдеры (например, Selectel, Яндекс, другие компании) предлагают уже настроенные серверы с предустановленными LLM, как проприетарными, так и опенсорсными. Но это аренда инфраструктуры, а не SaaS, и там имеются свои накрутки. Провайдеры могут брать доплату за хранение данных, обработку и другие услуги.
Итоговая стоимость облачных LLM зависит от задач и объемов использования. Облачный инференс удобен для старта, но при масштабировании может повлечь непредвиденные расходы.
2️⃣ Локальный инференс: капитальные затраты vs. долгосрочная экономия
Развертывание LLM на своих серверах требует значительных первоначальных вложений, но может быть выгодно при больших нагрузках (100+ млн токенов/мес.). Основные статьи расходов:
a) Затраты на оборудование (CAPEX)
Приобретение мощных GPU может стоить от $1000 до $10000 и более за устройство. Карты Nvidia (A100, H100, H200) в России стоят от ₽ 1 млн до 5 млн. Альтернатива — игровые карты RTX 4090, 5090 (32 Gb).
б) Энергопотребление и эксплуатация (OPEX)
Электричество в России сейчас стоит от ₽1,77 (Иркутская обл.) до ₽11,36 (Чукотка) за кВт·ч. Для дата-центров возможны спецтарифы от ₽3/кВт·ч. Накинем также расходы на охлаждение (+20–30%, в зависимости от климатического пояса) и на аренду стойки в дата-центре: от ₽10-15 тыс./мес.
Помимо CAPEX и OPEX, нужно вложиться в интеграцию и развертывание LLM на собственной инфраструктуре, в т.ч. в инженерные ресурсы, лицензирование ПО и т.п.
Таким образом, стоимость локального инференса LLM может быть значительно выше, чем в облачном сервисе. Но это оправдано, если проект даст большую отдачу. Плюс безопасность, если речь идет о медицинской или коммерческой тайне. Напомним, что в РФ действует запрет на обработку персональных данных (ФЗ 152), а облачные провайдеры используют данные пользователей для обучения своих моделей.
3️⃣ Итого: что выгоднее?
Выбор зависит от конкретных потребностей и возможностей вашего предприятия. Распределение бюджета должно начинаться с вопроса: чего вы хотите добиться? Повысить эффективность работы сотрудников с помощью SaaS, или монетизировать ИИ, интегрировав LLM в собственное приложение и продавая его как услугу или продукт?
👉 Если потребность в инференсе LLM невелика, облачные решения являются более экономичными. Малый и средний бизнес обычно склонен к использованию «облака».
👉 При долгосрочном использовании квантованных LLM (и, соответственно, меньших затратах на CAPEX), локальное развертывание может оказаться выгоднее, особенно если учитывать растущие затраты на облачные сервисы.
👉 Также свой дата-центр предпочтительнее, если для вашего бизнеса требуются специализированные настройки или интеграции — например, большая гибкость, безопасность и контроль.
#инференс #экономикаИИ #LLM #SaaS #capex #opex
🚀 ©ТехноТренды
В продолжение темы экономики LLM (начало см. здесь и здесь) разберём, как пошагово оценить затраты на инференс и сравнить облачные и локальные варианты. Такой подход помогает определить, при каких объёмах запросов есть смысл арендовать API-сервис, а когда выгоднее инвестировать в собственную инфраструктуру.
1️⃣ Параметры расчёта
• Конфигурация: облачный провайдер (OpenAI, Groq, DeepSeek и др.) или локальный сервер (A100, H100 и т. п.).
• Цена GPU в месяц: актуальна для локального использования. Для облака ключевой показатель — ставка за токен.
• Размер контекста (Context size): сколько токенов модель может принять за один запрос.
• Модель LLM: Qwen, Llama, DeepSeek-V3, o4-mini и т. д.
• Скорость обработки входа (Prompt eval speed, токенов/с) и скорость генерации (Speed predict, токенов/с).
• Объём входных (Input tokens) и выходных токенов (Output tokens), которые вы планируете прогонять через модель.
2️⃣ Как построить расчёт
1. Вычислите полный объём токенов на входе и выходе:
> Total tokens = Input tokens + Output tokens
2. Для облачного API рассчитайте:
> Стоимость = Total tokens × цена за токен
3. Для локальной установки:
• Определите максимальное число токенов в месяц по формуле
> Tokens/month = (Prompt speed + Speed predict) × 3600 × 24 × 30
• Разделите месячную аренду GPU на это значение, чтобы получить цену за токен.
4. При необходимости добавьте затраты на электричество, охлаждение и поддержку инфраструктуры.
3️⃣ Пример расчёта стоимости (оценочно)
4️⃣ Оценки и выводы
По нашим расчётам, картина получается следующая:
📊 Лидеры по цене и скорости:
👉 DeepSeek и Groq показывают лучшие результаты по соотношению цена/производительность.
👉 Groq особенно выделяется по скорости инференса — свыше 400 токенов в секунду, что делает его одним из самых быстрых решений на рынке.
🔥 Открытие сезона — локальные LLM:
• Модели вроде Qwen2.5-7B при размещении на одной A100 или H100 карте демонстрируют выдающуюся эффективность.
• Как показано в бенчмарке GPU, H100 даёт прирост до 2.5x по скорости, особенно при использовании TensorRT-LLM (подробнее здесь).
🤷♂️ Аутсайдер — OpenAI:
• При использовании API от OpenAI, стоимость может достигать $5.50 за миллион токенов. Это в 10–15 раз дороже альтернатив вроде DeepSeek или Groq.
• Качество моделей с открытым кодом сегодня не уступает решениям от OpenAI, особенно для задач summarization, Q&A и embeddings. Тогда зачем платить больше? 🤔
🎯 Локальные модели — максимум эффективности:
• Если модель помещается на один GPU, можно достичь отличных результатов по стоимости и скорости. Например, Qwen2.5-7B умещается в H100 80 ГБ с хорошей скоростью генерации.
• Однако для более крупных моделей (70B и выше) потребуется несколько GPU, что увеличивает издержки и сложность конфигурации.
5️⃣ Общие рекомендации
• Малые объёмы (до десятков миллионов токенов) чаще выгоднее запускать в облаке: нет затрат на CAPEX и обслуживание.
• Высокие нагрузки (сотни миллионов и более) — сигнал к рассмотрению локальной инфраструктуры: цена за токен может оказаться ниже.
• Оптимизации (квантование, кэш KV, батчинг) снижают задержки и уменьшают расходы на оборудование.
• Регулярно обновляйте данные: тарифы облаков и цены аренды GPU меняются, как и характеристики моделей.
👉 Если вы хотите сразу приступить к оценке своих сценариев, воспользуйтесь нашим онлайн-расчетом:
https://docs.google.com/spreadsheets/d/10Rx2Onl5wc-hmiBjmn4NHlW9KT4M_YXopUYAENRTsCE/edit?usp=sharing
Также в таблице сравнения вы можете сравнить стоимсть инференса для различных провайдеров.
#инференс #экономикаИИ #LLM #SaaS #capex #opex #токеномика #API
🚀 ©ТехноТренды
1️⃣ Параметры расчёта
• Конфигурация: облачный провайдер (OpenAI, Groq, DeepSeek и др.) или локальный сервер (A100, H100 и т. п.).
• Цена GPU в месяц: актуальна для локального использования. Для облака ключевой показатель — ставка за токен.
• Размер контекста (Context size): сколько токенов модель может принять за один запрос.
• Модель LLM: Qwen, Llama, DeepSeek-V3, o4-mini и т. д.
• Скорость обработки входа (Prompt eval speed, токенов/с) и скорость генерации (Speed predict, токенов/с).
• Объём входных (Input tokens) и выходных токенов (Output tokens), которые вы планируете прогонять через модель.
2️⃣ Как построить расчёт
1. Вычислите полный объём токенов на входе и выходе:
> Total tokens = Input tokens + Output tokens
2. Для облачного API рассчитайте:
> Стоимость = Total tokens × цена за токен
3. Для локальной установки:
• Определите максимальное число токенов в месяц по формуле
> Tokens/month = (Prompt speed + Speed predict) × 3600 × 24 × 30
• Разделите месячную аренду GPU на это значение, чтобы получить цену за токен.
4. При необходимости добавьте затраты на электричество, охлаждение и поддержку инфраструктуры.
3️⃣ Пример расчёта стоимости (оценочно)
🔸Облачный вариант: модель OpenAI (API с ценой $0,002/1000 токенов):
• Условия: 20 млн Input tokens и 0,1 млн Output tokens в месяц.
• Total = 20,1 млн токенов → $40,20 в месяц.
🔸Локальный инференс на A100 (аренда $1 000/мес.)
Возьмём модель Qwen2.5-7B-Instruct-BF16 и параметры из расчёта:
• Prompt eval speed: 7 504 ток./с
• Speed predict: 78 ток./с
Если обработать ~20 млн 100 тыс токенов за месяц, общие затраты на GPU составят около $1,52.
4️⃣ Оценки и выводы
По нашим расчётам, картина получается следующая:
📊 Лидеры по цене и скорости:
👉 DeepSeek и Groq показывают лучшие результаты по соотношению цена/производительность.
👉 Groq особенно выделяется по скорости инференса — свыше 400 токенов в секунду, что делает его одним из самых быстрых решений на рынке.
🔥 Открытие сезона — локальные LLM:
• Модели вроде Qwen2.5-7B при размещении на одной A100 или H100 карте демонстрируют выдающуюся эффективность.
• Как показано в бенчмарке GPU, H100 даёт прирост до 2.5x по скорости, особенно при использовании TensorRT-LLM (подробнее здесь).
🤷♂️ Аутсайдер — OpenAI:
• При использовании API от OpenAI, стоимость может достигать $5.50 за миллион токенов. Это в 10–15 раз дороже альтернатив вроде DeepSeek или Groq.
• Качество моделей с открытым кодом сегодня не уступает решениям от OpenAI, особенно для задач summarization, Q&A и embeddings. Тогда зачем платить больше? 🤔
🎯 Локальные модели — максимум эффективности:
• Если модель помещается на один GPU, можно достичь отличных результатов по стоимости и скорости. Например, Qwen2.5-7B умещается в H100 80 ГБ с хорошей скоростью генерации.
• Однако для более крупных моделей (70B и выше) потребуется несколько GPU, что увеличивает издержки и сложность конфигурации.
5️⃣ Общие рекомендации
• Малые объёмы (до десятков миллионов токенов) чаще выгоднее запускать в облаке: нет затрат на CAPEX и обслуживание.
• Высокие нагрузки (сотни миллионов и более) — сигнал к рассмотрению локальной инфраструктуры: цена за токен может оказаться ниже.
• Оптимизации (квантование, кэш KV, батчинг) снижают задержки и уменьшают расходы на оборудование.
• Регулярно обновляйте данные: тарифы облаков и цены аренды GPU меняются, как и характеристики моделей.
👉 Если вы хотите сразу приступить к оценке своих сценариев, воспользуйтесь нашим онлайн-расчетом:
https://docs.google.com/spreadsheets/d/10Rx2Onl5wc-hmiBjmn4NHlW9KT4M_YXopUYAENRTsCE/edit?usp=sharing
Также в таблице сравнения вы можете сравнить стоимсть инференса для различных провайдеров.
#инференс #экономикаИИ #LLM #SaaS #capex #opex #токеномика #API
🚀 ©ТехноТренды
⚡2
Продолжаем анализировать Artificial Intelligence Index Report 2025. Начало тут.
1️⃣ ИИ и НИОКР в 2025: кто задаёт темп?
ИИ-революция начинается с науки и разработок. Первая глава AI Index 2025 показывает, как стремительно меняется ландшафт исследований: публикации, конференции, патенты, создание крупных LLM и опенсорсных программных продуктов, развитие аппаратных средств.
Главные факты:
1. Бурный рост публикаций.
Количество публикаций по ИИ утроилось за 10 лет — с ~102 000 в 2013 году до более чем 242 000 в 2023-м. Сейчас ИИ — почти половина всех публикаций о компьютерных науках (41.76% в 2023 году). По регионам лидировали Восточная Азия и Тихоокеанский регион (34.5% от общего числа), за ними следовали США, Европа и другие страны. Подавляющее большинство работ посвящено машинному обучению #ML, которое, как мы отмечали, сейчас развивается особенно стремительно.
2. Наука vs индустрия.
Академический сектор (университеты и исследовательские центры) остается поставщиком основной массы исследований — 85% публикаций. В то же время более 90% значимых ИИ-моделей создаются сегодня индустрией (еще в начале 2010-х абсолютным лидером были научные структуры).
3. Китай — основной конкурент США.
Китайцы впереди всех по общему количеству публикаций, а США сохраняют лидерство по качеству: именно американские исследователи больше всего присутствуют в топ-100 самых цитируемых работ.
4. Патентная гонка.
Количество патентов на ИИ выросло почти в 30 раз за последние 13 лет. Почти 70% всех выданных патентов приходится на долю Китая.
5. Модели растут в масштабах и аппетитах.
Каждые 5 месяцев удваивается вычислительная мощность, необходимая для обучения топовых моделей (как и прогнозировалось). Размеры датасетов для обучения LLM удваиваются каждые 8 месяцев.
6. Данные для обучения заканчиваются.
ИИ уже «съел» большую часть открытых данных интернета. Исследования показывают, что высококачественные данные могут исчерпаться к концу десятилетия. Это создает давление на индустрию: придется искать новые методы обучения — например, генерировать синтетические данные или создавать специализированные приватные датасеты.
7. Стоимость инференса падает.
Цена запроса к модели уровня GPT-3.5 обрушилась более чем в 280 раз за 18 месяцев, сделав ИИ-инструменты гораздо доступнее для разработчиков и компаний. Тренд на удешевление инференса мы уже не раз отмечали. Другая важная тенденция — усиление позиций опенсорса по сравнению с прориетарными моделями (тыц, тыц).
8. Аппаратная часть ускоряется.
Производительность оборудования для ИИ (FP16 операций в секунду) растет на 43% в год. Цены на чипы падают на 30% ежегодно, а энергоэффективность увеличивается на 40% в год. (Наш комментарий: драйвером роста здесь является развитие альтернативных платформ, не только GPU. Индустрия активно работает с архитектурами ARM и RISC-V, а также с различными ускорителями).
9. Энергоэффективность против выбросов.
Несмотря на рост энергоэффективности (см.), обучение моделей сопровождается всё большими выбросами CO₂. Например, обучение Llama 3.1 потребовало выбросов в 8 930 тонн CO₂ — в 500 раз больше годового следа обычного человека в США. Добавим, что проблема энергетического обеспечения потребностей ИИ становится всё более актуальной.
Вывод:
ИИ быстро эволюционирует. Но за ростом моделей стоит не только увеличение вычислений и данных, но и вызовы — энергопотребление, дефицит данных и необходимость нового подхода к этике ИИ.
👉 Продолжение следует...
#AI #ниокр #bigdata #экология #инференс #тренды #аналитика #AI_index_report_2025
🚀 ©ТехноТренды
1️⃣ ИИ и НИОКР в 2025: кто задаёт темп?
ИИ-революция начинается с науки и разработок. Первая глава AI Index 2025 показывает, как стремительно меняется ландшафт исследований: публикации, конференции, патенты, создание крупных LLM и опенсорсных программных продуктов, развитие аппаратных средств.
Главные факты:
1. Бурный рост публикаций.
Количество публикаций по ИИ утроилось за 10 лет — с ~102 000 в 2013 году до более чем 242 000 в 2023-м. Сейчас ИИ — почти половина всех публикаций о компьютерных науках (41.76% в 2023 году). По регионам лидировали Восточная Азия и Тихоокеанский регион (34.5% от общего числа), за ними следовали США, Европа и другие страны. Подавляющее большинство работ посвящено машинному обучению #ML, которое, как мы отмечали, сейчас развивается особенно стремительно.
2. Наука vs индустрия.
Академический сектор (университеты и исследовательские центры) остается поставщиком основной массы исследований — 85% публикаций. В то же время более 90% значимых ИИ-моделей создаются сегодня индустрией (еще в начале 2010-х абсолютным лидером были научные структуры).
3. Китай — основной конкурент США.
Китайцы впереди всех по общему количеству публикаций, а США сохраняют лидерство по качеству: именно американские исследователи больше всего присутствуют в топ-100 самых цитируемых работ.
4. Патентная гонка.
Количество патентов на ИИ выросло почти в 30 раз за последние 13 лет. Почти 70% всех выданных патентов приходится на долю Китая.
5. Модели растут в масштабах и аппетитах.
Каждые 5 месяцев удваивается вычислительная мощность, необходимая для обучения топовых моделей (как и прогнозировалось). Размеры датасетов для обучения LLM удваиваются каждые 8 месяцев.
6. Данные для обучения заканчиваются.
ИИ уже «съел» большую часть открытых данных интернета. Исследования показывают, что высококачественные данные могут исчерпаться к концу десятилетия. Это создает давление на индустрию: придется искать новые методы обучения — например, генерировать синтетические данные или создавать специализированные приватные датасеты.
7. Стоимость инференса падает.
Цена запроса к модели уровня GPT-3.5 обрушилась более чем в 280 раз за 18 месяцев, сделав ИИ-инструменты гораздо доступнее для разработчиков и компаний. Тренд на удешевление инференса мы уже не раз отмечали. Другая важная тенденция — усиление позиций опенсорса по сравнению с прориетарными моделями (тыц, тыц).
8. Аппаратная часть ускоряется.
Производительность оборудования для ИИ (FP16 операций в секунду) растет на 43% в год. Цены на чипы падают на 30% ежегодно, а энергоэффективность увеличивается на 40% в год. (Наш комментарий: драйвером роста здесь является развитие альтернативных платформ, не только GPU. Индустрия активно работает с архитектурами ARM и RISC-V, а также с различными ускорителями).
9. Энергоэффективность против выбросов.
Несмотря на рост энергоэффективности (см.), обучение моделей сопровождается всё большими выбросами CO₂. Например, обучение Llama 3.1 потребовало выбросов в 8 930 тонн CO₂ — в 500 раз больше годового следа обычного человека в США. Добавим, что проблема энергетического обеспечения потребностей ИИ становится всё более актуальной.
Вывод:
ИИ быстро эволюционирует. Но за ростом моделей стоит не только увеличение вычислений и данных, но и вызовы — энергопотребление, дефицит данных и необходимость нового подхода к этике ИИ.
👉 Продолжение следует...
#AI #ниокр #bigdata #экология #инференс #тренды #аналитика #AI_index_report_2025
🚀 ©ТехноТренды
Собрали для вас в одном посте всё про экономику инференса LLM.
Краткое summary:
1️⃣ Из чего складывается стоимость инференса? Как размер модели, тип данных и объем задач влияют на итоговую сумму и за счет чего можно понизить требовательность приложения.
2️⃣ Облачный сервис или свой сервер? Ожидаемые вложения в пользование облаком или в создание собственной инфраструктуры. Реальные расклады по CAPEX и OPEX, «подводные камни», способы снижения затрат.
3️⃣ Как считать затраты и рентабельность — детальный разбор для разных сценариев внедрения. Используйте наш калькулятор, чтобы выбрать оптимальный вариант.
Читайте, считайте, делитесь с коллегами и друзьями, задавайте вопросы в комментариях👇
#ИИ #оптимизация #инференс #аналитика #токеномика #дайджест
🚀 ©ТехноТренды
Краткое summary:
1️⃣ Из чего складывается стоимость инференса? Как размер модели, тип данных и объем задач влияют на итоговую сумму и за счет чего можно понизить требовательность приложения.
2️⃣ Облачный сервис или свой сервер? Ожидаемые вложения в пользование облаком или в создание собственной инфраструктуры. Реальные расклады по CAPEX и OPEX, «подводные камни», способы снижения затрат.
3️⃣ Как считать затраты и рентабельность — детальный разбор для разных сценариев внедрения. Используйте наш калькулятор, чтобы выбрать оптимальный вариант.
Читайте, считайте, делитесь с коллегами и друзьями, задавайте вопросы в комментариях👇
#ИИ #оптимизация #инференс #аналитика #токеномика #дайджест
🚀 ©ТехноТренды
❤1
Продолжаем изучать стэнфордский отчет AI Index Report 2025 (начало тут и тут). Вторая глава «Technical Performance» посвящена эволюции технических возможностей ИИ-систем.
🔥 Контекст и ключевые тренды. В 2024 году модели сильно продвинулись в классических тестах, но при этом столкнулись с фундаментальными ограничениями в сложных задачах.
1️⃣ Прорывы в бенчмарках и специализированных задачах
▫️ Рекорды на новых тестах. В сложных комплексных бенчмарках (MMMU, GPQA, SWE-bench) ИИ за год показал впечатляющий прогресс. Например, на SWE-bench в 2023 году модели решали лишь 4.4% задач, а в 2024 — 71.7%. Кстати, и мы на канале фиксировали этот тренд.
▫️Преодоление «человеческого» барьера. Благодаря улучшению алгоритмов рассуждений и интеграции символьных методов модели вроде o1-preview и Claude 3.5 Sonnet достигли 97,9% точности на датасете MATH — выше человеческого уровня (90%).
2️⃣ Конвергенция технологий и сокращение разрывов
▫️Открытые vs. закрытые модели. Разрыв в производительности между топовыми открытыми и проприетарными моделями сократился с 8% до 1.7% (уровень статистической погрешности), что демократизирует доступ к передовым ИИ-технологиям.
👉 Добавим от себя пару комментариев:
• опенсорс заставляет даже завзятых проприетарщиков, таких как OpenAI, выпускать бесплатные версии своих моделей;
• но демократизация доступа к ИИ имеет обратную сторону — проблему безопасности данных.
▫️Малые модели vs. большие. Успехи таких проектов, как Mistral и Phi-3, доказали, что могут небольшие модели при правильном обучении. Phi-3-mini (3.8B параметров) сравнялась по эффективности с PaLM (540B) — 142-кратное сокращение размера при той же производительности. Качество работы модели больше не зависит линейно от масштаба, и мы об этом писали.
▫️Глобальное выравнивание. Китайские модели (напр., DeepSeek и Qwen) догнали по качеству американские. Разрыв на бенчмарках за год сократился с десятков до долей процента.
3️⃣ Новые парадигмы обучения
Индустрия освоила test-time compute (TTC) — метод оптимизации работы ИИ, при котором ресурсы выделяются динамически, а не фиксируются заранее. Это позволяет модели дольше «размышлять» над сложными задачами, улучшая качество ответов.
▫️Например, модель o1 от OpenAI решает 74.4% задач математической олимпиады против 9.3% у GPT-4o. Но требует в 6 раз больше вычислительной мощности и работает в 30 раз медленнее.
4️⃣ Революция в генерации видео
Видеогенерация в продвинутых моделях SORA и Veo 2 преодолела проблему контекстной согласованности — теперь возможно создание минутных роликов с физически точной динамикой и детализацией, которые были немыслимы еще год назад.
5️⃣ Ограничения и «стены» прогресса
Несмотря на успехи в математике, модели проваливаются в задачах, требующих многошаговой логики. Лучшие системы решают лишь 2% задач из FrontierMath и 8-12% на PlanBench и Humanity’s Last Exam, что указывает на фундаментальные ограничения текущих архитектур.
🎯 Выводы
👉 Главный тренд: ИИ становится быстрее и доступнее, но упирается в непреодолимые барьеры в сложных рассуждениях. Дальнейшее улучшение работы потребует смены парадигмы, а не оптимизации существующих подходов, резюмируют авторы.
👉 Перспективы: Активное развитие агентного ИИ (что совпадает и с нашей оценкой) и поиск альтернатив масштабированию (нейроморфные чипы, квантовые методы). ИИ-агенты уже используются для автоматизации программирования, анализа данных и управления ИТ-инфраструктурой. Отдельно подчеркивается их роль в науке и робототехнике.
👉 Продолжение следует...
#AI #ниокр #bigdata #инференс #тренды #аналитика #тесты #AI_index_report_2025
🚀 ©ТехноТренды
🔥 Контекст и ключевые тренды. В 2024 году модели сильно продвинулись в классических тестах, но при этом столкнулись с фундаментальными ограничениями в сложных задачах.
1️⃣ Прорывы в бенчмарках и специализированных задачах
▫️ Рекорды на новых тестах. В сложных комплексных бенчмарках (MMMU, GPQA, SWE-bench) ИИ за год показал впечатляющий прогресс. Например, на SWE-bench в 2023 году модели решали лишь 4.4% задач, а в 2024 — 71.7%. Кстати, и мы на канале фиксировали этот тренд.
▫️Преодоление «человеческого» барьера. Благодаря улучшению алгоритмов рассуждений и интеграции символьных методов модели вроде o1-preview и Claude 3.5 Sonnet достигли 97,9% точности на датасете MATH — выше человеческого уровня (90%).
2️⃣ Конвергенция технологий и сокращение разрывов
▫️Открытые vs. закрытые модели. Разрыв в производительности между топовыми открытыми и проприетарными моделями сократился с 8% до 1.7% (уровень статистической погрешности), что демократизирует доступ к передовым ИИ-технологиям.
👉 Добавим от себя пару комментариев:
• опенсорс заставляет даже завзятых проприетарщиков, таких как OpenAI, выпускать бесплатные версии своих моделей;
• но демократизация доступа к ИИ имеет обратную сторону — проблему безопасности данных.
▫️Малые модели vs. большие. Успехи таких проектов, как Mistral и Phi-3, доказали, что могут небольшие модели при правильном обучении. Phi-3-mini (3.8B параметров) сравнялась по эффективности с PaLM (540B) — 142-кратное сокращение размера при той же производительности. Качество работы модели больше не зависит линейно от масштаба, и мы об этом писали.
▫️Глобальное выравнивание. Китайские модели (напр., DeepSeek и Qwen) догнали по качеству американские. Разрыв на бенчмарках за год сократился с десятков до долей процента.
3️⃣ Новые парадигмы обучения
Индустрия освоила test-time compute (TTC) — метод оптимизации работы ИИ, при котором ресурсы выделяются динамически, а не фиксируются заранее. Это позволяет модели дольше «размышлять» над сложными задачами, улучшая качество ответов.
▫️Например, модель o1 от OpenAI решает 74.4% задач математической олимпиады против 9.3% у GPT-4o. Но требует в 6 раз больше вычислительной мощности и работает в 30 раз медленнее.
4️⃣ Революция в генерации видео
Видеогенерация в продвинутых моделях SORA и Veo 2 преодолела проблему контекстной согласованности — теперь возможно создание минутных роликов с физически точной динамикой и детализацией, которые были немыслимы еще год назад.
5️⃣ Ограничения и «стены» прогресса
Несмотря на успехи в математике, модели проваливаются в задачах, требующих многошаговой логики. Лучшие системы решают лишь 2% задач из FrontierMath и 8-12% на PlanBench и Humanity’s Last Exam, что указывает на фундаментальные ограничения текущих архитектур.
🎯 Выводы
👉 Главный тренд: ИИ становится быстрее и доступнее, но упирается в непреодолимые барьеры в сложных рассуждениях. Дальнейшее улучшение работы потребует смены парадигмы, а не оптимизации существующих подходов, резюмируют авторы.
👉 Перспективы: Активное развитие агентного ИИ (что совпадает и с нашей оценкой) и поиск альтернатив масштабированию (нейроморфные чипы, квантовые методы). ИИ-агенты уже используются для автоматизации программирования, анализа данных и управления ИТ-инфраструктурой. Отдельно подчеркивается их роль в науке и робототехнике.
👉 Продолжение следует...
#AI #ниокр #bigdata #инференс #тренды #аналитика #тесты #AI_index_report_2025
🚀 ©ТехноТренды
Институт AIRI
AIRI Seminars в эфире, ссылки на трансляции: VK Видео, YouTube 🍿
На семинаре AIRI рассказали про работу трансформеров в рамках доклада «Современные трансформеры для видео и не только».
На презентации (см. фото) сравнили три подхода: RNN, Attention, SSM.
Особое внимание привлекают SSM — модели, которые могут стать альтернативой классическим трансформерам.
SSM (State Space Models) и новая модель Mamba предлагают линейную сложность и локальную рекурсию, что делает их особенно эффективными для длинных последовательностей. Это открывает путь к более быстрому и экономичному инференсу, что особенно важно для работы с видео, аудио и другими типами данных, требующих мгновенного анализа в режиме реального времени.
👉 Важно: исследование Гарварда указывает, что трансформеры по-прежнему лучше показывают себя в задачах с долгосрочной памятью (например, копирование и повтор). Так что SSM пока — не полноценная замена, а скорее мощное дополнение.
Репозиторий:
• Mamba на GitHub — с туториалами, Colab-ноутбуками и готовыми весами.
Что почитать:
• https://huggingface.co/blog/lbourdois/get-on-the-ssm-train
• https://arxiv.org/abs/2312.00752
#ssm #инференс #трансформеры
🚀 ©ТехноТренды
На презентации (см. фото) сравнили три подхода: RNN, Attention, SSM.
Особое внимание привлекают SSM — модели, которые могут стать альтернативой классическим трансформерам.
SSM (State Space Models) и новая модель Mamba предлагают линейную сложность и локальную рекурсию, что делает их особенно эффективными для длинных последовательностей. Это открывает путь к более быстрому и экономичному инференсу, что особенно важно для работы с видео, аудио и другими типами данных, требующих мгновенного анализа в режиме реального времени.
👉 Важно: исследование Гарварда указывает, что трансформеры по-прежнему лучше показывают себя в задачах с долгосрочной памятью (например, копирование и повтор). Так что SSM пока — не полноценная замена, а скорее мощное дополнение.
Репозиторий:
• Mamba на GitHub — с туториалами, Colab-ноутбуками и готовыми весами.
Что почитать:
• https://huggingface.co/blog/lbourdois/get-on-the-ssm-train
• https://arxiv.org/abs/2312.00752
#ssm #инференс #трансформеры
🚀 ©ТехноТренды
FPGA для ускорения инференса
FPGA (Field-Programmable Gate Array, программируемая вентильная матрица) или, по-русски, ПЛИС (программируемая логическая интегральная схема) — аппаратная платформа, которая позволяет создавать специализированные вычислительные блоки для ускорения инференса LLM.
В чем отличие FPGA от GPU?
FPGA состоят из массива программируемых логических блоков, соединенных программируемыми же межсоединениями, что позволяет пользователю создавать конфигурации, адаптированные под конкретные задачи.
GPU содержат множество меньших, более простых ядер. Они могут запускать широкий спектр приложений и алгоритмов при условии, что те хорошо подходят для параллельной обработки. Однако их архитектура фиксирована, и их нельзя перепрограммировать в той же степени, что и FPGA.
Почему FPGA актуально для AI?
🔸 Высокий уровень параллелизма. В отличие от традиционных GPU, где одна и та же инструкция выполняется над множеством потоков, FPGA за счет распределенной логики может одновременно выполнять разные операции на разных частях данных. Такой подход особенно полезен для LLM, где требуется последовательная, но вычислительно емкая обработка слоев.
Кроме того, GPU для оптимизации работы часто нуждаются в пакетной обработке, чтобы полностью загрузить свои ядра. FPGA может эффективно работать даже с единичными запросами.
🔸 Гибкая настройка под модель. FPGA дает возможность аппаратной перенастройки под конкретные вычислительные задачи. Разработчик может:
• спроектировать специализированные ускорители для типичных операций LLM;
• реализовать вычисления с фиксированной точностью, включая INT8, INT4, и даже бинарные форматы, что особенно важно для квантованных моделей;
• настроить маршруты передачи данных между блоками для минимизации задержек и повышения пропускной способности.
🔸 Энергоэффективность. Благодаря тому, что FPGA не содержат лишних компонентов, характерных для GPU (планировщики потоков, сложные системы управления памятью и пр.), они могут выполнять необходимые вычисления с гораздо меньшим энергопотреблением, что важно для edge-устройств и облачных систем.
🔸 Низкая задержка. FPGA обеспечивает минимальную латентность за счет реализации вычислений в жестко детерминированном режиме. Данные обрабатываются в аппаратных конвейерах без участия ОС или сложных runtime-систем, что позволяет добиться предсказуемого времени выполнения каждой операции.
Работа FPGA на конкретных примерах
Еще в 2022 году группа китайских специалистов представила DFX — ускоритель на основе FPGA. На модели GPT-2 устройство работало в 5,58 раз быстрее и почти в 4 раза энергоэффективнее по сравнению с чипами Nvidia V100. Кроме того, DFX оказался в 8,21 раза дешевле, чем GPU.
А сейчас, например, стартап Positron предлагает сервер инференса трансформеров на базе FPGA. Декларируемые параметры:
• скорость на 70% выше, чем у систем на базе Nvidia DGX H100;
• в 3,5 раза выше производительность на доллар и ватт;
• более 93% использования пропускной способности памяти по сравнению с 10–30% на GPU.
Тренды
Рынок AI-платформ нуждается в более эффективных вычислениях, но энергетические ограничения сдерживают рост. В этих условиях индустрия находит новые возможности для ускорения инференса и децентрализации рынка.
Хотя графические процессоры Nvidia остаются доминирующей AI-платформой благодаря простоте программирования и поддержке фреймворков, FPGA успешно конкурирует с ними в целом ряде сценариев, особенно при работе с квантованными или упрощенными моделями.
#FPGA #ПЛИС #GPU #технологии #инференс
🚀 ©ТехноТренды
FPGA (Field-Programmable Gate Array, программируемая вентильная матрица) или, по-русски, ПЛИС (программируемая логическая интегральная схема) — аппаратная платформа, которая позволяет создавать специализированные вычислительные блоки для ускорения инференса LLM.
В чем отличие FPGA от GPU?
FPGA состоят из массива программируемых логических блоков, соединенных программируемыми же межсоединениями, что позволяет пользователю создавать конфигурации, адаптированные под конкретные задачи.
GPU содержат множество меньших, более простых ядер. Они могут запускать широкий спектр приложений и алгоритмов при условии, что те хорошо подходят для параллельной обработки. Однако их архитектура фиксирована, и их нельзя перепрограммировать в той же степени, что и FPGA.
Почему FPGA актуально для AI?
🔸 Высокий уровень параллелизма. В отличие от традиционных GPU, где одна и та же инструкция выполняется над множеством потоков, FPGA за счет распределенной логики может одновременно выполнять разные операции на разных частях данных. Такой подход особенно полезен для LLM, где требуется последовательная, но вычислительно емкая обработка слоев.
Кроме того, GPU для оптимизации работы часто нуждаются в пакетной обработке, чтобы полностью загрузить свои ядра. FPGA может эффективно работать даже с единичными запросами.
🔸 Гибкая настройка под модель. FPGA дает возможность аппаратной перенастройки под конкретные вычислительные задачи. Разработчик может:
• спроектировать специализированные ускорители для типичных операций LLM;
• реализовать вычисления с фиксированной точностью, включая INT8, INT4, и даже бинарные форматы, что особенно важно для квантованных моделей;
• настроить маршруты передачи данных между блоками для минимизации задержек и повышения пропускной способности.
🔸 Энергоэффективность. Благодаря тому, что FPGA не содержат лишних компонентов, характерных для GPU (планировщики потоков, сложные системы управления памятью и пр.), они могут выполнять необходимые вычисления с гораздо меньшим энергопотреблением, что важно для edge-устройств и облачных систем.
🔸 Низкая задержка. FPGA обеспечивает минимальную латентность за счет реализации вычислений в жестко детерминированном режиме. Данные обрабатываются в аппаратных конвейерах без участия ОС или сложных runtime-систем, что позволяет добиться предсказуемого времени выполнения каждой операции.
Работа FPGA на конкретных примерах
Еще в 2022 году группа китайских специалистов представила DFX — ускоритель на основе FPGA. На модели GPT-2 устройство работало в 5,58 раз быстрее и почти в 4 раза энергоэффективнее по сравнению с чипами Nvidia V100. Кроме того, DFX оказался в 8,21 раза дешевле, чем GPU.
А сейчас, например, стартап Positron предлагает сервер инференса трансформеров на базе FPGA. Декларируемые параметры:
• скорость на 70% выше, чем у систем на базе Nvidia DGX H100;
• в 3,5 раза выше производительность на доллар и ватт;
• более 93% использования пропускной способности памяти по сравнению с 10–30% на GPU.
Тренды
Рынок AI-платформ нуждается в более эффективных вычислениях, но энергетические ограничения сдерживают рост. В этих условиях индустрия находит новые возможности для ускорения инференса и децентрализации рынка.
Хотя графические процессоры Nvidia остаются доминирующей AI-платформой благодаря простоте программирования и поддержке фреймворков, FPGA успешно конкурирует с ними в целом ряде сценариев, особенно при работе с квантованными или упрощенными моделями.
#FPGA #ПЛИС #GPU #технологии #инференс
🚀 ©ТехноТренды
Отечественные чипы для обучения и инференса: тренды и вызовы
🇷🇺 В ситуации, когда вопрос технологической независимости в сфере микроэлектроники особенно актуален, российские компании активно работают над созданием собственных CPU, GPU и специализированных нейропроцессоров.
Давайте посмотрим по конкретным трендам.
1️⃣ Эволюция отечественных процессоров и импортозамещение
Отечественные разработчики стараются идти в ногу с общим трендом по созданию лучших чипов для инференса.
🔸Московский НТЦ «Модуль» ведет разработку GPU-карт для совместного проекта с Fplus — производство ускорителей ИИ и серверов на их основе. По плану компаний, в 2025 г. будет собрано около 100 серверов с ИИ-ускорителем «Модуля», а в 2026-2027 ожидается выход на тысячи готовых серверов.
🔸«Крокус Наноэлектроника» — единственная в России компания, которая занимается разработкой и BEOL производством полного цикла. Монтаж электронных компонентов ведется на 300 мм кремниевых пластинах по 90/55 нм техпроцессу.
🔸 Перспективный нейропроцессор под кодовым названием «Арамис» должен выйти в серию в третьем-четвертом квартале 2025 года (фабрика неизвестна). По функционалу и производительности его сравнивают с NVIDIA Jetson Xavier. Разработка на базе отечественной архитектуры NeuroMatrix предназначена для нейросетевой обработки широкого круга задач: распознавание образов, управление беспилотным транспортом, цифровая обработка аудио и видеосигналов. Гетерогенная система с управляющим кластером на базе ARM и 8-ядерным NMC5 нейроускорителем показывает энергопотребление всего 15 Вт.
🔸 В апреле компания «Байкал Электроникс» начала серийное производство микроконтроллера Baikal-MCU. Хотя он не позиционируется как AI-чип, ему под силу задачи ML и инференса небольших LLM или устройств IoT. Также в разработке находится следующее поколение серверных чипов Baikal-S2.
2️⃣ Диверсификация решений в сфере ИИ
Нормальным явлением стала реакция компаний на потребности разных сегментов рынка. Отсюда диверсификация разработок. Вот, например, три новых микросхемы АО НПЦ «Элвис»:
• RoboDeus — 50-ядерная гетерогенная система на кристалле (СнК), изготовленная по технологии 16 нм, ориентированная на встраиваемые системы, робототехнику и приложения с элементами ИИ;
• «Скиф» — 11-ядерная СнК для мобильных и мультимедийных приложений, навигации и сенсорной обработки сигналов;
• «Элиот» — малопотребляющий микроконтроллер для использования в IoT и Edge-системах.
3️⃣ Специализированные решения для экстремальных условий
Российские инженеры доказали способность создавать микросхемы для работы в критических средах: бортовая электроника, космические и военные системы. Например, высокостойкий 180 нм процессор 1892ВМ206 от того же «Элвиса» заточен под работу в условиях высокой радиации и экстремальных температур.
4️⃣ Развитие экосистемы отечественных микропроцессоров
Компания МЦСТ (разработчик «Эльбруса») переходит от узко коммерческих схем реализации к модели экосистемы. Партнеры могут взять открытый код, подготовленный МЦСТ, использовать его в своей области применения и выложить результат обратно в «сообщество». А это даст новый импульс развитию технологий.
5️⃣ Отечественные ИИ-платформы: интеграция «железа» и ПО
АО НТЦ «Модуль» демонстрирует, как на базе отечественных процессоров (например, «Эльбрус») и собственных нейросетевых решений (NeuroMatrix® Deep Learning) создаются полноценные рабочие станции и серверы для запуска LLM, такие как NM Desktop.
6️⃣ Вызовы и риски
Несмотря на обильную номенклатуру отечественных разработок, надо учесть, что производственная база в России не успевает за развитием технологий. Многие микросхемы основаны на 65-нм, 40-нм и даже 28-нм техпроцессах, так что их по-прежнему приходится заказывать за рубежом (главным образом в Китае), а на территории РФ вести по сути «отверточную сборку». Это делает российский рынок ИИ-чипов достаточно уязвимым, и подчеркивает актуальность инвестиций в максимальную локализацию высокотехнологичных производств по примеру Китая.
#микроэлектроника #технологический_суверенитет #тренды #инференс #Россия
🚀 ©ТехноТренды
🇷🇺 В ситуации, когда вопрос технологической независимости в сфере микроэлектроники особенно актуален, российские компании активно работают над созданием собственных CPU, GPU и специализированных нейропроцессоров.
Давайте посмотрим по конкретным трендам.
1️⃣ Эволюция отечественных процессоров и импортозамещение
Отечественные разработчики стараются идти в ногу с общим трендом по созданию лучших чипов для инференса.
🔸Московский НТЦ «Модуль» ведет разработку GPU-карт для совместного проекта с Fplus — производство ускорителей ИИ и серверов на их основе. По плану компаний, в 2025 г. будет собрано около 100 серверов с ИИ-ускорителем «Модуля», а в 2026-2027 ожидается выход на тысячи готовых серверов.
🔸«Крокус Наноэлектроника» — единственная в России компания, которая занимается разработкой и BEOL производством полного цикла. Монтаж электронных компонентов ведется на 300 мм кремниевых пластинах по 90/55 нм техпроцессу.
🔸 Перспективный нейропроцессор под кодовым названием «Арамис» должен выйти в серию в третьем-четвертом квартале 2025 года (фабрика неизвестна). По функционалу и производительности его сравнивают с NVIDIA Jetson Xavier. Разработка на базе отечественной архитектуры NeuroMatrix предназначена для нейросетевой обработки широкого круга задач: распознавание образов, управление беспилотным транспортом, цифровая обработка аудио и видеосигналов. Гетерогенная система с управляющим кластером на базе ARM и 8-ядерным NMC5 нейроускорителем показывает энергопотребление всего 15 Вт.
🔸 В апреле компания «Байкал Электроникс» начала серийное производство микроконтроллера Baikal-MCU. Хотя он не позиционируется как AI-чип, ему под силу задачи ML и инференса небольших LLM или устройств IoT. Также в разработке находится следующее поколение серверных чипов Baikal-S2.
2️⃣ Диверсификация решений в сфере ИИ
Нормальным явлением стала реакция компаний на потребности разных сегментов рынка. Отсюда диверсификация разработок. Вот, например, три новых микросхемы АО НПЦ «Элвис»:
• RoboDeus — 50-ядерная гетерогенная система на кристалле (СнК), изготовленная по технологии 16 нм, ориентированная на встраиваемые системы, робототехнику и приложения с элементами ИИ;
• «Скиф» — 11-ядерная СнК для мобильных и мультимедийных приложений, навигации и сенсорной обработки сигналов;
• «Элиот» — малопотребляющий микроконтроллер для использования в IoT и Edge-системах.
3️⃣ Специализированные решения для экстремальных условий
Российские инженеры доказали способность создавать микросхемы для работы в критических средах: бортовая электроника, космические и военные системы. Например, высокостойкий 180 нм процессор 1892ВМ206 от того же «Элвиса» заточен под работу в условиях высокой радиации и экстремальных температур.
4️⃣ Развитие экосистемы отечественных микропроцессоров
Компания МЦСТ (разработчик «Эльбруса») переходит от узко коммерческих схем реализации к модели экосистемы. Партнеры могут взять открытый код, подготовленный МЦСТ, использовать его в своей области применения и выложить результат обратно в «сообщество». А это даст новый импульс развитию технологий.
5️⃣ Отечественные ИИ-платформы: интеграция «железа» и ПО
АО НТЦ «Модуль» демонстрирует, как на базе отечественных процессоров (например, «Эльбрус») и собственных нейросетевых решений (NeuroMatrix® Deep Learning) создаются полноценные рабочие станции и серверы для запуска LLM, такие как NM Desktop.
6️⃣ Вызовы и риски
Несмотря на обильную номенклатуру отечественных разработок, надо учесть, что производственная база в России не успевает за развитием технологий. Многие микросхемы основаны на 65-нм, 40-нм и даже 28-нм техпроцессах, так что их по-прежнему приходится заказывать за рубежом (главным образом в Китае), а на территории РФ вести по сути «отверточную сборку». Это делает российский рынок ИИ-чипов достаточно уязвимым, и подчеркивает актуальность инвестиций в максимальную локализацию высокотехнологичных производств по примеру Китая.
#микроэлектроника #технологический_суверенитет #тренды #инференс #Россия
🚀 ©ТехноТренды
👍1