Обзор локальных архитектур для больших языковых моделей. Часть 1/4
Один из главных современных AI-трендов — конвергенция развития больших языковых моделей и вычислительных мощностей. Модели оптимизируются, а устройства совершенствуются. Появляется всё больше возможностей для запуска LLM с миллиардами параметров на периферийных устройствах (Edge AI), без необходимости подключаться к облаку высокопроизводительных GPU-серверов.
О том, как эволюционируют LLM, мы уже писали не раз (тыц, тыц, тыц, тыц). Давайте посмотрим, какие решения предлагают разработчики оборудования.
1️⃣ SBC (Single Board Computers), или одноплатные компьютеры
Одноплатники отличаются тем, что их конфигурация заточена под минимальное энергопотребление, обеспечивая при этом приличное быстродействие. Часто в них встроены NPU (Neural Processing Unit) — специализированные сопроцессоры для решений вида Edge AI. Появление SSD-накопителей, новых скоростных микроконтроллеров и AI-ускорителей сделало эту платформу очень перспективной для домашней или офисной работы с LLM.
Несколько интересных SBC на начало 2025 года:
🔸 Orange Pi 5 Plus — универсальный, очень мощный мини-ПК с новейшим чипом RK3588. Хоть и не обладает специализированным AI‑ускорителем, но имеет встроенный графический процессор и NPU с умеренными показателями.
⚡️ Показатели: вычислительная мощность ~8 TOPS (триллионов операций в секунду, или терафлопс), инференс ~25 токенов в секунду, энергопотребление ~7-10Вт.
🔸 Raspberry Pi 5 Plus — популярный инструмент с тем же чипом RK3588 для самостоятельной разработки и обучения LLM. Благодаря интеграции AI-ускорителя Hailo-8L или Hailo-8 может запускать модели среднего размера.
⚡️ Показатели: ~26 TOPS, ~35 токенов/сек, ~8-12Вт.
🔸 NVIDIA Jetson Orin Nano Super (на базе NVIDIA Jetson Orin Nano) — решение, оптимизированное для работы с нейронными сетями на базе архитектуры Ampere, обеспечивает высокий инференс, но отличается повышенным энергопотреблением.
⚡️ Показатели: ~40 TOPS, ~45 токенов/сек, ~25Вт.
Скорость выше 10 токенов в секунду превосходит скорость чтения большинства людей, т.е. работа приложений воспринимается практически без задержек. Как видим, одноплатные компьютеры на оптимизированных LLM сегодня могут обеспечить достаточно комфортный инференс для повседневных задач.
• Подробнее об актуальных AI-конфигурациях SBC
#EdgeAI #внедрениеAI #LLM #SBC
🚀 ©ТехноТренды
Один из главных современных AI-трендов — конвергенция развития больших языковых моделей и вычислительных мощностей. Модели оптимизируются, а устройства совершенствуются. Появляется всё больше возможностей для запуска LLM с миллиардами параметров на периферийных устройствах (Edge AI), без необходимости подключаться к облаку высокопроизводительных GPU-серверов.
О том, как эволюционируют LLM, мы уже писали не раз (тыц, тыц, тыц, тыц). Давайте посмотрим, какие решения предлагают разработчики оборудования.
1️⃣ SBC (Single Board Computers), или одноплатные компьютеры
Одноплатники отличаются тем, что их конфигурация заточена под минимальное энергопотребление, обеспечивая при этом приличное быстродействие. Часто в них встроены NPU (Neural Processing Unit) — специализированные сопроцессоры для решений вида Edge AI. Появление SSD-накопителей, новых скоростных микроконтроллеров и AI-ускорителей сделало эту платформу очень перспективной для домашней или офисной работы с LLM.
Несколько интересных SBC на начало 2025 года:
🔸 Orange Pi 5 Plus — универсальный, очень мощный мини-ПК с новейшим чипом RK3588. Хоть и не обладает специализированным AI‑ускорителем, но имеет встроенный графический процессор и NPU с умеренными показателями.
⚡️ Показатели: вычислительная мощность ~8 TOPS (триллионов операций в секунду, или терафлопс), инференс ~25 токенов в секунду, энергопотребление ~7-10Вт.
🔸 Raspberry Pi 5 Plus — популярный инструмент с тем же чипом RK3588 для самостоятельной разработки и обучения LLM. Благодаря интеграции AI-ускорителя Hailo-8L или Hailo-8 может запускать модели среднего размера.
⚡️ Показатели: ~26 TOPS, ~35 токенов/сек, ~8-12Вт.
🔸 NVIDIA Jetson Orin Nano Super (на базе NVIDIA Jetson Orin Nano) — решение, оптимизированное для работы с нейронными сетями на базе архитектуры Ampere, обеспечивает высокий инференс, но отличается повышенным энергопотреблением.
⚡️ Показатели: ~40 TOPS, ~45 токенов/сек, ~25Вт.
Скорость выше 10 токенов в секунду превосходит скорость чтения большинства людей, т.е. работа приложений воспринимается практически без задержек. Как видим, одноплатные компьютеры на оптимизированных LLM сегодня могут обеспечить достаточно комфортный инференс для повседневных задач.
• Подробнее об актуальных AI-конфигурациях SBC
#EdgeAI #внедрениеAI #LLM #SBC
🚀 ©ТехноТренды
Обзор локальных архитектур для больших языковых моделей. Часть 4/4
4️⃣ Сравнения и выводы
👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.
👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.
В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).
Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.
👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.
#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс
🚀 ©ТехноТренды
4️⃣ Сравнения и выводы
👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.
👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.
В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).
Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.
👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.
#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс
🚀 ©ТехноТренды
⚡1👍1👏1