Edge AI, или периферийный ИИ — принцип развертывания искусственного интеллекта на локальных микроустройствах или компактных компьютерах с низким энергопотреблением. Сегодня это один из главных векторов развития AI-индустрии, наряду с Cloud AI (облачными сервисами).
Рынок Edge AI бурно растет. В 2024 году он оценивался в $12,5 млрд и, по прогнозам, к 2034 году достигнет $109,4 млрд (среднегодовой темп роста — 24,8%, неплохо, хоть и медленнее «облаков»).
В чем преимущества локального AI над «облаком»?
👍 Скорость работы: на локалке модуль AI связан напрямую с источником данных, что позволяет ему принимать решения намного быстрее облачных систем, за счет минимальных задержек сигнала.
👍 Низкое энергопотребление, особенно с применением специальных оптимизирующих сопроцессоров типа NPU.
👍 Сокращение трафика: Edge AI обрабатывает данные без передачи в облако, за счет чего экономится много пропускной способности.
👍 Повышенная безопасность и конфиденциальность: по той же причине система с Edge AI гораздо менее уязвима для кибератак и утечек информации.
👍 Способность работать вообще без интернета, что может быть важно в удаленных районах, на море или в сельской местности.
👍 Экономия средств: производственное предприятие среднего размера, использующее периферийный ИИ для мониторинга оборудования, может ежегодно экономить до 1,2 миллиона долларов на облачном хранилище и пропускной способности.
Всё это делает Edge AI привлекательным решением для многих сфер применения ИИ:
👉 в промышленности и сельском хозяйстве (автономные станки, комбайны, мобильные AI-ассистенты)
👉 в логистике и на транспорте (умные дроны-перевозчики, складские роботы, беспилотные автомобили)
👉 в медицине (носимые и стационарные устройства с AI для диагностики и контроля)
👉 в городской инфраструктуре (системы контроля трафика и управления городскими службами)
👉 в «интернете вещей» (IoT) — голосовые помощники и интеллектуальные устройства, в т.ч. умные дома
👉 в космической, добывающей, энергетической и других отраслях.
Для развертывания LLM на малом или среднем предприятии локальная платформа тоже может быть выгоднее и безопаснее, чем облачный сервис или собственный кластер GPU. Особенно это актуально в розничной торговле, консалтинге, юриспруденции, гостиничном бизнесе.
Минусы Edge AI
🔻 Низкая производительность периферийных устройств по сравнению с облачными системами.
🔻 Возможность ошибок и сбоев из-за ограниченных ресурсов и проблем с подключением к сети.
🔻 Ограниченная масштабируемость и сложность управления большим количеством устройств.
Ограниченность ресурсов преодолевается путем комбинации разных чипов, оптимизации инференса и разработки более экономных алгоритмов ML, что позволяет размещать вполне функциональные GenAI-модели на слабых устройствах вроде смартфонов или часов.
Там, где это имеет значение (например, при управлении «роем» мобильных роботов), создаются гибридные системы, сочетающие индивидуальные ИИ c единым центром принятия решений, или же формируются распределенные экосистемы. Например, на днях Intel презентовала Edge AI Suites и Open Edge Platform — набор инструментов и модульную платформу для массового внедрения GenAI на локальных устройствах.
Развитие трендов
Если мы посмотрим в будущее после 2025 года, то увидим несколько новых тенденций, связанных с Edge AI:
🔸 Микро-LLM: фреймворки типа TinyML сделают ИИ доступным на крошечных устройствах.
🔸 Edge-AI маркетплейсы: на торговых площадках будут предлагать заранее обученные модели и готовые к использованию периферийные AI-приложения.
🔸 Развитие мобильных сетей. Технологии 5G-Advanced и 6G обеспечат терабитные скорости передачи данных, открывая новые перспективы для смартфонов с ИИ, очков с дополненной реальностью и роевой робототехники. Кстати, на прошедшей недавно MWC'25 в Барселоне Edge AI был одной из главных тем.
🔸 Квантовый компьютинг. А вот когда настанет цифровой коммунизм и квантовые компьютеры займут нишу современных ПК, для периферийного ИИ придут совсем уж золотые времена 😉 Но это уже совсем другая история...
#EdgeAI #внедрениеAI #LLM
🚀 ©ТехноТренды
Рынок Edge AI бурно растет. В 2024 году он оценивался в $12,5 млрд и, по прогнозам, к 2034 году достигнет $109,4 млрд (среднегодовой темп роста — 24,8%, неплохо, хоть и медленнее «облаков»).
В чем преимущества локального AI над «облаком»?
👍 Скорость работы: на локалке модуль AI связан напрямую с источником данных, что позволяет ему принимать решения намного быстрее облачных систем, за счет минимальных задержек сигнала.
👍 Низкое энергопотребление, особенно с применением специальных оптимизирующих сопроцессоров типа NPU.
👍 Сокращение трафика: Edge AI обрабатывает данные без передачи в облако, за счет чего экономится много пропускной способности.
👍 Повышенная безопасность и конфиденциальность: по той же причине система с Edge AI гораздо менее уязвима для кибератак и утечек информации.
👍 Способность работать вообще без интернета, что может быть важно в удаленных районах, на море или в сельской местности.
👍 Экономия средств: производственное предприятие среднего размера, использующее периферийный ИИ для мониторинга оборудования, может ежегодно экономить до 1,2 миллиона долларов на облачном хранилище и пропускной способности.
Всё это делает Edge AI привлекательным решением для многих сфер применения ИИ:
👉 в промышленности и сельском хозяйстве (автономные станки, комбайны, мобильные AI-ассистенты)
👉 в логистике и на транспорте (умные дроны-перевозчики, складские роботы, беспилотные автомобили)
👉 в медицине (носимые и стационарные устройства с AI для диагностики и контроля)
👉 в городской инфраструктуре (системы контроля трафика и управления городскими службами)
👉 в «интернете вещей» (IoT) — голосовые помощники и интеллектуальные устройства, в т.ч. умные дома
👉 в космической, добывающей, энергетической и других отраслях.
Для развертывания LLM на малом или среднем предприятии локальная платформа тоже может быть выгоднее и безопаснее, чем облачный сервис или собственный кластер GPU. Особенно это актуально в розничной торговле, консалтинге, юриспруденции, гостиничном бизнесе.
Минусы Edge AI
🔻 Низкая производительность периферийных устройств по сравнению с облачными системами.
🔻 Возможность ошибок и сбоев из-за ограниченных ресурсов и проблем с подключением к сети.
🔻 Ограниченная масштабируемость и сложность управления большим количеством устройств.
Ограниченность ресурсов преодолевается путем комбинации разных чипов, оптимизации инференса и разработки более экономных алгоритмов ML, что позволяет размещать вполне функциональные GenAI-модели на слабых устройствах вроде смартфонов или часов.
Там, где это имеет значение (например, при управлении «роем» мобильных роботов), создаются гибридные системы, сочетающие индивидуальные ИИ c единым центром принятия решений, или же формируются распределенные экосистемы. Например, на днях Intel презентовала Edge AI Suites и Open Edge Platform — набор инструментов и модульную платформу для массового внедрения GenAI на локальных устройствах.
Развитие трендов
Если мы посмотрим в будущее после 2025 года, то увидим несколько новых тенденций, связанных с Edge AI:
🔸 Микро-LLM: фреймворки типа TinyML сделают ИИ доступным на крошечных устройствах.
🔸 Edge-AI маркетплейсы: на торговых площадках будут предлагать заранее обученные модели и готовые к использованию периферийные AI-приложения.
🔸 Развитие мобильных сетей. Технологии 5G-Advanced и 6G обеспечат терабитные скорости передачи данных, открывая новые перспективы для смартфонов с ИИ, очков с дополненной реальностью и роевой робототехники. Кстати, на прошедшей недавно MWC'25 в Барселоне Edge AI был одной из главных тем.
🔸 Квантовый компьютинг. А вот когда настанет цифровой коммунизм и квантовые компьютеры займут нишу современных ПК, для периферийного ИИ придут совсем уж золотые времена 😉 Но это уже совсем другая история...
#EdgeAI #внедрениеAI #LLM
🚀 ©ТехноТренды
Global Market Insights Inc.
Edge AI Market Size & Share, Industry Analysis Report 2034
The edge AI market was valued at USD 12.5 billion in 2024 and is estimated to register a CAGR of 24.8% between 2025 and 2034, propelled by increasing adoption of edge devices across various sectors.
👍1
Обзор локальных архитектур для больших языковых моделей. Часть 1/4
Один из главных современных AI-трендов — конвергенция развития больших языковых моделей и вычислительных мощностей. Модели оптимизируются, а устройства совершенствуются. Появляется всё больше возможностей для запуска LLM с миллиардами параметров на периферийных устройствах (Edge AI), без необходимости подключаться к облаку высокопроизводительных GPU-серверов.
О том, как эволюционируют LLM, мы уже писали не раз (тыц, тыц, тыц, тыц). Давайте посмотрим, какие решения предлагают разработчики оборудования.
1️⃣ SBC (Single Board Computers), или одноплатные компьютеры
Одноплатники отличаются тем, что их конфигурация заточена под минимальное энергопотребление, обеспечивая при этом приличное быстродействие. Часто в них встроены NPU (Neural Processing Unit) — специализированные сопроцессоры для решений вида Edge AI. Появление SSD-накопителей, новых скоростных микроконтроллеров и AI-ускорителей сделало эту платформу очень перспективной для домашней или офисной работы с LLM.
Несколько интересных SBC на начало 2025 года:
🔸 Orange Pi 5 Plus — универсальный, очень мощный мини-ПК с новейшим чипом RK3588. Хоть и не обладает специализированным AI‑ускорителем, но имеет встроенный графический процессор и NPU с умеренными показателями.
⚡️ Показатели: вычислительная мощность ~8 TOPS (триллионов операций в секунду, или терафлопс), инференс ~25 токенов в секунду, энергопотребление ~7-10Вт.
🔸 Raspberry Pi 5 Plus — популярный инструмент с тем же чипом RK3588 для самостоятельной разработки и обучения LLM. Благодаря интеграции AI-ускорителя Hailo-8L или Hailo-8 может запускать модели среднего размера.
⚡️ Показатели: ~26 TOPS, ~35 токенов/сек, ~8-12Вт.
🔸 NVIDIA Jetson Orin Nano Super (на базе NVIDIA Jetson Orin Nano) — решение, оптимизированное для работы с нейронными сетями на базе архитектуры Ampere, обеспечивает высокий инференс, но отличается повышенным энергопотреблением.
⚡️ Показатели: ~40 TOPS, ~45 токенов/сек, ~25Вт.
Скорость выше 10 токенов в секунду превосходит скорость чтения большинства людей, т.е. работа приложений воспринимается практически без задержек. Как видим, одноплатные компьютеры на оптимизированных LLM сегодня могут обеспечить достаточно комфортный инференс для повседневных задач.
• Подробнее об актуальных AI-конфигурациях SBC
#EdgeAI #внедрениеAI #LLM #SBC
🚀 ©ТехноТренды
Один из главных современных AI-трендов — конвергенция развития больших языковых моделей и вычислительных мощностей. Модели оптимизируются, а устройства совершенствуются. Появляется всё больше возможностей для запуска LLM с миллиардами параметров на периферийных устройствах (Edge AI), без необходимости подключаться к облаку высокопроизводительных GPU-серверов.
О том, как эволюционируют LLM, мы уже писали не раз (тыц, тыц, тыц, тыц). Давайте посмотрим, какие решения предлагают разработчики оборудования.
1️⃣ SBC (Single Board Computers), или одноплатные компьютеры
Одноплатники отличаются тем, что их конфигурация заточена под минимальное энергопотребление, обеспечивая при этом приличное быстродействие. Часто в них встроены NPU (Neural Processing Unit) — специализированные сопроцессоры для решений вида Edge AI. Появление SSD-накопителей, новых скоростных микроконтроллеров и AI-ускорителей сделало эту платформу очень перспективной для домашней или офисной работы с LLM.
Несколько интересных SBC на начало 2025 года:
🔸 Orange Pi 5 Plus — универсальный, очень мощный мини-ПК с новейшим чипом RK3588. Хоть и не обладает специализированным AI‑ускорителем, но имеет встроенный графический процессор и NPU с умеренными показателями.
⚡️ Показатели: вычислительная мощность ~8 TOPS (триллионов операций в секунду, или терафлопс), инференс ~25 токенов в секунду, энергопотребление ~7-10Вт.
🔸 Raspberry Pi 5 Plus — популярный инструмент с тем же чипом RK3588 для самостоятельной разработки и обучения LLM. Благодаря интеграции AI-ускорителя Hailo-8L или Hailo-8 может запускать модели среднего размера.
⚡️ Показатели: ~26 TOPS, ~35 токенов/сек, ~8-12Вт.
🔸 NVIDIA Jetson Orin Nano Super (на базе NVIDIA Jetson Orin Nano) — решение, оптимизированное для работы с нейронными сетями на базе архитектуры Ampere, обеспечивает высокий инференс, но отличается повышенным энергопотреблением.
⚡️ Показатели: ~40 TOPS, ~45 токенов/сек, ~25Вт.
Скорость выше 10 токенов в секунду превосходит скорость чтения большинства людей, т.е. работа приложений воспринимается практически без задержек. Как видим, одноплатные компьютеры на оптимизированных LLM сегодня могут обеспечить достаточно комфортный инференс для повседневных задач.
• Подробнее об актуальных AI-конфигурациях SBC
#EdgeAI #внедрениеAI #LLM #SBC
🚀 ©ТехноТренды
Обзор локальных архитектур для больших языковых моделей. Часть 2/4
2️⃣ ARM
ARM (Advanced RISC Machine) — это семейство архитектур процессоров, основанных на принципах RISC (Reduced Instruction Set Computing). Процессоры ARM широко используются в различных сценариях обучения (ML) и эксплуатации больших языковых моделей. Их преимущество — высокая энергоэффективность. Чипы потребляют на 30–50% меньше энергии по сравнению с CPU x86, что делает их идеальными для мобильных устройств, где важны срок работы без подзарядки и низкое тепловыделение.
Имея сервер ARM с четырьмя ядрами и 8 ГБ оперативной памяти, можно запускать различные сценарии использования GenAI, например, проводить обучение чат-бота модели Llama-3.1-8B. Команда llama.cpp представила новый двоичный формат под названием GGUF, использующий методы сжатия и квантования, которые снижают потребность в вычислительных ресурсах и объеме ОЗУ. При этом инференс остается на очень приличном уровне — более 300 TPS (токенов в секунду).
Связка ARM и NPU дает еще больше мощности с сохранением энергоэффективности.
Недавний хайп вокруг DeepSeek и последовавшая за этим дискуссия о том, насколько необходима для ИИ облачная инфраструктура, привлекли новое внимание к Edge AI. Свежие заявления руководителей Qualcomm и Arm показывают явный оптимизм: LLM быстро совершенствуются, становятся разнообразнее — а значит, возникает всё больше возможностей для их развертывания на ПК, смартфонах и устройствах IoT («интернета вещей»).
Естественно, лидеры рынка наперегонки «осваивают поляну». Конкуренция просто бешеная.
🔸 Oracle и Ampere объявили о сотрудничестве в оптимизации llama.cpp для работы с CPU Ampere Arm 64, используя методологию GGUF. На процессоре Arm A1 с 40 OCPU скорость инференса приближается к 40 TPS.
🔸 Компания Arm форсирует проникновение на рынок с целой серией решений на базе передовой платформы Armv9, специально заточенной под обслуживание LLM на IoT-устройствах. Платформа обеспечивает в 8 раз более высокую производительность машинного обучения (ML) по сравнению с прошлогодним Cortex-M85.
🔸 Китайцы из Radxa продвигают новинку Radxa Orion O6 mini-ITX — по сути одноплатник с 12-ядерным процессором Cix P1 Armv9 SoC, GPU Arm Immortalis-G720 и AI-ускорителем на 30 TOPS. Конфигурация догоняет по производительности Apple M1.
🔸 Apple, в свою очередь, продолжает идти в отрыв, выкатив очередную имбу — чип M3 Ultra: CPU с AI-ускорителем, самый мощный в истории Apple встроенный графический процессор, 32-ядерный NPU + программные оболочки Apple Intelligence и Mac Studio. В результате пользователи получают возможность запускать LLM с более чем 600 млрд параметров непосредственно на своем домашнем «Маке».
🔸 Quallcomm вступает в соревнование с Apple, расширяя линейку ARM-процессоров для бюджетных ПК и ноутбуков. Новая версия Snapdragon X с интегрированным нейромодулем (NPU) может обрабатывать до 45 TOPS, что делает ноутбуки совместимыми с AI-приложениями, например с Microsoft Copilot+.
🔸 AMD, желая наверстать свое отставание и потеснить Qualcomm, разрабатывает собственный ARM-процессор Sound Wave с мощным NPU.
🔸 Nvidia тоже объявила о выпуске первого чипа на архитектуре ARM. Релиз планируется на сентябрь 2025 года.
🔸 В конкуренцию с грандами врываются и стартапы. Прошлым летом на краудфандинговой платформе Crowdsupply мгновенно собрали средства на разработку модульного AI-friendly лэптопа GenBook RK3588 с интегрированным NPU мощностью 6 TOPS. В апреле новинка уже выйдет в продажу.
🔸 А где здесь Intel? А она, как тот господин подпоручик, единственная идет «в ногу» и упорно допиливает архитектуру x86, добиваясь сопоставимой с ARM энергоэффективности. Но упорство явно не в плюс: технология морально устарела, и компания теряет контракты. Производители ПК массово переходят на ARM.
Как говорится, зацените движ. Драйвер роста здесь очевиден: устройства на ARM-процессорах становятся всё более востребованными именно как платформа EdgeAI. А значит, конвергенция технологий в этом сегменте продолжится.
#EdgeAI #внедрениеAI #LLM #ARM #IoT
🚀 ©ТехноТренды
2️⃣ ARM
ARM (Advanced RISC Machine) — это семейство архитектур процессоров, основанных на принципах RISC (Reduced Instruction Set Computing). Процессоры ARM широко используются в различных сценариях обучения (ML) и эксплуатации больших языковых моделей. Их преимущество — высокая энергоэффективность. Чипы потребляют на 30–50% меньше энергии по сравнению с CPU x86, что делает их идеальными для мобильных устройств, где важны срок работы без подзарядки и низкое тепловыделение.
Имея сервер ARM с четырьмя ядрами и 8 ГБ оперативной памяти, можно запускать различные сценарии использования GenAI, например, проводить обучение чат-бота модели Llama-3.1-8B. Команда llama.cpp представила новый двоичный формат под названием GGUF, использующий методы сжатия и квантования, которые снижают потребность в вычислительных ресурсах и объеме ОЗУ. При этом инференс остается на очень приличном уровне — более 300 TPS (токенов в секунду).
Связка ARM и NPU дает еще больше мощности с сохранением энергоэффективности.
Недавний хайп вокруг DeepSeek и последовавшая за этим дискуссия о том, насколько необходима для ИИ облачная инфраструктура, привлекли новое внимание к Edge AI. Свежие заявления руководителей Qualcomm и Arm показывают явный оптимизм: LLM быстро совершенствуются, становятся разнообразнее — а значит, возникает всё больше возможностей для их развертывания на ПК, смартфонах и устройствах IoT («интернета вещей»).
Естественно, лидеры рынка наперегонки «осваивают поляну». Конкуренция просто бешеная.
🔸 Oracle и Ampere объявили о сотрудничестве в оптимизации llama.cpp для работы с CPU Ampere Arm 64, используя методологию GGUF. На процессоре Arm A1 с 40 OCPU скорость инференса приближается к 40 TPS.
🔸 Компания Arm форсирует проникновение на рынок с целой серией решений на базе передовой платформы Armv9, специально заточенной под обслуживание LLM на IoT-устройствах. Платформа обеспечивает в 8 раз более высокую производительность машинного обучения (ML) по сравнению с прошлогодним Cortex-M85.
🔸 Китайцы из Radxa продвигают новинку Radxa Orion O6 mini-ITX — по сути одноплатник с 12-ядерным процессором Cix P1 Armv9 SoC, GPU Arm Immortalis-G720 и AI-ускорителем на 30 TOPS. Конфигурация догоняет по производительности Apple M1.
🔸 Apple, в свою очередь, продолжает идти в отрыв, выкатив очередную имбу — чип M3 Ultra: CPU с AI-ускорителем, самый мощный в истории Apple встроенный графический процессор, 32-ядерный NPU + программные оболочки Apple Intelligence и Mac Studio. В результате пользователи получают возможность запускать LLM с более чем 600 млрд параметров непосредственно на своем домашнем «Маке».
🔸 Quallcomm вступает в соревнование с Apple, расширяя линейку ARM-процессоров для бюджетных ПК и ноутбуков. Новая версия Snapdragon X с интегрированным нейромодулем (NPU) может обрабатывать до 45 TOPS, что делает ноутбуки совместимыми с AI-приложениями, например с Microsoft Copilot+.
🔸 AMD, желая наверстать свое отставание и потеснить Qualcomm, разрабатывает собственный ARM-процессор Sound Wave с мощным NPU.
🔸 Nvidia тоже объявила о выпуске первого чипа на архитектуре ARM. Релиз планируется на сентябрь 2025 года.
🔸 В конкуренцию с грандами врываются и стартапы. Прошлым летом на краудфандинговой платформе Crowdsupply мгновенно собрали средства на разработку модульного AI-friendly лэптопа GenBook RK3588 с интегрированным NPU мощностью 6 TOPS. В апреле новинка уже выйдет в продажу.
🔸 А где здесь Intel? А она, как тот господин подпоручик, единственная идет «в ногу» и упорно допиливает архитектуру x86, добиваясь сопоставимой с ARM энергоэффективности. Но упорство явно не в плюс: технология морально устарела, и компания теряет контракты. Производители ПК массово переходят на ARM.
Как говорится, зацените движ. Драйвер роста здесь очевиден: устройства на ARM-процессорах становятся всё более востребованными именно как платформа EdgeAI. А значит, конвергенция технологий в этом сегменте продолжится.
#EdgeAI #внедрениеAI #LLM #ARM #IoT
🚀 ©ТехноТренды
Arm
Deploy a Large Language Model (LLM) chatbot with llama.cpp using KleidiAI on Arm servers: Run a Large Language model (LLM) chatbot…
This is an introductory topic for developers interested in running LLMs on Arm-based servers.
Обзор локальных архитектур для больших языковых моделей. Часть 3/4
3️⃣ RISC-V
Архитектура RISC-V — открытый набор инструкций (ISA), позволяющий разрабатывать кастомные процессоры без лицензионных отчислений. В отличие от закрытых решений типа ARM (хотя и там появляется опенсорс), RISC-V дает полную свободу модификации и оптимизации под конкретные задачи, что критично для Edge AI-решений.
Главные преимущества RISC-V перед ARM:
👉 Открытость — разработчики могут адаптировать ISA под любые нужды, не заботясь о лицензировании.
👉 Модульность и кастомизация — можно брать определенный набор инструкций и расширений под конкретное решение, ничего лишнего.
👉 Энергоэффективность — микропроцессор RISC-V на 5 ГГц «ест» всего 1 Вт при напряжении 1,1В, т.е. менее 1% рабочего энергопотребления чипа Intel Xeon.
👉 Экономичность — отсутствие лицензионных платежей снижает себестоимость чипов.
Есть и недостатки:
➖ Недостаточная зрелость технологии. RISC-V — относительно новая архитектура по сравнению с той же ARM. Отсюда несбалансированность, дефекты команд, небольшой выбор инструментов, библиотек и документации для разработчиков, ограниченная поддержка операционных систем, приложений и драйверов.
➖ Относительно низкая производительность для AI-решений. Процессоры RISC-V показывают пока невысокий инференс даже на оптимизированных LLM типа TinyLlama 1.1B — 1-5 TOPS на выходе.
И все-таки архитектура стремительно наращивает популярность. Зрелость — дело наживное, целые лаборатории работают над оптимизацией алгоритмов и созданием софтверной экосистемы. Благодаря опенсорсу сложилось огромное комьюнити независимых разработчиков. Да и лидеры не отстают: консорциум RISC-V International, контролирующий технологию, включает уже почти 400 научных и коммерческих организаций, включая китайский Институт вычислительных технологий, Google, Qualcomm, Western Digital, Hitachi, Samsung, Huawei, ZTE, Tencent и Alibaba Cloud.
Почему? Смотрите выше. Если ARM хороша для многофункциональных мобильных устройств, то RISC-V — идеальный вариант для специализированных нишевых решений. А ниш очень много.
Где особо востребована архитектура RISC-V?
👉 Везде, где нужны не огромные LLM, а оптимизированные и заранее обученные малые модели:
• интернет вещей,
• промышленная робототехника,
• беспилотный транспорт,
• машинное зрение,
• интеллектуальные системы безопасности
• с/х автоматика (умные теплицы и пр.)
Здесь RISC-V обеспечивает нужное быстродействие, автономность, дешевизну и защищенность.
👉 Популярной сферой применения RISC-V являются периферийные шлюзы ИИ, например системы управления датчиками «умного дома» и другой потребительской робототехники, рынок которой постоянно расширяется.
👉 Отдельная тема — применение RISC-V в военной и аэрокосмической отрасли, над чем давно работают в Китае, США и Европе.
👉 Более того: на CPU RISC-V строят вычислительные кластеры для облачных дата-центров. Даже ноутбуки выпускают со специальными фреймворками и нейромодулями (NPU), позволяющими подключать локальные API LLM и разгонять инференс до 40 терафлопс. Но это скорее экзотика, с ARM здесь не поконкурируешь.
📈 Динамика рынка чипов RISC-V
По некоторым оценкам, начиная с 2024 года объемы поставок процессоров RISC-V будут в среднем расти на 50% ежегодно. К 2030-му годовой объем поставок чипов RISC-V для Edge AI (исключая TinyML) достигнет 129 миллионов, заняв 25% рынка процессоров. Из этого количества 70% составят поставки для личных и рабочих устройств и шлюзов Edge AI.
Некоторые энтузиасты спешат объявить RISC-V «ARM-киллером» и «геймчейнджером на рынке EdgeAI». На самом деле это просто еще одна технология, для которой пришло время и сформировался спрос. Развитие ИИ подстегнуло интерес к архитектуре, а развитие архитектуры становится драйвером для дальнейшего развития периферийных AI-устройств.
#EdgeAI #внедрениеAI #LLM #RISCV #SLM
🚀 ©ТехноТренды
3️⃣ RISC-V
Архитектура RISC-V — открытый набор инструкций (ISA), позволяющий разрабатывать кастомные процессоры без лицензионных отчислений. В отличие от закрытых решений типа ARM (хотя и там появляется опенсорс), RISC-V дает полную свободу модификации и оптимизации под конкретные задачи, что критично для Edge AI-решений.
Главные преимущества RISC-V перед ARM:
👉 Открытость — разработчики могут адаптировать ISA под любые нужды, не заботясь о лицензировании.
👉 Модульность и кастомизация — можно брать определенный набор инструкций и расширений под конкретное решение, ничего лишнего.
👉 Энергоэффективность — микропроцессор RISC-V на 5 ГГц «ест» всего 1 Вт при напряжении 1,1В, т.е. менее 1% рабочего энергопотребления чипа Intel Xeon.
👉 Экономичность — отсутствие лицензионных платежей снижает себестоимость чипов.
Есть и недостатки:
➖ Недостаточная зрелость технологии. RISC-V — относительно новая архитектура по сравнению с той же ARM. Отсюда несбалансированность, дефекты команд, небольшой выбор инструментов, библиотек и документации для разработчиков, ограниченная поддержка операционных систем, приложений и драйверов.
➖ Относительно низкая производительность для AI-решений. Процессоры RISC-V показывают пока невысокий инференс даже на оптимизированных LLM типа TinyLlama 1.1B — 1-5 TOPS на выходе.
И все-таки архитектура стремительно наращивает популярность. Зрелость — дело наживное, целые лаборатории работают над оптимизацией алгоритмов и созданием софтверной экосистемы. Благодаря опенсорсу сложилось огромное комьюнити независимых разработчиков. Да и лидеры не отстают: консорциум RISC-V International, контролирующий технологию, включает уже почти 400 научных и коммерческих организаций, включая китайский Институт вычислительных технологий, Google, Qualcomm, Western Digital, Hitachi, Samsung, Huawei, ZTE, Tencent и Alibaba Cloud.
Почему? Смотрите выше. Если ARM хороша для многофункциональных мобильных устройств, то RISC-V — идеальный вариант для специализированных нишевых решений. А ниш очень много.
Где особо востребована архитектура RISC-V?
👉 Везде, где нужны не огромные LLM, а оптимизированные и заранее обученные малые модели:
• интернет вещей,
• промышленная робототехника,
• беспилотный транспорт,
• машинное зрение,
• интеллектуальные системы безопасности
• с/х автоматика (умные теплицы и пр.)
Здесь RISC-V обеспечивает нужное быстродействие, автономность, дешевизну и защищенность.
👉 Популярной сферой применения RISC-V являются периферийные шлюзы ИИ, например системы управления датчиками «умного дома» и другой потребительской робототехники, рынок которой постоянно расширяется.
👉 Отдельная тема — применение RISC-V в военной и аэрокосмической отрасли, над чем давно работают в Китае, США и Европе.
👉 Более того: на CPU RISC-V строят вычислительные кластеры для облачных дата-центров. Даже ноутбуки выпускают со специальными фреймворками и нейромодулями (NPU), позволяющими подключать локальные API LLM и разгонять инференс до 40 терафлопс. Но это скорее экзотика, с ARM здесь не поконкурируешь.
📈 Динамика рынка чипов RISC-V
По некоторым оценкам, начиная с 2024 года объемы поставок процессоров RISC-V будут в среднем расти на 50% ежегодно. К 2030-му годовой объем поставок чипов RISC-V для Edge AI (исключая TinyML) достигнет 129 миллионов, заняв 25% рынка процессоров. Из этого количества 70% составят поставки для личных и рабочих устройств и шлюзов Edge AI.
Некоторые энтузиасты спешат объявить RISC-V «ARM-киллером» и «геймчейнджером на рынке EdgeAI». На самом деле это просто еще одна технология, для которой пришло время и сформировался спрос. Развитие ИИ подстегнуло интерес к архитектуре, а развитие архитектуры становится драйвером для дальнейшего развития периферийных AI-устройств.
#EdgeAI #внедрениеAI #LLM #RISCV #SLM
🚀 ©ТехноТренды
⚡1❤1🔥1
Обзор локальных архитектур для больших языковых моделей. Часть 4/4
4️⃣ Сравнения и выводы
👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.
👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.
В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).
Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.
👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.
#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс
🚀 ©ТехноТренды
4️⃣ Сравнения и выводы
👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.
👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.
В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).
Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.
👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.
#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс
🚀 ©ТехноТренды
⚡1👍1👏1
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 1/3
👉 В спецификациях устройств сегодня часто встречаются сочетания «NPU acceleration» или «TPU coprocessor». Что это за очередные волшебные слова из трех букв? Давайте разбираться.
Быстрое развитие искусственного интеллекта и больших языковых моделей (LLM) предъявляет растущие требования к производительности при обработке огромных массивов данных и к энергоэффективности «железа». Традиционные CPU не умеют в параллельные вычисления, а GPU умеют, но стоят дорого и потребляют много энергии. Передовые архитектуры, такие как ASIC, ARM и RISC-V, гораздо экономичнее, но имеют ограничения по производительности в задачах, связанных с обучением и развертыванием GenAI. Поэтому их всё чаще дополняют специализированными ускорителями — нейронными (NPU) и тензорными (TPU) процессорами.
Рассмотрим обе эти архитектуры, а потом сделаем некоторые практические выводы и прогнозы.
1️⃣ NPU (Neural Processing Unit)
Нейронные процессоры называются так, потому что их архитектура имитирует нейронную сеть человеческого мозга, за счет чего хорошо справляется с параллельными вычислениями. NPU также способны обучаться на основе накопленных данных, чтобы со временем находить оптимальные решения, что полезно для глубокого машинного обучения (ML).
Первые NPU, выпущенные в 2015 году, были основаны на свёрточных нейронных сетях (CNN) и предназначались для использования в сфере аудио- и речевых технологий ИИ. С тех пор архитектура постоянно развивается параллельно с развитием ИИ, особенно в области вывода данных на периферийных устройствах (Edge AI). Ключевые производители NPU — Huawei, Nvidia, Intel, Qualcomm, Apple.
Задачи ИИ в основном сводятся к обсчету слоев нейронной сети — скалярной, векторной и тензорной математике — с последующей нелинейной функцией активации. NPU разработан так, чтобы оптимизировать рабочие нагрузки при решении этих задач, а значит, потреблять меньше энергии. Этому способствуют его технические особенности: кэш-память на кристалле, память с высокой пропускной способностью и т.п.
👉 Применение NPU
Современные NPU способны выполнять триллионы операций в секунду, и активно конкурируют с графическими процессорами там, где важна компактность, автономность и экономичность.
Уже существует довольно много решений, где модулем NPU усилен основной процессор на базе ARM и RISC-V: смартфоны, планшеты, SBC. Применяются нейропроцессоры и отдельно в устройствах Edge AI: носимых устройствах, «мозгах» роботов, инфраструктуре «умных» городов и пр.
Еще более перспективны NPU в гетерогенных вычислениях, где их функционал сочетается с центральным и графическим процессорами. Несколько примеров:
🔸 Обработка изображений и видео в системах видеонаблюдения или медиаиндустрии. CPU управляет общей логикой приложения, потоками данных и интерфейсами; GPU в реальном времени выполняет преобразование изображений, фильтрацию, кодирование/декодирование видеопотока; NPU отвечает за работу ИИ, например, при распознавании, добавлении или удалении объектов на видео.
🔸 Финансовые технологии (FinTech). CPU управляет бизнес-логикой и взаимодействием с пользователем; GPU занимается анализом данных, отслеживанием трендов; NPU — финансовым прогнозированием, оценкой кредитных рисков, выявлением мошенничества, анализом корреляционных моделей.
🔸 Медицина и биоинформатика (анализ генетических данных, диагностика, прогнозирование заболеваний). CPU управляет процессами обработки информации, взаимодействием с базами данных; GPU анализирует изображения с МРТ и других медицинских устройств; NPU используется для машинного обучения и классификации данных, например, для ранней диагностики заболеваний «по картинке».
🔸 Гетерогенные связки с участием NPU востребованы и в таких областях, как виртуальная реальность, беспилотный транспорт, игровая индустрия.
#NPU #ML #IoT #EdgeAI
👉 В спецификациях устройств сегодня часто встречаются сочетания «NPU acceleration» или «TPU coprocessor». Что это за очередные волшебные слова из трех букв? Давайте разбираться.
Быстрое развитие искусственного интеллекта и больших языковых моделей (LLM) предъявляет растущие требования к производительности при обработке огромных массивов данных и к энергоэффективности «железа». Традиционные CPU не умеют в параллельные вычисления, а GPU умеют, но стоят дорого и потребляют много энергии. Передовые архитектуры, такие как ASIC, ARM и RISC-V, гораздо экономичнее, но имеют ограничения по производительности в задачах, связанных с обучением и развертыванием GenAI. Поэтому их всё чаще дополняют специализированными ускорителями — нейронными (NPU) и тензорными (TPU) процессорами.
Рассмотрим обе эти архитектуры, а потом сделаем некоторые практические выводы и прогнозы.
1️⃣ NPU (Neural Processing Unit)
Нейронные процессоры называются так, потому что их архитектура имитирует нейронную сеть человеческого мозга, за счет чего хорошо справляется с параллельными вычислениями. NPU также способны обучаться на основе накопленных данных, чтобы со временем находить оптимальные решения, что полезно для глубокого машинного обучения (ML).
Первые NPU, выпущенные в 2015 году, были основаны на свёрточных нейронных сетях (CNN) и предназначались для использования в сфере аудио- и речевых технологий ИИ. С тех пор архитектура постоянно развивается параллельно с развитием ИИ, особенно в области вывода данных на периферийных устройствах (Edge AI). Ключевые производители NPU — Huawei, Nvidia, Intel, Qualcomm, Apple.
Задачи ИИ в основном сводятся к обсчету слоев нейронной сети — скалярной, векторной и тензорной математике — с последующей нелинейной функцией активации. NPU разработан так, чтобы оптимизировать рабочие нагрузки при решении этих задач, а значит, потреблять меньше энергии. Этому способствуют его технические особенности: кэш-память на кристалле, память с высокой пропускной способностью и т.п.
👉 Применение NPU
Современные NPU способны выполнять триллионы операций в секунду, и активно конкурируют с графическими процессорами там, где важна компактность, автономность и экономичность.
Уже существует довольно много решений, где модулем NPU усилен основной процессор на базе ARM и RISC-V: смартфоны, планшеты, SBC. Применяются нейропроцессоры и отдельно в устройствах Edge AI: носимых устройствах, «мозгах» роботов, инфраструктуре «умных» городов и пр.
Еще более перспективны NPU в гетерогенных вычислениях, где их функционал сочетается с центральным и графическим процессорами. Несколько примеров:
🔸 Обработка изображений и видео в системах видеонаблюдения или медиаиндустрии. CPU управляет общей логикой приложения, потоками данных и интерфейсами; GPU в реальном времени выполняет преобразование изображений, фильтрацию, кодирование/декодирование видеопотока; NPU отвечает за работу ИИ, например, при распознавании, добавлении или удалении объектов на видео.
🔸 Финансовые технологии (FinTech). CPU управляет бизнес-логикой и взаимодействием с пользователем; GPU занимается анализом данных, отслеживанием трендов; NPU — финансовым прогнозированием, оценкой кредитных рисков, выявлением мошенничества, анализом корреляционных моделей.
🔸 Медицина и биоинформатика (анализ генетических данных, диагностика, прогнозирование заболеваний). CPU управляет процессами обработки информации, взаимодействием с базами данных; GPU анализирует изображения с МРТ и других медицинских устройств; NPU используется для машинного обучения и классификации данных, например, для ранней диагностики заболеваний «по картинке».
🔸 Гетерогенные связки с участием NPU востребованы и в таких областях, как виртуальная реальность, беспилотный транспорт, игровая индустрия.
#NPU #ML #IoT #EdgeAI
👍3❤1🔥1
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 2/3
Возвращаемся к теме, которую начали позавчера. Сегодня поговорим о тензорных процессорах.
2️⃣ TPU (Tensor Processing Unit)
TPU — специализированная интегральная схема (вариант архитектуры ASIC), разработанная компанией Google специально для нейронных сетей. Тензорные процессоры (сюрприз!) оптимизированы под работу с тензорами — многомерными массивами данных, которые составляют основу большинства современных моделей глубокого обучения.
👉 Ключевые особенности TPU:
• Наличие матричного умножителя (MXU) — модуля, который с невероятной скоростью выполняет операции умножения матриц и векторов, что очень важно для обучения и инференса LLM или распознавания изображений.
• SparseCore — специализированный ускоритель для обработки сверхбольших встраиваемых моделей, которые часто используются в продвинутых задачах ранжирования и рекомендаций.
• Запатентованная топология интерконнекта (способ связывания узлов в вычислительном кластере, который в случае с TPU обеспечивает высокую скорость при минимальных задержках отклика).
⚡️ При этом TPU весьма энергоэффективны. Производительность в расчете на ватт в рабочем режиме у процессоров семейства Google TPU в 25–80 раз выше, чем у CPU или GPU. Отдельный сопроцессор Edge TPU может выполнять 4 триллиона операций в секунду (4 TOPS), потребляя всего 2 Вт энергии.
👉 Примеры использования TPU
Если NPU чаще встречаются в мобильных и встроенных системах, то TPU чаще используются в облачных вычислениях и крупных вычислительных кластерах.
• Google начала применять тензорные процессоры в 2015 году для собственных исследований в области машинного обучения, а впоследствии — для оптимизации фреймворка Google Tensorflow. Популярность фреймворка также способствовала успеху архитектуры.
• TPU использовались для извлечения текста из фотографий Google Street View, а в «Google Фото» один тензорный процессор мог обрабатывать более 100 миллионов фотографий в день.
• В 2018 году «корпорация добра» сделала TPU общедоступными через свою облачную платформу Google Cloud. Такие продукты Google, как Gmail, Поиск и Переводчик, работают на специализированных облачных TPU.
👉 Применяются эти ускорители и в устройствах Edge AI. Например, чипами TPU оснащаются вычислительные шлюзы (Intelligent edge computing gateway). Это устройства, которые обеспечивают мощную производительность периферийных вычислений для интеллектуального анализа данных и машинного зрения на базе ИИ.
Некоторые области применения таких шлюзов:
🔸 Промышленность: сбор, вычисления и передача данных на интеллектуальных фабриках.
🔸 Энергетика: мониторинг расхода и обработка данных для управления энергией на электростанциях.
🔸 «Умный город»: энергетический мониторинг зданий, сооружений и заводов.
🔸 Интернет вещей: сбор и пересылка данных, удаленный мониторинг и управление, а также проникновение в интранет для полевых ПЛК, систем управления дронами, различных контроллеров, датчиков приборов.
#TPU #ML #IoT #EdgeAI #Google
🚀 ©ТехноТренды
Возвращаемся к теме, которую начали позавчера. Сегодня поговорим о тензорных процессорах.
2️⃣ TPU (Tensor Processing Unit)
TPU — специализированная интегральная схема (вариант архитектуры ASIC), разработанная компанией Google специально для нейронных сетей. Тензорные процессоры (сюрприз!) оптимизированы под работу с тензорами — многомерными массивами данных, которые составляют основу большинства современных моделей глубокого обучения.
👉 Ключевые особенности TPU:
• Наличие матричного умножителя (MXU) — модуля, который с невероятной скоростью выполняет операции умножения матриц и векторов, что очень важно для обучения и инференса LLM или распознавания изображений.
• SparseCore — специализированный ускоритель для обработки сверхбольших встраиваемых моделей, которые часто используются в продвинутых задачах ранжирования и рекомендаций.
• Запатентованная топология интерконнекта (способ связывания узлов в вычислительном кластере, который в случае с TPU обеспечивает высокую скорость при минимальных задержках отклика).
⚡️ При этом TPU весьма энергоэффективны. Производительность в расчете на ватт в рабочем режиме у процессоров семейства Google TPU в 25–80 раз выше, чем у CPU или GPU. Отдельный сопроцессор Edge TPU может выполнять 4 триллиона операций в секунду (4 TOPS), потребляя всего 2 Вт энергии.
👉 Примеры использования TPU
Если NPU чаще встречаются в мобильных и встроенных системах, то TPU чаще используются в облачных вычислениях и крупных вычислительных кластерах.
• Google начала применять тензорные процессоры в 2015 году для собственных исследований в области машинного обучения, а впоследствии — для оптимизации фреймворка Google Tensorflow. Популярность фреймворка также способствовала успеху архитектуры.
• TPU использовались для извлечения текста из фотографий Google Street View, а в «Google Фото» один тензорный процессор мог обрабатывать более 100 миллионов фотографий в день.
• В 2018 году «корпорация добра» сделала TPU общедоступными через свою облачную платформу Google Cloud. Такие продукты Google, как Gmail, Поиск и Переводчик, работают на специализированных облачных TPU.
👉 Применяются эти ускорители и в устройствах Edge AI. Например, чипами TPU оснащаются вычислительные шлюзы (Intelligent edge computing gateway). Это устройства, которые обеспечивают мощную производительность периферийных вычислений для интеллектуального анализа данных и машинного зрения на базе ИИ.
Некоторые области применения таких шлюзов:
🔸 Промышленность: сбор, вычисления и передача данных на интеллектуальных фабриках.
🔸 Энергетика: мониторинг расхода и обработка данных для управления энергией на электростанциях.
🔸 «Умный город»: энергетический мониторинг зданий, сооружений и заводов.
🔸 Интернет вещей: сбор и пересылка данных, удаленный мониторинг и управление, а также проникновение в интранет для полевых ПЛК, систем управления дронами, различных контроллеров, датчиков приборов.
#TPU #ML #IoT #EdgeAI #Google
🚀 ©ТехноТренды
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 3/3
Завершаем цикл постов (начало, продолжение). Сегодняшняя тема — интеграция AI-ускорителей с большими языковыми моделями на периферийных устройствах.
3️⃣ NPU, TPU и LLM: перспективы внедрения в Edge AI
Не все AI-ускорители могут работать с большими языковыми моделями. Чтобы чип мог «тянуть» LLM, он должен поддерживать нужные математические операции, такие как матричное умножение.
Традиционно с этим лучше всех справляются тензорные процессоры (TPU) — ради этого их и разработали. Но появились и интересные связки NPU+ARM, и даже решения на базе других платформ. Идет активный поиск баланса между мощностью и энергоэффективностью — ключевым параметром для Edge AI.
Рассмотрим несколько перспективных решений.
🔸 Ascend 910C — NPU от Huawei, который получил прозвище «убийца Nvidia A100». Чип рассчитан на обучение и инференс LLM, и может выдавать от 256 до 512 терафлопс на FP16 и INT8 соответственно. Правда, и потребляет немало — 350 Вт. Этим чипом, например, оборудованы одноплатные компьютеры Orange Pi AIPro 16Gb.
🔸 MLSoC — мультимодальный GenAI-чип от SiMa.ai, объединяющий процессоры ARM, NPU и DSP. Поддерживает фреймворки TensorFlow, PyTorch, ONNX и может запускать любую LLM на скорости 50-200 TOPS. В тестах типа MLPerf он оказался значительно быстрее, чем Nvidia Jetson Orin, при этом в разы энергоэффективнее.
🔸 SOPHON BM1684X — тензорный процессор, выпущенный китайской компанией SOPHGO. Поддерживает PyTorch, TensorFlow и другие основные фреймворки.
🔸 Hailo-10 — TPU для Edge AI от одноименного израильского производителя. Может запускать Llama2-7B со скоростью до 10 токенов в секунду, потребляя менее 5 Вт. Согласно тестам, обеспечивает вдвое более высокую производительность при вдвое меньшей мощности, чем Intel Core Ultra NPU.
🔸 Coral Edge TPU — семейство решений от Google. Плата M.2 с двумя TPU-процессорами для машинного обучения выполняет 4 TOPS при потреблении 2 Вт, т.е. 2 TOPS на ватт. Не так уж много, но для машинного зрения, например, вполне хватает. Один «Коралл» может обслуживать модели типа MobileNet v2 со скоростью почти 400 кадров в секунду.
🔸 Metis AI — ИИ-процессор на базе RISC-V от компании Axelera. Обеспечивает 214 TOPS при INT8 с эффективностью 15 TOPS/Вт —на 37% лучше, чем Nvidia Jetson AGX Orin. Карты PCIe AI Edge доступны в версиях с одним и несколькими чипами с общей производительностью до 856 TOPS.
👉 Комментарий по трендам, прогноз рынка
1️⃣ Как видим, разница между NPU и TPU применительно к большим языковым моделям не принципиальна. То и другое — больше про брендинг, чем про технологию. IT-гиганты разрабатывают чипы под собственные задачи, но некоторые спешат «застолбить» коммерчески-звучные названия типа тензоров.
2️⃣ Развитие всех типов AI-ускорителей движется в сторону улучшения совместимости с LLM. Тот же израильский Hailo планирует оснастить следующую версию своего процессора встроенной поддержкой LLM. Ведутся такие разработки и в России.
3️⃣ Прогнозируем установление нового стандарта: автономные устройства (дроны, роботы и т.д.), оборудованные AI-ускорителями, будут получать предустановленную LLM.
Что это даст? Способность к самообучению, снижение издержек, больше функционала и безопасности:
• беспилотные комбайны будут корректировать маршруты в зависимости от состояния посевов;
• складские роботы — оптимизировать пути объезда препятствий;
• спасательные дроны — анализировать видео в реальном времени при поиске объектов;
• промроботы — мгновенно реагировать на голосовые команды;
• медицинские сенсоры — диагностировать пациента без передачи конфиденциальных данных в «облако», и т.д.
По прогнозам, к 2030 году 75% уличных камер будут оснащены TinyLLM. А общий объем рынка Edge AI с LLM к 2028 году достигнет $142 млрд (CAGR с 2025 г. = 67%).
#тренды #прогноз #цифры #EdgeAI #LLM #NPU #TPU #IoT
🚀 ©ТехноТренды
Завершаем цикл постов (начало, продолжение). Сегодняшняя тема — интеграция AI-ускорителей с большими языковыми моделями на периферийных устройствах.
3️⃣ NPU, TPU и LLM: перспективы внедрения в Edge AI
Не все AI-ускорители могут работать с большими языковыми моделями. Чтобы чип мог «тянуть» LLM, он должен поддерживать нужные математические операции, такие как матричное умножение.
Традиционно с этим лучше всех справляются тензорные процессоры (TPU) — ради этого их и разработали. Но появились и интересные связки NPU+ARM, и даже решения на базе других платформ. Идет активный поиск баланса между мощностью и энергоэффективностью — ключевым параметром для Edge AI.
Рассмотрим несколько перспективных решений.
🔸 Ascend 910C — NPU от Huawei, который получил прозвище «убийца Nvidia A100». Чип рассчитан на обучение и инференс LLM, и может выдавать от 256 до 512 терафлопс на FP16 и INT8 соответственно. Правда, и потребляет немало — 350 Вт. Этим чипом, например, оборудованы одноплатные компьютеры Orange Pi AIPro 16Gb.
🔸 MLSoC — мультимодальный GenAI-чип от SiMa.ai, объединяющий процессоры ARM, NPU и DSP. Поддерживает фреймворки TensorFlow, PyTorch, ONNX и может запускать любую LLM на скорости 50-200 TOPS. В тестах типа MLPerf он оказался значительно быстрее, чем Nvidia Jetson Orin, при этом в разы энергоэффективнее.
🔸 SOPHON BM1684X — тензорный процессор, выпущенный китайской компанией SOPHGO. Поддерживает PyTorch, TensorFlow и другие основные фреймворки.
🔸 Hailo-10 — TPU для Edge AI от одноименного израильского производителя. Может запускать Llama2-7B со скоростью до 10 токенов в секунду, потребляя менее 5 Вт. Согласно тестам, обеспечивает вдвое более высокую производительность при вдвое меньшей мощности, чем Intel Core Ultra NPU.
🔸 Coral Edge TPU — семейство решений от Google. Плата M.2 с двумя TPU-процессорами для машинного обучения выполняет 4 TOPS при потреблении 2 Вт, т.е. 2 TOPS на ватт. Не так уж много, но для машинного зрения, например, вполне хватает. Один «Коралл» может обслуживать модели типа MobileNet v2 со скоростью почти 400 кадров в секунду.
🔸 Metis AI — ИИ-процессор на базе RISC-V от компании Axelera. Обеспечивает 214 TOPS при INT8 с эффективностью 15 TOPS/Вт —на 37% лучше, чем Nvidia Jetson AGX Orin. Карты PCIe AI Edge доступны в версиях с одним и несколькими чипами с общей производительностью до 856 TOPS.
👉 Комментарий по трендам, прогноз рынка
1️⃣ Как видим, разница между NPU и TPU применительно к большим языковым моделям не принципиальна. То и другое — больше про брендинг, чем про технологию. IT-гиганты разрабатывают чипы под собственные задачи, но некоторые спешат «застолбить» коммерчески-звучные названия типа тензоров.
2️⃣ Развитие всех типов AI-ускорителей движется в сторону улучшения совместимости с LLM. Тот же израильский Hailo планирует оснастить следующую версию своего процессора встроенной поддержкой LLM. Ведутся такие разработки и в России.
3️⃣ Прогнозируем установление нового стандарта: автономные устройства (дроны, роботы и т.д.), оборудованные AI-ускорителями, будут получать предустановленную LLM.
Что это даст? Способность к самообучению, снижение издержек, больше функционала и безопасности:
• беспилотные комбайны будут корректировать маршруты в зависимости от состояния посевов;
• складские роботы — оптимизировать пути объезда препятствий;
• спасательные дроны — анализировать видео в реальном времени при поиске объектов;
• промроботы — мгновенно реагировать на голосовые команды;
• медицинские сенсоры — диагностировать пациента без передачи конфиденциальных данных в «облако», и т.д.
По прогнозам, к 2030 году 75% уличных камер будут оснащены TinyLLM. А общий объем рынка Edge AI с LLM к 2028 году достигнет $142 млрд (CAGR с 2025 г. = 67%).
#тренды #прогноз #цифры #EdgeAI #LLM #NPU #TPU #IoT
🚀 ©ТехноТренды
👍1
Матрешка и искусственный интеллект: Google научил модель прятаться внутри самой себя
Когда слышишь слово «матрешка», вряд ли первая ассоциация — ИИ. А зря. Новая модель Gemma 3n от Google реализовала именно этот архитектурный принцип, сделав его основой эффективности. И это не метафора, а легитимный и довольно старый термин: Matryoshka Embedding Model. Не иначе Сергей Брин подсказал ))
🪆Новая матрешка в нашем сельпо
Мы часто пишем об оптимизации моделей (1, 2, 3) — это один из важных трендов на фоне развития EdgeAI. Недавний релиз от Google стал одним из самых инновационных технологических прорывов года. Gemma3n — первая модель «матрешки» промышленного уровня.
На первый взгляд может показаться, что это обычная just one more LLM (их сейчас как пирожки пекут). Но вот в чем фишка: эта модель спокойно работает на вашем айфоне и при этом обеспечивает производительность на уровне лидеров рынка, таких как Claude 3.7 Sonnet и Llama 4. Кое у кого появился повод для паники.
В мульмодальной Gemma 3n включена обработка аудио (плюс к возможностям текста и зрения в версии 3.5). Каждый компонент интегрирует надежные исследовательские модели: Universal Speech Model для аудио, MobileNet v4 для зрения и MatFormer для текста.
Модель доступна в двух размерах:
• E2B (2 млрд параметров) — требует всего 2GB памяти
• E4B (4 млрд параметров) — 3GB памяти
При этом фактическое количество параметров составляет 5B и 8B соответственно, но благодаря архитектурным инновациям модель компактно упакована «сама в себя».
Это прорывное решение для EdgeAI. Теперь вы можете использовать мощный ИИ непосредственно на устройстве, без необходимости в облачных серверах или сложной настройке GPU. Прозреваем новый глобальный захват рынка «корпорацией добра» и новые антимонопольные иски 😉
🔧 Как это работает — объясняем наглядно
Принцип матрешки — «одна в другой». То же самое в Google DeepMind сделали с искусственным интеллектом. Архитектура MatFormer (Matryoshka Transformer) представляет собой вложенный трансформер для эластичного вывода: большая модель содержит меньшие, полностью функциональные версии себя. Устройство на ходу выбирает нужную, в зависимости от потребности момента: один вектор может обрабатываться на нескольких уровнях понимания.
💬 Что происходит при выводе?
Матрешечная модель обучена создавать векторы, в которых самые важные данные находятся в начале. (Этот подход, называемый Matryoshka Representation Learning, не нов — более подробно см. в статье). При этом качественные представления создаются не только для полного размера, но и для усеченных. Можно обрезать вектор — и модель всё равно вас поймет и выдаст валидный ответ.
Получить короткий вектор так же быстро, как длинный, но при этом нужно меньше памяти и вычислений. Работает как режимы экономии батареи на телефоне:
• быстро, но не слишком умно
• сбалансировано
• полный интеллект на максималках.
Пример. Представьте, что модель распознаёт картинку с котом:
• Вектор = 64: «Это кошка»
• Вектор = 256: «Это домашняя кошка в интерьере»
• Вектор = 768: «Это взрослый кот породы табби, лежит на подоконнике в солнечный день».
Чем больше вектор, тем точнее описание.
То есть одна и та же модель:
• Может работать как маленькая, средняя и большая;
• Не нуждается в дроблении на разные версии;
• Масштабируется под любое железо — от смартфона до серверов.
А главное — меньше ресурсов, меньше затрат, меньше головной боли для CTO и DevOps.
💡 Вывод
Google снова тихо затащил. Пока остальные кидают на ИИ все доступные ресурсы, здесь учат модели быть гибче, а не тяжелее. И это один из главных трендов волны EdgeAI.
Полезные ссылки для тех, кто хочет «под капот»:
🔗 Введение в Matryoshka Embedding Models на Hugging Face
🔗 Официальная дока Gemma 3n от Google
#EdgeAI #ML #LLM #Google
🚀 ©ТехноТренды
Когда слышишь слово «матрешка», вряд ли первая ассоциация — ИИ. А зря. Новая модель Gemma 3n от Google реализовала именно этот архитектурный принцип, сделав его основой эффективности. И это не метафора, а легитимный и довольно старый термин: Matryoshka Embedding Model. Не иначе Сергей Брин подсказал ))
🪆Новая матрешка в нашем сельпо
Мы часто пишем об оптимизации моделей (1, 2, 3) — это один из важных трендов на фоне развития EdgeAI. Недавний релиз от Google стал одним из самых инновационных технологических прорывов года. Gemma3n — первая модель «матрешки» промышленного уровня.
На первый взгляд может показаться, что это обычная just one more LLM (их сейчас как пирожки пекут). Но вот в чем фишка: эта модель спокойно работает на вашем айфоне и при этом обеспечивает производительность на уровне лидеров рынка, таких как Claude 3.7 Sonnet и Llama 4. Кое у кого появился повод для паники.
В мульмодальной Gemma 3n включена обработка аудио (плюс к возможностям текста и зрения в версии 3.5). Каждый компонент интегрирует надежные исследовательские модели: Universal Speech Model для аудио, MobileNet v4 для зрения и MatFormer для текста.
Модель доступна в двух размерах:
• E2B (2 млрд параметров) — требует всего 2GB памяти
• E4B (4 млрд параметров) — 3GB памяти
При этом фактическое количество параметров составляет 5B и 8B соответственно, но благодаря архитектурным инновациям модель компактно упакована «сама в себя».
Это прорывное решение для EdgeAI. Теперь вы можете использовать мощный ИИ непосредственно на устройстве, без необходимости в облачных серверах или сложной настройке GPU. Прозреваем новый глобальный захват рынка «корпорацией добра» и новые антимонопольные иски 😉
🔧 Как это работает — объясняем наглядно
Принцип матрешки — «одна в другой». То же самое в Google DeepMind сделали с искусственным интеллектом. Архитектура MatFormer (Matryoshka Transformer) представляет собой вложенный трансформер для эластичного вывода: большая модель содержит меньшие, полностью функциональные версии себя. Устройство на ходу выбирает нужную, в зависимости от потребности момента: один вектор может обрабатываться на нескольких уровнях понимания.
💬 Что происходит при выводе?
Матрешечная модель обучена создавать векторы, в которых самые важные данные находятся в начале. (Этот подход, называемый Matryoshka Representation Learning, не нов — более подробно см. в статье). При этом качественные представления создаются не только для полного размера, но и для усеченных. Можно обрезать вектор — и модель всё равно вас поймет и выдаст валидный ответ.
Получить короткий вектор так же быстро, как длинный, но при этом нужно меньше памяти и вычислений. Работает как режимы экономии батареи на телефоне:
• быстро, но не слишком умно
• сбалансировано
• полный интеллект на максималках.
Пример. Представьте, что модель распознаёт картинку с котом:
• Вектор = 64: «Это кошка»
• Вектор = 256: «Это домашняя кошка в интерьере»
• Вектор = 768: «Это взрослый кот породы табби, лежит на подоконнике в солнечный день».
Чем больше вектор, тем точнее описание.
То есть одна и та же модель:
• Может работать как маленькая, средняя и большая;
• Не нуждается в дроблении на разные версии;
• Масштабируется под любое железо — от смартфона до серверов.
А главное — меньше ресурсов, меньше затрат, меньше головной боли для CTO и DevOps.
💡 Вывод
Google снова тихо затащил. Пока остальные кидают на ИИ все доступные ресурсы, здесь учат модели быть гибче, а не тяжелее. И это один из главных трендов волны EdgeAI.
Полезные ссылки для тех, кто хочет «под капот»:
🔗 Введение в Matryoshka Embedding Models на Hugging Face
🔗 Официальная дока Gemma 3n от Google
#EdgeAI #ML #LLM #Google
🚀 ©ТехноТренды
❤2