📈 ТехноТренды: Технологии, Тренды, IT
1.02K subscribers
122 photos
23 videos
7 files
223 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 1/3

👉 В спецификациях устройств сегодня часто встречаются сочетания «NPU acceleration» или «TPU coprocessor». Что это за очередные волшебные слова из трех букв? Давайте разбираться.

Быстрое развитие искусственного интеллекта и больших языковых моделей (LLM) предъявляет растущие требования к производительности при обработке огромных массивов данных и к энергоэффективности «железа». Традиционные CPU не умеют в параллельные вычисления, а GPU умеют, но стоят дорого и потребляют много энергии. Передовые архитектуры, такие как ASIC, ARM и RISC-V, гораздо экономичнее, но имеют ограничения по производительности в задачах, связанных с обучением и развертыванием GenAI. Поэтому их всё чаще дополняют специализированными ускорителями — нейронными (NPU) и тензорными (TPU) процессорами.

Рассмотрим обе эти архитектуры, а потом сделаем некоторые практические выводы и прогнозы.

1️⃣ NPU (Neural Processing Unit)

Нейронные процессоры называются так, потому что их архитектура имитирует нейронную сеть человеческого мозга, за счет чего хорошо справляется с параллельными вычислениями. NPU также способны обучаться на основе накопленных данных, чтобы со временем находить оптимальные решения, что полезно для глубокого машинного обучения (ML).

Первые NPU, выпущенные в 2015 году, были основаны на свёрточных нейронных сетях (CNN) и предназначались для использования в сфере аудио- и речевых технологий ИИ. С тех пор архитектура постоянно развивается параллельно с развитием ИИ, особенно в области вывода данных на периферийных устройствах (Edge AI). Ключевые производители NPU — Huawei, Nvidia, Intel, Qualcomm, Apple.

Задачи ИИ в основном сводятся к обсчету слоев нейронной сети — скалярной, векторной и тензорной математике — с последующей нелинейной функцией активации. NPU разработан так, чтобы оптимизировать рабочие нагрузки при решении этих задач, а значит, потреблять меньше энергии. Этому способствуют его технические особенности: кэш-память на кристалле, память с высокой пропускной способностью и т.п.

👉 Применение NPU
Современные NPU способны выполнять триллионы операций в секунду, и активно конкурируют с графическими процессорами там, где важна компактность, автономность и экономичность.

Уже существует довольно много решений, где модулем NPU усилен основной процессор на базе ARM и RISC-V: смартфоны, планшеты, SBC. Применяются нейропроцессоры и отдельно в устройствах Edge AI: носимых устройствах, «мозгах» роботов, инфраструктуре «умных» городов и пр.

Еще более перспективны NPU в гетерогенных вычислениях, где их функционал сочетается с центральным и графическим процессорами. Несколько примеров:
🔸 Обработка изображений и видео в системах видеонаблюдения или медиаиндустрии. CPU управляет общей логикой приложения, потоками данных и интерфейсами; GPU в реальном времени выполняет преобразование изображений, фильтрацию, кодирование/декодирование видеопотока; NPU отвечает за работу ИИ, например, при распознавании, добавлении или удалении объектов на видео.
🔸 Финансовые технологии (FinTech). CPU управляет бизнес-логикой и взаимодействием с пользователем; GPU занимается анализом данных, отслеживанием трендов; NPU — финансовым прогнозированием, оценкой кредитных рисков, выявлением мошенничества, анализом корреляционных моделей.
🔸 Медицина и биоинформатика (анализ генетических данных, диагностика, прогнозирование заболеваний). CPU управляет процессами обработки информации, взаимодействием с базами данных; GPU анализирует изображения с МРТ и других медицинских устройств; NPU используется для машинного обучения и классификации данных, например, для ранней диагностики заболеваний «по картинке».
🔸 Гетерогенные связки с участием NPU востребованы и в таких областях, как виртуальная реальность, беспилотный транспорт, игровая индустрия.

#NPU #ML #IoT #EdgeAI
👍31🔥1
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 3/3

Завершаем цикл постов (начало, продолжение). Сегодняшняя тема — интеграция AI-ускорителей с большими языковыми моделями на периферийных устройствах.

3️⃣ NPU, TPU и LLM: перспективы внедрения в Edge AI

Не все AI-ускорители могут работать с большими языковыми моделями. Чтобы чип мог «тянуть» LLM, он должен поддерживать нужные математические операции, такие как матричное умножение.

Традиционно с этим лучше всех справляются тензорные процессоры (TPU) — ради этого их и разработали. Но появились и интересные связки NPU+ARM, и даже решения на базе других платформ. Идет активный поиск баланса между мощностью и энергоэффективностью — ключевым параметром для Edge AI.

Рассмотрим несколько перспективных решений.

🔸 Ascend 910CNPU от Huawei, который получил прозвище «убийца Nvidia A100». Чип рассчитан на обучение и инференс LLM, и может выдавать от 256 до 512 терафлопс на FP16 и INT8 соответственно. Правда, и потребляет немало — 350 Вт. Этим чипом, например, оборудованы одноплатные компьютеры Orange Pi AIPro 16Gb.
🔸 MLSoC — мультимодальный GenAI-чип от SiMa.ai, объединяющий процессоры ARM, NPU и DSP. Поддерживает фреймворки TensorFlow, PyTorch, ONNX и может запускать любую LLM на скорости 50-200 TOPS. В тестах типа MLPerf он оказался значительно быстрее, чем Nvidia Jetson Orin, при этом в разы энергоэффективнее.
🔸 SOPHON BM1684X — тензорный процессор, выпущенный китайской компанией SOPHGO. Поддерживает PyTorch, TensorFlow и другие основные фреймворки.
🔸 Hailo-10 — TPU для Edge AI от одноименного израильского производителя. Может запускать Llama2-7B со скоростью до 10 токенов в секунду, потребляя менее 5 Вт. Согласно тестам, обеспечивает вдвое более высокую производительность при вдвое меньшей мощности, чем Intel Core Ultra NPU.
🔸 Coral Edge TPU — семейство решений от Google. Плата M.2 с двумя TPU-процессорами для машинного обучения выполняет 4 TOPS при потреблении 2 Вт, т.е. 2 TOPS на ватт. Не так уж много, но для машинного зрения, например, вполне хватает. Один «Коралл» может обслуживать модели типа MobileNet v2 со скоростью почти 400 кадров в секунду.
🔸 Metis AI — ИИ-процессор на базе RISC-V от компании Axelera. Обеспечивает 214 TOPS при INT8 с эффективностью 15 TOPS/Вт —на 37% лучше, чем Nvidia Jetson AGX Orin. Карты PCIe AI Edge доступны в версиях с одним и несколькими чипами с общей производительностью до 856 TOPS.

👉 Комментарий по трендам, прогноз рынка

1️⃣ Как видим, разница между NPU и TPU применительно к большим языковым моделям не принципиальна. То и другое — больше про брендинг, чем про технологию. IT-гиганты разрабатывают чипы под собственные задачи, но некоторые спешат «застолбить» коммерчески-звучные названия типа тензоров.

2️⃣ Развитие всех типов AI-ускорителей движется в сторону улучшения совместимости с LLM. Тот же израильский Hailo планирует оснастить следующую версию своего процессора встроенной поддержкой LLM. Ведутся такие разработки и в России.

3️⃣ Прогнозируем установление нового стандарта: автономные устройства (дроны, роботы и т.д.), оборудованные AI-ускорителями, будут получать предустановленную LLM.

Что это даст? Способность к самообучению, снижение издержек, больше функционала и безопасности:
• беспилотные комбайны будут корректировать маршруты в зависимости от состояния посевов;
• складские роботы — оптимизировать пути объезда препятствий;
• спасательные дроны — анализировать видео в реальном времени при поиске объектов;
• промроботы — мгновенно реагировать на голосовые команды;
• медицинские сенсоры — диагностировать пациента без передачи конфиденциальных данных в «облако», и т.д.

По прогнозам, к 2030 году 75% уличных камер будут оснащены TinyLLM. А общий объем рынка Edge AI с LLM к 2028 году достигнет $142 млрд (CAGR с 2025 г. = 67%).

#тренды #прогноз #цифры #EdgeAI #LLM #NPU #TPU #IoT

🚀 ©ТехноТренды
👍1