📈 ТехноТренды: Технологии, Тренды, IT
984 subscribers
122 photos
23 videos
7 files
223 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Инференс LLM и рост потребления GPU

Большие языковые модели (#LLM) и средства генерации с дополненной выборкой (Retrieval-Augmented Generation, #RAG) на наших глазах меняют технологический ландшафт. Требования к вычислительным мощностям растут. В результате прогресс программных средств (нейросетей) тесно смыкается с проблемой насыщения рынка продвинутым «железом».

Особую актуальность приобретают (второй раз после бума биткойнов) графические процессоры — #GPU. Еще недавно видеокарта была необязательным приложением к компьютеру, всех больше интересовали возможности центрального процессора (CPU). Теперь именно видеочипы — основной драйвер развития технологий.

На картинке — график роста размеров больших языковых моделей за последние шесть лет. Как откликаются на это производители чипов?

Подробности читайте в нашем обзоре
Почему G, а не C?
Многие уже давно в курсе, но здесь важно лишний раз подчеркнуть. GPU это не только «про картинку». Сильная сторона GPU — способность к параллельной обработке нескольких массивов данных в реальном времени. Их память имеет в сотни раз более высокую пропускную способность, чем у CPU. Это делает видеокарты несравнимо более эффективными при обсчете сложных задач.

Именно использование графических чипов революционизирует развитие генеративных нейросетей. При обучении и эксплуатации искусственного интеллекта GPU обеспечивают лучший инференс, т.е. скорость обработки запросов и формулирования ответов на естественных языках.

👉 Интересная статья по теме

Новый рынок вычислений и роль GPU
Развитие LLM и RAG привело к росту спроса на видеочипы. Для растущей индустрии их требуются буквально миллионы. Например, кластер для обучения искусственного интеллекта GROK 3, построенный Илоном Маском, включает в себя 100 тыс. чипов H100 от Nvidia. Это, конечно, случай исключительный, но, к примеру, средний GPU-сервер имеет 8 слотов под видеочипы, и они сейчас продаются в массовых количествах.

ИИ-революция заставляет многие компании кардинально пересматривать архитектуру своих систем хранения и обработки данных, и инвестировать в их модернизацию.

Ожидается, что мировой рынок ИИ будет расти в среднем на 37% в год, и к 2030 году достигнет объема в $1 847,5 млрд. Параллельно лидеры рынка видеокарт по экспоненте наращивают как производство, так и мощность чипов. Так, производительность чипа H100 в 16 раз выше, чем у A100, выпущенного двумя годами ранее. В 2023 году Nvidia выпустила 500 тыс. H100, а за 2024 год более чем утроила их производство плюс запустила новую модель — H200.

👉 Интересная статья по теме (🇬🇧 англ).

Облачные сервисы: GPU в аренду (Cloud GPU)
Один чип H100 стоит $30000 — не каждому по карману. Но чтобы разработать и использовать продвинутый ИИ с RAG, не обязательно строить собственный дата-центр. Кластер GPU можно арендовать. Тот же Маск сначала арендовал чипы Nvidia для обучения LLM GROK 2 у Oracle.

Серверы с GPU для «тяжелых» технических задач пользуются всё большим спросом на рынке облачных услуг. Например, в России доля аренды таких серверов для обучения LLM в 2023 году составила 5,4% рынка, а общая выручка операторов сервисов — почти 6,6 млрд руб. (рост в 44% по сравнению с 2022 г.). По прогнозам, к 2030 году доля аренды на рынке GPU-серверов удвоится, а выручка их владельцев достигнет 50,3 млрд руб.

👉 Интересная статья по теме
👉 Еще одна

Open Source LLM
Параллельно растет и предложение Open Source LLM, их порой выпускается по несколько в неделю. Из «горячих» недавних примеров — пресловутый DeepSeek R1 или грядущие европейские аналоги.

Открытые версии больших языковых моделей дают возможность их масштабирования и модификации. Например, PyTorch выпустил библиотеку torchchat, предназначенную для локального инференса LLM. Инструменты типа LangChain и HuggingFace позволяют бесплатно реализовать RAG, предоставив LLM доступ к локальной базе данных пользователя.

Такие системы тоже требуют довольно продвинутых локальных машин, оснащенных новейшими GPU. Хотя некоторые модели работают и на CPU, инференс получается существенно ниже. Так что спрос на GPU в ближайшее время будет расти среди как корпоративных, так и частных пользователей.

#LLM #RAG #GPU

🚀 Подписывайтесь на ТехноТренды — самый экспертный канал об AI, IT и роботизации!
🇷🇺 В Сколково прошла презентация тренд-репорта «Рынок GenAI в 2025: что нужно знать бизнесу» (🎦Youtube, Rutube). Эксперты проанализировали и обобщили
● состояние рынка GenAI в мире и в России,
● технологические и пользовательские тренды генеративного ИИ в 2025 году,
● ситуацию на рынке труда на фоне широкого внедрения GenAI-моделей.

Скачать документ в формате PDF можно по ссылке. Некоторые ключевые тезисы:

🔸 Ожидаемый среднегодовой темп роста рынка GenAI на 2024–2030 гг. оценивается в 46,48%. К 2030 году его объем увеличится в 10 раз, достигнув $356,1 млрд. Ключевую роль в развитии рынка будут играть США, Европа и Азия, но и наша страна имеет достаточный потенциал для появления собственных «единорогов» (стартапов-миллиардеров).

🔸 Объем рынка GenAI в России прогнозируется на уровне $4,15 млрд, со среднегодовым ростом 25%. К 2030 году правительство планирует выделить $0,3 млрд на развитие AI. Вложения из внебюджетных источников, таких как Сбер и РФПИ, могут составить $1,16 млрд. Технология набирает популярность как в бизнесе, так и среди частных пользователей.

🔸Развитие AI-систем движется в сторону агентного подхода: автономные AI-агенты, мультиагентные системы (MAS) и агенты пользовательского интерфейса. Подобная модульность создает предпосылки для формирования композитных AI — мета-структур, которые преодолевают ограничения традиционных LLM за счет интеграции различных технологий в единый комплекс.

🔸Технология RAG (Retrieval-Augmented Generation) становится базово применимой концепцией для LLM
и продолжает эволюционировать
, расширяя разнообразие архитектур. Так же активно идет развитие Vision-Language Models (VLM) — продвинутых AI-моделей, работающих одновременно с текстом и изображениями.

🔸Еще один тренд — на развитие SLM (Small Language Models), компактных нейросетей, оптимизированных для узкоспециальных задач. По прогнозу Gartner, к 2027 году более 50% моделей GenAI, используемых в бизнесе, будут адаптированы под конкретные отрасли или бизнес-функции.

🔸Также нас ожидает массовое внедрение AI-агентов и копилотов в физические устройства (дальнейшее развитие «интернета вещей») и переход LM-систем от вопросно-ответных датасетов к рассуждающим моделям.

🔸Что касается перемен на рынке труда, то прогноз позитивный.
Несмотря на автоматизацию, безработица не должна вырасти, так как появляются новые профессии. Однако большинство специальностей потребуется адаптировать, а сотрудников — обучать работе в среде с AI-агентами.

☝️ AI-агент не заменяет человека, но дополняет его. Конкуренция возникает не между людьми и машинами, а между теми, кто эффективно использует AI, и теми, кто этого не делает. Часть задач передается ботам, что меняет структуру труда и перераспределяет работу. Появляются новые требования к сотрудникам, AI-навыки становятся ценным преимуществом.

«AI — не очередной хайп. Это следующий технологический цикл, который приведет к масштабным изменениям и долгосрочному обновлению бизнес-процессов».

#аналитика #AI #LLM #SLM #ИИ #RAG

🚀 Подписывайтесь на ТехноТренды — самый экспертный канал об AI, IT и роботизации!
Кое-что о сетях для нейросетей.

Чтобы внедрить LLM у себя на предприятии, недостаточно закупить GPU и воткнуть его в сервер. И обычных серверов, объединенных в сеть на основе Ethernet, недостаточно. Если вы хотите развернуть LLM локально, не прибегая к облачным услугам, необходимо построить кластер высокопроизводительных вычислений (High Performance Computing, HPC). А главное в этом кластере — наличие специализированных каналов обмена данными между процессорами.

Ключевые параметры сетевой инфраструктуры HPC:
🔸 скорость обмена — на сегодня считается нормальной от 100 гигабит в секунду и выше;
🔸 задержка (она же латентность) при передаче — чем ниже, тем лучше, желательно меньше 1 микросекунды.

Если со скоростью всё понятно, то по латентности нужны пояснения. Низкая латентность важна при передаче служебных сообщений, необходимых, чтобы узлы сети знали о состоянии друг друга. Такие сообщения, как правило, очень малы (несколько десятков байт), но их очень много в нейросети. Они используются для синхронизации вычислений, предотвращения логических гонок (race condition) и тупиков (deadlock), тормозящих работу LLM.

Для коммутации в сети HPC лучше использовать не Ethermet (где скорость обмена большими пакетами высокая, но и задержки большие), а решения типа Infiniband. Это довольно старая технология (развивается с 1990-х годов), но с началом бума ИИ она снова стала сверхвостребованной, потому что обеспечивает минимальные показатели латентности.

⚡️ Современные коммутаторы Infiniband стандарта XDR (eXtended Data Rate) дают ультравысокие скорости передачи данных (800 Гбит/с на одно соединение), а задержки при этом составляют менее 10 наносекунд (не микро, а нано, Карл!).

Также XDR отличается высокой плотностью передачи данных благодаря использованию PAM4-кодирования, меньшим энергопотреблением и масштабируемой архитектурой — можно использовать несколько каналов XDR одновременно.

Всё это особенно актуально для приложений искусственного интеллекта и машинного обучения. Не удивительно, что такие гранды, как Nvidia, AMD, IBM и другие, уже активно продвигают HPC-решения на основе Infiniband XDR.

👉 Впрочем, стандарты XDR и более ранний NDR — это хай-энд для суперкомпьютеров. Вполне возможно, что для кластера HPC на вашем предприятии будет достаточно адаптеров попроще:
▫️стандарт HDR — скорость 200 Гбит/с на порт, низкая задержка. Хорош для высокоскоростного компьютинга, систем AI/ML/DL, финансовой аналитики и любых приложений, требующих высокой скорости и пропускной способности сети;
▫️стандарт EDR — самый старый из поддерживаемых на сегодня. Дает скорость до 100 Гбит/с при задержке 0,7 микросекунды. Поддерживает технологии RDMA, GPUDirect, SR-IOV и др.

☝️ В общем, планируя развертывание LLM в вашей компании, думайте не только о количестве GPU, но и о качестве связи между ними.

#HPC #infiniband #LLM

🚀 ©ТехноТренды
Edge AI, или периферийный ИИ — принцип развертывания искусственного интеллекта на локальных микроустройствах или компактных компьютерах с низким энергопотреблением. Сегодня это один из главных векторов развития AI-индустрии, наряду с Cloud AI (облачными сервисами).

Рынок Edge AI бурно растет. В 2024 году он оценивался в $12,5 млрд и, по прогнозам, к 2034 году достигнет $109,4 млрд (среднегодовой темп роста — 24,8%, неплохо, хоть и медленнее «облаков»).

В чем преимущества локального AI над «облаком»?
👍 Скорость работы: на локалке модуль AI связан напрямую с источником данных, что позволяет ему принимать решения намного быстрее облачных систем, за счет минимальных задержек сигнала.
👍 Низкое энергопотребление, особенно с применением специальных оптимизирующих сопроцессоров типа NPU.
👍 Сокращение трафика: Edge AI обрабатывает данные без передачи в облако, за счет чего экономится много пропускной способности.
👍 Повышенная безопасность и конфиденциальность: по той же причине система с Edge AI гораздо менее уязвима для кибератак и утечек информации.
👍 Способность работать вообще без интернета, что может быть важно в удаленных районах, на море или в сельской местности.
👍 Экономия средств: производственное предприятие среднего размера, использующее периферийный ИИ для мониторинга оборудования, может ежегодно экономить до 1,2 миллиона долларов на облачном хранилище и пропускной способности.

Всё это делает Edge AI привлекательным решением для многих сфер применения ИИ:
👉 в промышленности и сельском хозяйстве (автономные станки, комбайны, мобильные AI-ассистенты)
👉 в логистике и на транспорте (умные дроны-перевозчики, складские роботы, беспилотные автомобили)
👉 в медицине (носимые и стационарные устройства с AI для диагностики и контроля)
👉 в городской инфраструктуре (системы контроля трафика и управления городскими службами)
👉 в «интернете вещей» (IoT) — голосовые помощники и интеллектуальные устройства, в т.ч. умные дома
👉 в космической, добывающей, энергетической и других отраслях.

Для развертывания LLM на малом или среднем предприятии локальная платформа тоже может быть выгоднее и безопаснее, чем облачный сервис или собственный кластер GPU. Особенно это актуально в розничной торговле, консалтинге, юриспруденции, гостиничном бизнесе.

Минусы Edge AI
🔻 Низкая производительность периферийных устройств по сравнению с облачными системами.
🔻 Возможность ошибок и сбоев из-за ограниченных ресурсов и проблем с подключением к сети.
🔻 Ограниченная масштабируемость и сложность управления большим количеством устройств.

Ограниченность ресурсов преодолевается путем комбинации разных чипов, оптимизации инференса и разработки более экономных алгоритмов ML, что позволяет размещать вполне функциональные GenAI-модели на слабых устройствах вроде смартфонов или часов.

Там, где это имеет значение (например, при управлении «роем» мобильных роботов), создаются гибридные системы, сочетающие индивидуальные ИИ c единым центром принятия решений, или же формируются распределенные экосистемы. Например, на днях Intel презентовала Edge AI Suites и Open Edge Platform — набор инструментов и модульную платформу для массового внедрения GenAI на локальных устройствах.

Развитие трендов
Если мы посмотрим в будущее после 2025 года, то увидим несколько новых тенденций, связанных с Edge AI:
🔸 Микро-LLM: фреймворки типа TinyML сделают ИИ доступным на крошечных устройствах.
🔸 Edge-AI маркетплейсы: на торговых площадках будут предлагать заранее обученные модели и готовые к использованию периферийные AI-приложения.
🔸 Развитие мобильных сетей. Технологии 5G-Advanced и 6G обеспечат терабитные скорости передачи данных, открывая новые перспективы для смартфонов с ИИ, очков с дополненной реальностью и роевой робототехники. Кстати, на прошедшей недавно MWC'25 в Барселоне Edge AI был одной из главных тем.
🔸 Квантовый компьютинг. А вот когда настанет цифровой коммунизм и квантовые компьютеры займут нишу современных ПК, для периферийного ИИ придут совсем уж золотые времена 😉 Но это уже совсем другая история...

#EdgeAI #внедрениеAI #LLM

🚀 ©ТехноТренды
👍1
Обзор локальных архитектур для больших языковых моделей. Часть 1/4

Один из главных современных AI-трендов — конвергенция развития больших языковых моделей и вычислительных мощностей. Модели оптимизируются, а устройства совершенствуются. Появляется всё больше возможностей для запуска LLM с миллиардами параметров на периферийных устройствах (Edge AI), без необходимости подключаться к облаку высокопроизводительных GPU-серверов.

О том, как эволюционируют LLM, мы уже писали не раз (тыц, тыц, тыц, тыц). Давайте посмотрим, какие решения предлагают разработчики оборудования.

1️⃣ SBC (Single Board Computers), или одноплатные компьютеры

Одноплатники отличаются тем, что их конфигурация заточена под минимальное энергопотребление, обеспечивая при этом приличное быстродействие. Часто в них встроены NPU (Neural Processing Unit) — специализированные сопроцессоры для решений вида Edge AI. Появление SSD-накопителей, новых скоростных микроконтроллеров и AI-ускорителей сделало эту платформу очень перспективной для домашней или офисной работы с LLM.

Несколько интересных SBC на начало 2025 года:

🔸 Orange Pi 5 Plus — универсальный, очень мощный мини-ПК с новейшим чипом RK3588. Хоть и не обладает специализированным AI‑ускорителем, но имеет встроенный графический процессор и NPU с умеренными показателями.
⚡️ Показатели: вычислительная мощность ~8 TOPS (триллионов операций в секунду, или терафлопс), инференс ~25 токенов в секунду, энергопотребление ~7-10Вт.

🔸 Raspberry Pi 5 Plus — популярный инструмент с тем же чипом RK3588 для самостоятельной разработки и обучения LLM. Благодаря интеграции AI-ускорителя Hailo-8L или Hailo-8 может запускать модели среднего размера.
⚡️ Показатели: ~26 TOPS, ~35 токенов/сек, ~8-12Вт.

🔸 NVIDIA Jetson Orin Nano Super (на базе NVIDIA Jetson Orin Nano) — решение, оптимизированное для работы с нейронными сетями на базе архитектуры Ampere, обеспечивает высокий инференс, но отличается повышенным энергопотреблением.
⚡️ Показатели: ~40 TOPS, ~45 токенов/сек, ~25Вт.

Скорость выше 10 токенов в секунду превосходит скорость чтения большинства людей, т.е. работа приложений воспринимается практически без задержек. Как видим, одноплатные компьютеры на оптимизированных LLM сегодня могут обеспечить достаточно комфортный инференс для повседневных задач.

Подробнее об актуальных AI-конфигурациях SBC

#EdgeAI #внедрениеAI #LLM #SBC

🚀 ©ТехноТренды
Обзор локальных архитектур для больших языковых моделей. Часть 2/4

2️⃣ ARM

ARM (Advanced RISC Machine) — это семейство архитектур процессоров, основанных на принципах RISC (Reduced Instruction Set Computing). Процессоры ARM широко используются в различных сценариях обучения (ML) и эксплуатации больших языковых моделей. Их преимущество — высокая энергоэффективность. Чипы потребляют на 30–50% меньше энергии по сравнению с CPU x86, что делает их идеальными для мобильных устройств, где важны срок работы без подзарядки и низкое тепловыделение.

Имея сервер ARM с четырьмя ядрами и 8 ГБ оперативной памяти, можно запускать различные сценарии использования GenAI, например, проводить обучение чат-бота модели Llama-3.1-8B. Команда llama.cpp представила новый двоичный формат под названием GGUF, использующий методы сжатия и квантования, которые снижают потребность в вычислительных ресурсах и объеме ОЗУ. При этом инференс остается на очень приличном уровне — более 300 TPS (токенов в секунду).

Связка ARM и NPU дает еще больше мощности с сохранением энергоэффективности.

Недавний хайп вокруг DeepSeek и последовавшая за этим дискуссия о том, насколько необходима для ИИ облачная инфраструктура, привлекли новое внимание к Edge AI. Свежие заявления руководителей Qualcomm и Arm показывают явный оптимизм: LLM быстро совершенствуются, становятся разнообразнее — а значит, возникает всё больше возможностей для их развертывания на ПК, смартфонах и устройствах IoT («интернета вещей»).

Естественно, лидеры рынка наперегонки «осваивают поляну». Конкуренция просто бешеная.

🔸 Oracle и Ampere объявили о сотрудничестве в оптимизации llama.cpp для работы с CPU Ampere Arm 64, используя методологию GGUF. На процессоре Arm A1 с 40 OCPU скорость инференса приближается к 40 TPS.

🔸 Компания Arm форсирует проникновение на рынок с целой серией решений на базе передовой платформы Armv9, специально заточенной под обслуживание LLM на IoT-устройствах. Платформа обеспечивает в 8 раз более высокую производительность машинного обучения (ML) по сравнению с прошлогодним Cortex-M85.

🔸 Китайцы из Radxa продвигают новинку Radxa Orion O6 mini-ITX — по сути одноплатник с 12-ядерным процессором Cix P1 Armv9 SoC, GPU Arm Immortalis-G720 и AI-ускорителем на 30 TOPS. Конфигурация догоняет по производительности Apple M1.

🔸 Apple, в свою очередь, продолжает идти в отрыв, выкатив очередную имбу — чип M3 Ultra: CPU с AI-ускорителем, самый мощный в истории Apple встроенный графический процессор, 32-ядерный NPU + программные оболочки Apple Intelligence и Mac Studio. В результате пользователи получают возможность запускать LLM с более чем 600 млрд параметров непосредственно на своем домашнем «Маке».

🔸 Quallcomm вступает в соревнование с Apple, расширяя линейку ARM-процессоров для бюджетных ПК и ноутбуков. Новая версия Snapdragon X с интегрированным нейромодулем (NPU) может обрабатывать до 45 TOPS, что делает ноутбуки совместимыми с AI-приложениями, например с Microsoft Copilot+.

🔸 AMD, желая наверстать свое отставание и потеснить Qualcomm, разрабатывает собственный ARM-процессор Sound Wave с мощным NPU.

🔸 Nvidia тоже объявила о выпуске первого чипа на архитектуре ARM. Релиз планируется на сентябрь 2025 года.

🔸 В конкуренцию с грандами врываются и стартапы. Прошлым летом на краудфандинговой платформе Crowdsupply мгновенно собрали средства на разработку модульного AI-friendly лэптопа GenBook RK3588 с интегрированным NPU мощностью 6 TOPS. В апреле новинка уже выйдет в продажу.

🔸 А где здесь Intel? А она, как тот господин подпоручик, единственная идет «в ногу» и упорно допиливает архитектуру x86, добиваясь сопоставимой с ARM энергоэффективности. Но упорство явно не в плюс: технология морально устарела, и компания теряет контракты. Производители ПК массово переходят на ARM.

Как говорится, зацените движ. Драйвер роста здесь очевиден: устройства на ARM-процессорах становятся всё более востребованными именно как платформа EdgeAI. А значит, конвергенция технологий в этом сегменте продолжится.

#EdgeAI #внедрениеAI #LLM #ARM #IoT

🚀 ©ТехноТренды
Обзор локальных архитектур для больших языковых моделей. Часть 3/4

3️⃣ RISC-V

Архитектура RISC-V — открытый набор инструкций (ISA), позволяющий разрабатывать кастомные процессоры без лицензионных отчислений. В отличие от закрытых решений типа ARM (хотя и там появляется опенсорс), RISC-V дает полную свободу модификации и оптимизации под конкретные задачи, что критично для Edge AI-решений.

Главные преимущества RISC-V перед ARM:
👉 Открытость — разработчики могут адаптировать ISA под любые нужды, не заботясь о лицензировании.
👉 Модульность и кастомизация — можно брать определенный набор инструкций и расширений под конкретное решение, ничего лишнего.
👉 Энергоэффективность — микропроцессор RISC-V на 5 ГГц «ест» всего 1 Вт при напряжении 1,1В, т.е. менее 1% рабочего энергопотребления чипа Intel Xeon.
👉 Экономичность — отсутствие лицензионных платежей снижает себестоимость чипов.

Есть и недостатки:
Недостаточная зрелость технологии. RISC-V — относительно новая архитектура по сравнению с той же ARM. Отсюда несбалансированность, дефекты команд, небольшой выбор инструментов, библиотек и документации для разработчиков, ограниченная поддержка операционных систем, приложений и драйверов.
Относительно низкая производительность для AI-решений. Процессоры RISC-V показывают пока невысокий инференс даже на оптимизированных LLM типа TinyLlama 1.1B — 1-5 TOPS на выходе.

И все-таки архитектура стремительно наращивает популярность. Зрелость — дело наживное, целые лаборатории работают над оптимизацией алгоритмов и созданием софтверной экосистемы. Благодаря опенсорсу сложилось огромное комьюнити независимых разработчиков. Да и лидеры не отстают: консорциум RISC-V International, контролирующий технологию, включает уже почти 400 научных и коммерческих организаций, включая китайский Институт вычислительных технологий, Google, Qualcomm, Western Digital, Hitachi, Samsung, Huawei, ZTE, Tencent и Alibaba Cloud.

Почему? Смотрите выше. Если ARM хороша для многофункциональных мобильных устройств, то RISC-V — идеальный вариант для специализированных нишевых решений. А ниш очень много.

Где особо востребована архитектура RISC-V?
👉 Везде, где нужны не огромные LLM, а оптимизированные и заранее обученные малые модели:
• интернет вещей,
• промышленная робототехника,
• беспилотный транспорт,
• машинное зрение,
• интеллектуальные системы безопасности
• с/х автоматика (умные теплицы и пр.)
Здесь RISC-V обеспечивает нужное быстродействие, автономность, дешевизну и защищенность.
👉 Популярной сферой применения RISC-V являются периферийные шлюзы ИИ, например системы управления датчиками «умного дома» и другой потребительской робототехники, рынок которой постоянно расширяется.
👉 Отдельная тема — применение RISC-V в военной и аэрокосмической отрасли, над чем давно работают в Китае, США и Европе.
👉 Более того: на CPU RISC-V строят вычислительные кластеры для облачных дата-центров. Даже ноутбуки выпускают со специальными фреймворками и нейромодулями (NPU), позволяющими подключать локальные API LLM и разгонять инференс до 40 терафлопс. Но это скорее экзотика, с ARM здесь не поконкурируешь.

📈 Динамика рынка чипов RISC-V
По некоторым оценкам, начиная с 2024 года объемы поставок процессоров RISC-V будут в среднем расти на 50% ежегодно. К 2030-му годовой объем поставок чипов RISC-V для Edge AI (исключая TinyML) достигнет 129 миллионов, заняв 25% рынка процессоров. Из этого количества 70% составят поставки для личных и рабочих устройств и шлюзов Edge AI.

Некоторые энтузиасты спешат объявить RISC-V «ARM-киллером» и «геймчейнджером на рынке EdgeAI». На самом деле это просто еще одна технология, для которой пришло время и сформировался спрос. Развитие ИИ подстегнуло интерес к архитектуре, а развитие архитектуры становится драйвером для дальнейшего развития периферийных AI-устройств.

#EdgeAI #внедрениеAI #LLM #RISCV #SLM

🚀 ©ТехноТренды
11🔥1
Обзор локальных архитектур для больших языковых моделей. Часть 4/4

4️⃣ Сравнения и выводы

👉 Развитие ИИ остается ключевым драйвером роста для всех трех архитектур.
⚡️ ARM активно захватывает рынок процессоров, неумолимо вытесняя x86. Архитектура сейчас господствует в high-end сегменте (Apple M4, Snapdragon Elite от Qualcomm и т.п.).
⚡️ RISC-V догоняет лидера, усиливая свои позиции, причем не только в интернете вещей, но и в других отраслях, таких как транспорт и связь. Росту способствуют открытость архитектуры и низкая стоимость (прогноз: 20% рынка к 2027).
⚡️ Микро-ПК набирают популярность как настольная платформа для GenAI, обеспечивая приличный инференс на устройствах с низким энергопотреблением. Наличие модулей NPU/TPU становится стандартом даже в бюджетных SBC.

👉 Энергоэффективность CPU в Edge AI является сегодня определяющим трендом.
Здесь вне конкуренции RISC-V. Новый процессор Micro Magic на базе RISC-V выдает 55,000 баллов CoreMark на ватт при потреблении около 0.2 Вт.
Сравните с другими архитектурами:
• Apple M1 (ARM) — 100 баллов на ватт при энергопотреблении около 15 Вт;
• Intel Core i9-11980HK (x86) — те же 100 баллов, но при потреблении около 35 Вт.

В недавней работе, представленной на arXiv, исследуется ускорение вывода больших языковых моделей (LLM) на серверных платформах с архитектурой RISC-V. На стандартной модели Llama 7B инференс удалось разогнать до 6,63 и 13,07 токенов/с при генерации и предварительном заполнении, что в 4,3—5,5 раза быстрее по сравнению с базовым уровнем и вполне конкурентно с CPU на базе x86. При этом энергоэффективность возросла в 1,2 раза (55 токенов/с/мВт против 45 токенов/с/мВт).

Это исследование демонстрирует потенциал RISC-V в задачах, связанных с искусственным интеллектом, особенно в контексте энергоэффективных решений Edge AI.

👉 В целом, высокий спрос на GenAI и роботизацию кардинально меняет индустрию CPU для периферийных устройств. Уходят старые технологии, а новые диверсифицируются и совершенствуются, расширяя спектр доступных решений. При этом практический выбор архитектуры зависит от баланса между мощностью, энергопотреблением и поддержкой AI-ускорителей.

#EdgeAI #внедрениеAI #LLM #SBC #ARN #RISCV #инференс

🚀 ©ТехноТренды
1👍1👏1
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 3/3

Завершаем цикл постов (начало, продолжение). Сегодняшняя тема — интеграция AI-ускорителей с большими языковыми моделями на периферийных устройствах.

3️⃣ NPU, TPU и LLM: перспективы внедрения в Edge AI

Не все AI-ускорители могут работать с большими языковыми моделями. Чтобы чип мог «тянуть» LLM, он должен поддерживать нужные математические операции, такие как матричное умножение.

Традиционно с этим лучше всех справляются тензорные процессоры (TPU) — ради этого их и разработали. Но появились и интересные связки NPU+ARM, и даже решения на базе других платформ. Идет активный поиск баланса между мощностью и энергоэффективностью — ключевым параметром для Edge AI.

Рассмотрим несколько перспективных решений.

🔸 Ascend 910C — NPU от Huawei, который получил прозвище «убийца Nvidia A100». Чип рассчитан на обучение и инференс LLM, и может выдавать от 256 до 512 терафлопс на FP16 и INT8 соответственно. Правда, и потребляет немало — 350 Вт. Этим чипом, например, оборудованы одноплатные компьютеры Orange Pi AIPro 16Gb.
🔸 MLSoC — мультимодальный GenAI-чип от SiMa.ai, объединяющий процессоры ARM, NPU и DSP. Поддерживает фреймворки TensorFlow, PyTorch, ONNX и может запускать любую LLM на скорости 50-200 TOPS. В тестах типа MLPerf он оказался значительно быстрее, чем Nvidia Jetson Orin, при этом в разы энергоэффективнее.
🔸 SOPHON BM1684X — тензорный процессор, выпущенный китайской компанией SOPHGO. Поддерживает PyTorch, TensorFlow и другие основные фреймворки.
🔸 Hailo-10 — TPU для Edge AI от одноименного израильского производителя. Может запускать Llama2-7B со скоростью до 10 токенов в секунду, потребляя менее 5 Вт. Согласно тестам, обеспечивает вдвое более высокую производительность при вдвое меньшей мощности, чем Intel Core Ultra NPU.
🔸 Coral Edge TPU — семейство решений от Google. Плата M.2 с двумя TPU-процессорами для машинного обучения выполняет 4 TOPS при потреблении 2 Вт, т.е. 2 TOPS на ватт. Не так уж много, но для машинного зрения, например, вполне хватает. Один «Коралл» может обслуживать модели типа MobileNet v2 со скоростью почти 400 кадров в секунду.
🔸 Metis AI — ИИ-процессор на базе RISC-V от компании Axelera. Обеспечивает 214 TOPS при INT8 с эффективностью 15 TOPS/Вт —на 37% лучше, чем Nvidia Jetson AGX Orin. Карты PCIe AI Edge доступны в версиях с одним и несколькими чипами с общей производительностью до 856 TOPS.

👉 Комментарий по трендам, прогноз рынка

1️⃣ Как видим, разница между NPU и TPU применительно к большим языковым моделям не принципиальна. То и другое — больше про брендинг, чем про технологию. IT-гиганты разрабатывают чипы под собственные задачи, но некоторые спешат «застолбить» коммерчески-звучные названия типа тензоров.

2️⃣ Развитие всех типов AI-ускорителей движется в сторону улучшения совместимости с LLM. Тот же израильский Hailo планирует оснастить следующую версию своего процессора встроенной поддержкой LLM. Ведутся такие разработки и в России.

3️⃣ Прогнозируем установление нового стандарта: автономные устройства (дроны, роботы и т.д.), оборудованные AI-ускорителями, будут получать предустановленную LLM.

Что это даст? Способность к самообучению, снижение издержек, больше функционала и безопасности:
• беспилотные комбайны будут корректировать маршруты в зависимости от состояния посевов;
• складские роботы — оптимизировать пути объезда препятствий;
• спасательные дроны — анализировать видео в реальном времени при поиске объектов;
• промроботы — мгновенно реагировать на голосовые команды;
• медицинские сенсоры — диагностировать пациента без передачи конфиденциальных данных в «облако», и т.д.

По прогнозам, к 2030 году 75% уличных камер будут оснащены TinyLLM. А общий объем рынка Edge AI с LLM к 2028 году достигнет $142 млрд (CAGR с 2025 г. = 67%).

#тренды #прогноз #цифры #EdgeAI #LLM #NPU #TPU #IoT

🚀 ©ТехноТренды
👍1
С добрым утром! Вам к завтраку — несколько трендовых новостей IT-индустрии. ☕️

⚡️Компания Docker представила программу Docker Model Runner (доступна пока в бета-версии) для загрузки, запуска и тестирования AI-моделей прямо на локальном компьютере, без необходимости настройки сложной инфраструктуры. Модели загружаются из Docker Hub, после чего кешируются и дальше работают уже локально, как обычный контейнер. Поддержка OpenAI-совместимых API значительно упрощает интеграцию Docker Model Runner с существующими приложениями.

👉 Событие знаковое. Контейнеризация моделей через Docker указывает на переход LLM из категории экспериментальных технологий в статус де-факто стандарта разработки. LLM теперь легко встраиваются в существующие ИТ-системы наравне с традиционным ПО, что означает зрелость технологии LLM и ее переход в категорию must-have для современных цифровых решений.

⚡️ Google выкатила Firebase Studio — облачную платформу для разработки ИИ-приложений с помощью ИИ. Теперь можно разработать и задеплоить полностью работающее приложение, не написав ни строчки кода. Платформа интегрирована с ассистентом Gemini и экосистемой Google Cloud и представляет собой полнофункциональный конструктор, который быстро генерирует функциональные прототипы веб-приложений (начиная с Next.js) с помощью подсказок, изображений или даже рисунков. Gemini по запросу сам добавляет любой функционал (напр., аутентификацию пользователей), дорабатывает макет и интерфейс, изменяет алгоритмы ИИ. Доступен мгновенный просмотр результата на любом устройстве. Платформа в версии Preview доступна бесплатно всем желающим обладателям аккаунта Google.

⚡️ В Южной Корее разработан уникальный композитный наноматериал для литий-ионных аккумуляторов. Анод из инновационного композита продемонстрировал рекордную удельную емкость 1687,6 мА·ч/г−1 при плотности тока 100 мА/г−1 и «превосходную циклическую стабильность». По прогнозам, его внедрение позволит увеличить срок службы аккумуляторов до 5-10 лет, сделав их более легкими и компактными.

⚡️ Ученые из израильского Техниона нашли новый вид квантовой запутанности — впервые за последние 20 лет. Эффект, получивший название «запутанность фотонов ближнего поля в общем угловом моменте», позволит в будущем разработать новый тип квантовых компьютеров на основе фотонов — значительно более миниатюрных и мощных.

⚡️ Еще одна новость от Google: на рынок представлен Ironwood — новый TPU для инференса AI мощностью >4,5 петафлопс. На минуточку, это мощность, сопоставимая с суперкомпьютерами из мирового ТОП-50 (скажем, «Ломоносов-2» в МГУ выдает всего ~2.5 PFLOPS). Каждый чип имеет 192 ГБ выделенной оперативной памяти с пропускной способностью ~7,4 Тбит/с. Борьба за лидерство на рынке высокопроизводительных вычислений не сбавляет обороты.

⚡️ Сбербанк выпустил в релиз второе поколение нейросетевых моделей GigaChat. Версии GigaChat 2 Pro (для повседневных задач) и GigaChat 2 Max (для сложных и профессиональных) можно попробовать бесплатно на сайте, в телеграм-боте и в мессенджере Max от VK. Значительно улучшены навыки распознавания аудио и видео — модель способна понимать устную речь, акценты, фоновые шумы и музыку, обрабатывать изображения, голосовые сообщения и аудиофайлы длительностью до 60 минут и размером до 30 МБ без предварительного преобразования в текст, анализировать массивы документов (до 200 страниц формата А4 в одном диалоге). ГигаЧатом теперь «из коробки» оборудованы умные колонки Sber.

#дайджест #тренды #LLM #AI

🚀 ©ТехноТренды
💰 Экономика LLM: из чего складывается стоимость инференса?

Внедрение больших языковых моделей (LLM) в бизнес-процессы требует не только технической экспертизы, но и глубокого понимания экономики эксплуатации и влияния оборудования на скорость отклика.

В этой серии постов мы разберем ключевые факторы, влияющие на стоимость инференса, сравним облачные и локальные решения и посчитаем, какой подход выгоднее и когда.

Часть 1: Общее представление и аппаратные факторы задержки

1️⃣ Основные статьи затрат

Размер и сложность модели
Модели на 3B, 7B, 13B, 70B+ параметров требуют всё больше GPU-памяти и вычислительных ресурсов, а значит — растут затраты.
Объём входных и выходных токенов
Чем больше контекста и детализированный ответ вы запрашиваете, тем выше счёт за токены и нагрузка на инфраструктуру.
Тип данных
Текст — минимальные требования к ресурсам.
Аудио — предварительная транскрипция (Whisper, Wav2Vec) повышает нагрузку на GPU и RAM.
Видео — самый ресурсоёмкий сценарий: специализированные модели (ViT, CLIP) и десятки гигабайт памяти.
Формат эксплуатации
Собственная инфраструктура — полный контроль, но высокие CAPEX и OPEX.
Облачные решения (SaaS) — оплата по факту использования; выгодно при небольшом или переменном объёме запросов.

2️⃣ Как аппаратные характеристики GPU влияют на задержку (latency)

Для приложений с критичными требованиями к скорости (чат-боты, interactive AI) задержка состоит из двух ключевых фаз:
Prefill + TTFT (Time to First Token) — вычислительно-ограниченная фаза, когда GPU строит KV-кеш и генерирует первый токен.
ITL (Inter-Token Latency) — межтокеновая задержка при генерации каждого последующего токена, часто ограничивается пропускной способностью памяти.

🔹 Пропускная способность памяти (Memory Bandwidth)
• Основное «узкое место» при низких батчах: скорость загрузки весов и KV-кеша из глобальной памяти.
• У NVIDIA A100 HBM2e достигает 1.6 TB/s (40 GB) и 2.0 TB/s (80 GB) — это помогает минимизировать межтокеновую задержку.

🔹 CUDA-ядра (FP32/FP16 throughput)
• Отвечают за операции FMA при prefill и TTFT.
• В A100 их 6912, что обеспечивает до 19.5 TFLOPS в FP32 и 156 TFLOPS в TF32, ускоряя расчёт первых токенов.

🔹 Tensor-ядра (mixed-precision ускорение)
• Специализированы на матричных операциях с низкой/смешанной точностью.
• Третье поколение Tensor-ядер A100 выдаёт до 312 TFLOPS в FP16 и обеспечивает 16× ускорение по сравнению с FP32 на обычных CUDA-ядрах, критично для throughput и минимизации задержки на длинных последовательностях.

3️⃣ Рекомендации по оптимизации

KV-caching — кэширование ключей/значений для избежания повторных расчётов.
Квантование (INT8/INT4) — уменьшение объёма памяти и ускорение операций.
Параллелизм и батчинг — рост пропускной способности (throughput), при этом важно балансировать с требованиями к latency одиночного запроса.

🚀 Вывод:

Стоимость инференса LLM складывается из вычислительных ресурсов (GPU/CPU), объёма обрабатываемых токенов и требований к скорости отклика. Грамотный выбор архитектуры, оптимизация ПО и правильный баланс между собственной инфраструктурой и облачными сервисами помогут найти оптимальное сочетание качества, скорости и стоимости.

#инференс #экономикаИИ #LLM

🚀 ©ТехноТренды
Экономика LLM: из чего складывается стоимость инференса?

Часть 2. Оцениваем накладные расходы


В предыдущем посте мы говорили о том, что влияет на цену инференса В ОБЩЕМ. Теперь давайте посмотрим на ожидаемые конкретные суммы вложений в пользование облачным сервисом или в создание собственной инфраструктуры.

1️⃣ Облачный инференс: почем нынче токен

Ведущие облачные провайдеры, такие как OpenAI, Anthropic, Azure и Google, предлагают различные варианты использования своих LLM в качестве сервиса с оплатой за токены. Следует учитывать, что стоимость 1 млн токенов резко возрастает при больших объемах запросов, а на выходе токены в разы дороже, чем на входе.

Многие cloud-провайдеры (например, Selectel, Яндекс, другие компании) предлагают уже настроенные серверы с предустановленными LLM, как проприетарными, так и опенсорсными. Но это аренда инфраструктуры, а не SaaS, и там имеются свои накрутки. Провайдеры могут брать доплату за хранение данных, обработку и другие услуги.

Итоговая стоимость облачных LLM зависит от задач и объемов использования. Облачный инференс удобен для старта, но при масштабировании может повлечь непредвиденные расходы.

2️⃣ Локальный инференс: капитальные затраты vs. долгосрочная экономия

Развертывание LLM на своих серверах требует значительных первоначальных вложений, но может быть выгодно при больших нагрузках (100+ млн токенов/мес.). Основные статьи расходов:

a) Затраты на оборудование (CAPEX)
Приобретение мощных GPU может стоить от $1000 до $10000 и более за устройство. Карты Nvidia (A100, H100, H200) в России стоят от ₽ 1 млн до 5 млн. Альтернатива — игровые карты RTX 4090, 5090 (32 Gb).

б) Энергопотребление и эксплуатация (OPEX)
Электричество в России сейчас стоит от ₽1,77 (Иркутская обл.) до ₽11,36 (Чукотка) за кВт·ч. Для дата-центров возможны спецтарифы от ₽3/кВт·ч. Накинем также расходы на охлаждение (+20–30%, в зависимости от климатического пояса) и на аренду стойки в дата-центре: от ₽10-15 тыс./мес.

Помимо CAPEX и OPEX, нужно вложиться в интеграцию и развертывание LLM на собственной инфраструктуре, в т.ч. в инженерные ресурсы, лицензирование ПО и т.п.

Таким образом, стоимость локального инференса LLM может быть значительно выше, чем в облачном сервисе. Но это оправдано, если проект даст большую отдачу. Плюс безопасность, если речь идет о медицинской или коммерческой тайне. Напомним, что в РФ действует запрет на обработку персональных данных (ФЗ 152), а облачные провайдеры используют данные пользователей для обучения своих моделей.

3️⃣ Итого: что выгоднее?

Выбор зависит от конкретных потребностей и возможностей вашего предприятия. Распределение бюджета должно начинаться с вопроса: чего вы хотите добиться? Повысить эффективность работы сотрудников с помощью SaaS, или монетизировать ИИ, интегрировав LLM в собственное приложение и продавая его как услугу или продукт?

👉 Если потребность в инференсе LLM невелика, облачные решения являются более экономичными. Малый и средний бизнес обычно склонен к использованию «облака».

👉 При долгосрочном использовании квантованных LLM (и, соответственно, меньших затратах на CAPEX), локальное развертывание может оказаться выгоднее, особенно если учитывать растущие затраты на облачные сервисы.

👉 Также свой дата-центр предпочтительнее, если для вашего бизнеса требуются специализированные настройки или интеграции — например, большая гибкость, безопасность и контроль.

#инференс #экономикаИИ #LLM #SaaS #capex #opex

🚀 ©ТехноТренды
В продолжение темы экономики LLM (начало см. здесь и здесь) разберём, как пошагово оценить затраты на инференс и сравнить облачные и локальные варианты. Такой подход помогает определить, при каких объёмах запросов есть смысл арендовать API-сервис, а когда выгоднее инвестировать в собственную инфраструктуру.

1️⃣ Параметры расчёта
Конфигурация: облачный провайдер (OpenAI, Groq, DeepSeek и др.) или локальный сервер (A100, H100 и т. п.).
Цена GPU в месяц: актуальна для локального использования. Для облака ключевой показатель — ставка за токен.
Размер контекста (Context size): сколько токенов модель может принять за один запрос.
Модель LLM: Qwen, Llama, DeepSeek-V3, o4-mini и т. д.
Скорость обработки входа (Prompt eval speed, токенов/с) и скорость генерации (Speed predict, токенов/с).
Объём входных (Input tokens) и выходных токенов (Output tokens), которые вы планируете прогонять через модель.

2️⃣ Как построить расчёт
1. Вычислите полный объём токенов на входе и выходе:
> Total tokens = Input tokens + Output tokens
2. Для облачного API рассчитайте:
> Стоимость = Total tokens × цена за токен
3. Для локальной установки:
• Определите максимальное число токенов в месяц по формуле
> Tokens/month = (Prompt speed + Speed predict) × 3600 × 24 × 30
• Разделите месячную аренду GPU на это значение, чтобы получить цену за токен.
4. При необходимости добавьте затраты на электричество, охлаждение и поддержку инфраструктуры.

3️⃣ Пример расчёта стоимости (оценочно)
🔸Облачный вариант: модель OpenAI (API с ценой $0,002/1000 токенов):
• Условия: 20 млн Input tokens и 0,1 млн Output tokens в месяц.
Total = 20,1 млн токенов → $40,20 в месяц.

🔸Локальный инференс на A100 (аренда $1 000/мес.)
Возьмём модель Qwen2.5-7B-Instruct-BF16 и параметры из расчёта:
Prompt eval speed: 7 504 ток./с
Speed predict: 78 ток./с
Если обработать ~20 млн 100 тыс токенов за месяц, общие затраты на GPU составят около $1,52.


4️⃣ Оценки и выводы
По нашим расчётам, картина получается следующая:

📊 Лидеры по цене и скорости:
👉 DeepSeek и Groq показывают лучшие результаты по соотношению цена/производительность.
👉 Groq особенно выделяется по скорости инференса — свыше 400 токенов в секунду, что делает его одним из самых быстрых решений на рынке.

🔥 Открытие сезона — локальные LLM:
• Модели вроде Qwen2.5-7B при размещении на одной A100 или H100 карте демонстрируют выдающуюся эффективность.
• Как показано в бенчмарке GPU, H100 даёт прирост до 2.5x по скорости, особенно при использовании TensorRT-LLM (подробнее здесь).

🤷‍♂️ Аутсайдер — OpenAI:
• При использовании API от OpenAI, стоимость может достигать $5.50 за миллион токенов. Это в 10–15 раз дороже альтернатив вроде DeepSeek или Groq.
• Качество моделей с открытым кодом сегодня не уступает решениям от OpenAI, особенно для задач summarization, Q&A и embeddings. Тогда зачем платить больше? 🤔

🎯 Локальные модели — максимум эффективности:
• Если модель помещается на один GPU, можно достичь отличных результатов по стоимости и скорости. Например, Qwen2.5-7B умещается в H100 80 ГБ с хорошей скоростью генерации.
• Однако для более крупных моделей (70B и выше) потребуется несколько GPU, что увеличивает издержки и сложность конфигурации.

5️⃣ Общие рекомендации
Малые объёмы (до десятков миллионов токенов) чаще выгоднее запускать в облаке: нет затрат на CAPEX и обслуживание.
Высокие нагрузки (сотни миллионов и более) — сигнал к рассмотрению локальной инфраструктуры: цена за токен может оказаться ниже.
Оптимизации (квантование, кэш KV, батчинг) снижают задержки и уменьшают расходы на оборудование.
Регулярно обновляйте данные: тарифы облаков и цены аренды GPU меняются, как и характеристики моделей.

👉 Если вы хотите сразу приступить к оценке своих сценариев, воспользуйтесь нашим онлайн-расчетом:
https://docs.google.com/spreadsheets/d/10Rx2Onl5wc-hmiBjmn4NHlW9KT4M_YXopUYAENRTsCE/edit?usp=sharing

Также в таблице сравнения вы можете сравнить стоимсть инференса для различных провайдеров.

#инференс #экономикаИИ #LLM #SaaS #capex #opex #токеномика #API

🚀 ©ТехноТренды
2
Итак, читаем доклад Stanford HAI о масштабах, тенденциях и последствиях развития ИИ по всему миру. Рост интереса к ИИ в последние годы был стремительным. После выхода LLM-моделей вроде GPT, Llama, Claude и их широкого распространения стало очевидно, что требуется системный подход к анализу изменений в этой сфере.

❗️Первое, что бросается в глаза — в документе почти не нашлось места России. Ни в сводках по патентам или инвестициям, ни в части информации о лабораториях, компаниях или исследованиях в области ИИ. Разве что несколько упоминаний в контексте кибербезопасности и ИИ-регулирования.

Посмотрите на первую картинку в этом посте: на инфографике «Частные инвестиции в развитие ИИ» Россия отсутствует, хотя есть такие страны, как Чили и Литва, явно не крупные AI-державы. В целом отчет выглядит американоцентричным (что, впрочем, объяснимо). Возможно, у авторов просто не было доступа к данным по РФ — и это одна из наших проблем.

Исправим это досадное упущение — дополним отчет. Как ситуация выглядит на самом деле?

🇷🇺 В России (и наши публикации об этом говорят) развитие ИИ идет большими темпами: как в плане внедрения (link, link), так и в плане инвестиций и регулирования.

1. Инвестиции.
Объем рынка GenAI в России прогнозируется на уровне $4,15 млрд, со среднегодовым ростом 25%. К 2030 году правительство планирует выделить $0,3 млрд на развитие AI. Вложения из внебюджетных источников, таких как Сбер и РФПИ, могут составить $1,16 млрд — это уже больше, чем у Мексики или Каймановых островов, присутствующих на диаграмме.

Про AI у нас говорят из каждого утюга. Практически все сейчас что-то делают с LLM (об этом см. ниже). Даже если предположить, что каждая компания вложит в ИИ по ₽2 млн (а реальные вложения достигают от десятков до сотен млн рублей), то наше место явно не в категории «Rest of World» 😉

2. Внедрение.
Теперь посмотрите на график AI Goes Corporate.
В 2024 году доля опрошенных, сообщивших о применении ИИ в своих организациях, выросла до 78% с 55% в 2023 году. Аналогично, количество респондентов, заявивших о использовании генеративного ИИ в хотя бы одной бизнес-функции, более чем удвоилось — с 33% в 2023 году до 71% в прошлом году.

Россия здесь опережает общемировой тренд. По нашим наблюдениям, практически каждая компания так или иначе, косвенно или прямо использует LLM в своей работе. Это подтверждается и исследованиями рынка: уже к середине 2023 года 95% российских компаний заявляли о том, что внедряют ИИ-технологии в основные процессы.

3. Разработка.
Третья картинка — Number of notable AI models by geographic area — уже ближе к истине. Россия отнесена авторами исследования в категорию стран, имеющих 1-10 собственных AI. На самом деле реально самостоятельно обученных моделей у нас две: от Яндекса и от Сбера. Остальные LLM и SLM на российском рынке — тюнингованный open source. Конечно, здесь сказывается недостаток вычислительных мощностей, но и в эту отрасль запланированы вложения (мы об этом писали).

В общем, по России ситуацию прояснили. Давайте разбираться с общемировыми трендами — пойдем по главам.
⬇️⬇️⬇️

#AI #ниокр #LLM #внедрение #Россия #тренды #аналитика #AI_index_report_2025

🚀 ©ТехноТренды
Может ли ИИ заменить программистов-фрилансеров? Результаты тестов

Опубликованы результаты масштабных тестов компании PeopleTec. Четыре языковые модели были проверены на задачах, типичных для фриланс-бирж. Спойлер: даже лучшие LLM пока что уступают живым программистам.

Контекст:
Используя набор данных Kaggle о вакансиях на Freelancer.com, авторы создали бенчмарк из 1115 задач по программированию и анализу данных, которые можно было оценить с помощью автоматизированных тестов (фильтрация, синтез, автоматическая проверка через тестовые кейсы).

Стоимость задач предсказана ML-моделью (Random Forest) на основе тегов навыков (медиана: $250, среднее: $306). По ожиданиям исследователей, выполнение всех заданий могло принести в общей сложности «примерно 1,6 млн долларов».

Работа моделей оценивалась по метрикам: успешность выполнения задачи, точность тестов, общий заработок, распределение ошибок.

Анализировались четыре модели: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 и Mistral (первые две — коммерческие, последние — опенсорсные). По оценкам авторов, среднестатистический живой инженер-программист мог бы решить более 95% задач.

Результаты тестов:

1️⃣ Claude 3.5 Haiku решил 78,7% задач (877 из 1115), заработав 1.52 млн — 95% от общего бюджета)
2️⃣ GPT-4o-mini: 77,3% задач ($1.49 млн)
3️⃣ Qwen 2.5: 68,5% ($1.33 млн)
4️⃣ Mistral 7B: 42,5% ($0.70 млн).

Выявленные ошибки: Claude и GPT-4o-mini чаще допускали незначительные неточности (например, в форматировании), Mistral — полные или множественные провалы.

Выводы:
LLM уже достигли высокой эффективности в решении структурированных задач, приближаясь к уровню человека.
Открытые модели (Qwen 2.5, Mistral) прогрессируют, но пока отстают от коммерческих решений.
Для сложных проектов с креативными требованиями и неоднозначностью LLM могут справиться только при участии человека.

Тренды
Справедливости ради надо заметить, что ИИ уже активно используется фрилансерами и заказчиками для генерации требований, решения задач и оценки результатов. Как считает руководитель тестов Дэвид Ноевер, этот тренд будет только усиливаться:
«Я не уверен, что кто-то уже полностью автоматизировал процесс. Но думаю, это вопрос месяцев».

Исследователи также отметили интересный технический предел: open source модели перестают справляться с задачами при 30 миллиардах параметров — а это как раз максимум, доступный для потребительских GPU. Для серьезных и масштабных задач требуется более продвинутая инфраструктура.

#LLM #тесты #аналитика #AI

🚀 ©ТехноТренды
LLM в задачах ASR: новые возможности для бизнеса и технологий

Большие языковые модели (LLM) давно перестали быть инструментом исключительно для обработки текста. Сегодня они находят всё большее применение в задачах, связанных с голосом — от анализа синтеза речи и клонирования голоса до оценки качества TTS-систем.

📌 VoiceBench — это сравнительный фреймворк, в котором LLM используются для оценки качества синтезированной речи. Он предлагает единый подход, при котором GPT-модель получает текст и аудио, и генерирует оценку по ряду метрик: естественность, выразительность, интонация, отсутствие артефактов.

Такой подход снимает необходимость в ручной аннотации и субъективных опросах, заменяя их на более масштабируемую и реплицируемую LLM-оценку. Это позволяет оптимизировать процессы R&D и контроля качества в разработке голосовых систем, сокращая издержки и ускоряя вывод продуктов на рынок.

👉 Проект VoiceBench на GitHub

📌 TTSizer — это инструмент, который позволяет извлекать стили, эмоции и характеристики из речи с помощью LLM. Его интересная особенность — использование промптов (см. prompt_template.txt) для интерпретации аудиофайлов. Промпты оформлены в виде задач на «понимание голоса», где LLM выступает не только как классификатор, но и как объясняющая модель.

Например, LLM может быть предложено описать эмоциональное состояние говорящего, определить интонационные особенности или выделить специфические характеристики голоса (тембр, предполагаемый возраст, пол).

💡 Ключевая идея: LLM можно использовать как универсальный интерфейс для понимания и интерпретации аудио. В связке с аудиоэмбеддерами (например, из Whisper или HuBERT) модель может понимать не только что сказано, но и как это сказано.

👉 Проект TTSizer на GitHub
👉 Пример промпта для TTSizer

🛠 LLM становится мостом между аудио и смыслом. Интеграция LLM в задачи ASR и аудиоанализа открывает новые перспективы для внедрения синтезированной речи в продуктах и сервисах.

🎯 Возможное применение:

Анализ интонации и эмоционального состояния. Применение в контакт-центрах для автоматического выявления проблемных звонков, анализа настроения клиентов и оптимизации скриптов взаимодействия.
Улучшение обратной связи при ML. Предоставление детализированного, контекстно-обогащенного фидбэка сокращает время и повышает качество обучения TTS и Voice Cloning систем.
Персонализация синтеза речи. Разработка голосовых ассистентов и интерфейсов с адаптивным стилем и тембром, соответствующим предпочтениям пользователя или контексту.

И это только начало. Интеграция LLM в аудиоанализ и ASR-системы — одно из стратегических направлений развития ИИ. Эти технологии не только оптимизируют существующие процессы, но и создают фундамент для качественно новых решений в области голосовых интерфейсов и обработки аудиоданных, повышая их интеллектуальность и расширяя сферу практического применения.

#LLM #ASR #Voice_cloning #TTS

🚀 ©ТехноТренды
Новые open-source языковые модели за последние пару недель

В 2025 году наблюдается устойчивый переход от масштабных закрытых решений к более гибким, эффективным и доступным open-source альтернативам, в том числе малым моделям (SLM) и системам для Edge-устройств, о чем мы регулярно пишем. Новые разработки не только демонстрируют рост производительности, но и адаптируются под специфические потребности различных отраслей.

Основные тенденции в разработке моделей:
• оптимизация вычислительных ресурсов (один из ключевых трендов современности),
• развитие архитектур типа Mixture-of-Experts (MoE), которые делят большую модель на меньшие, специализированные подсети, называемые «экспертами»,
• расширение контекстных возможностей,
• фокус на специализацию, конкретные сценарии использования — от юридического анализа до сложного логического рассуждения.

В этом контексте особенно интересно наблюдать за особенностями новых open-source решений, которые выкатываются буквально каждые несколько дней.

Gemma 3n от Google DeepMind — открытая модель (~5 млрд и 8 млрд параметров) для on-device использования. Поддерживает мультимoдальный ввод (текст, изображения, аудио, видео) и обучена на 140+ языках. Благодаря новому архитектурному решению MatFormer эффективное число параметров сокращено до ~2B/4B (память ~2–3 ГБ VRAM) , при этом качество остаётся высоким (модель E4B набрала >1300 Elo на LMArena — впервые для модели <10B) .

Tencent Hunyuan-A13B-Instruct — 13 млрд «активных» параметров (всего 80 млрд, архитектура MoE). Универсальная LLM общего назначения с открытыми весами, обученная следовать инструкциям. Поддерживает контекст до 256k токенов и имеет режимы быстрого/медленного «мышления». Оптимизирована под агентные задачи: показывает лидирующие результаты на бенчмарках вроде BFCL-v3 и τ-Bench. Для эффективного инференса применяет оптимизированное внимание (GQA). Выпускается также в квантованных версиях (FP8, GPTQ и др.) .

MiniMax M1 — новая открытая LLM от китайского стартапа MiniMax с рекордным контекстом ~1 000 000 токенов (ввод) и до 80k токенов вывода. Использует гибридную архитектуру MoE с 456 млрд параметров (45,9 млрд активных на токен). Модель ориентирована на сложное многошаговое рассуждение и генерацию кода: например, набирает ~86% на математическом конкурсе AIME 2024 и 65% на LiveCodeBench. По ряду сложных задач M1 превосходит предыдущих open-source лидеров (DeepSeek R1, Qwen3) и заметно сокращает разрыв с закрытыми моделями.

SUSE Cavil-Qwen3-4B — специализированная 4-миллиардная LLM для юридического текста, открытая компанией SUSE. Является LoRA-дообучением модели Qwen3 (4B) для поиска лицензий и других легальных атрибутов в коде и документации. Модель распространяется под Apache 2.0 и работает на потребительских GPU (баланс производительности и деплоймента) .

Dhanishtha 2.0 Preview — экспериментальная открытая LLM с «промежуточным мышлением». Умеет несколько раз переосмысливать и уточнять свой ответ, вставляя рассуждения между репликами. Такой подход экономит до ~79% токенов по сравнению с классическим развернутым мышлением (напр., у DeepSeek R1). Модель пока в стадии превью, но ее можно протестировать — код и веса доступны открыто.

👉 Тренды указывают на стремительное сближение возможностей открытых и коммерческих систем ИИ. Основным драйвером процесса служит ориентация на реальные потребности бизнеса и сообщества: от гонки за формальными численными показателями идет переориентация на конкретные задачи. Всё это создает условия для еще более активного внедрения ИИ в корпоративные и государственные процессы.

🔥 Параллельно идет переосмысление цифрового ландшафта. Ключевыми факторами успеха становятся открытость, интерпретируемость и энергоэффективность решений на основе искусственного интеллекта.

#LLM #SLM #тренды

🚀 ©ТехноТренды
1
Матрешка и искусственный интеллект: Google научил модель прятаться внутри самой себя

Когда слышишь слово «матрешка», вряд ли первая ассоциация — ИИ. А зря. Новая модель Gemma 3n от Google реализовала именно этот архитектурный принцип, сделав его основой эффективности. И это не метафора, а легитимный и довольно старый термин: Matryoshka Embedding Model. Не иначе Сергей Брин подсказал ))

🪆Новая матрешка в нашем сельпо

Мы часто пишем об оптимизации моделей (1, 2, 3) — это один из важных трендов на фоне развития EdgeAI. Недавний релиз от Google стал одним из самых инновационных технологических прорывов года. Gemma3n — первая модель «матрешки» промышленного уровня.

На первый взгляд может показаться, что это обычная just one more LLM (их сейчас как пирожки пекут). Но вот в чем фишка: эта модель спокойно работает на вашем айфоне и при этом обеспечивает производительность на уровне лидеров рынка, таких как Claude 3.7 Sonnet и Llama 4. Кое у кого появился повод для паники.

В мульмодальной Gemma 3n включена обработка аудио (плюс к возможностям текста и зрения в версии 3.5). Каждый компонент интегрирует надежные исследовательские модели: Universal Speech Model для аудио, MobileNet v4 для зрения и MatFormer для текста. 

Модель доступна в двух размерах:
E2B (2 млрд параметров) — требует всего 2GB памяти
E4B (4 млрд параметров) — 3GB памяти
При этом фактическое количество параметров составляет 5B и 8B соответственно, но благодаря архитектурным инновациям модель компактно упакована «сама в себя».

Это прорывное решение для EdgeAI. Теперь вы можете использовать мощный ИИ непосредственно на устройстве, без необходимости в облачных серверах или сложной настройке GPU. Прозреваем новый глобальный захват рынка «корпорацией добра» и новые антимонопольные иски 😉

🔧 Как это работает — объясняем наглядно

Принцип матрешки — «одна в другой». То же самое в Google DeepMind сделали с искусственным интеллектом. Архитектура MatFormer (Matryoshka Transformer) представляет собой вложенный трансформер для эластичного вывода: большая модель содержит меньшие, полностью функциональные версии себя. Устройство на ходу выбирает нужную, в зависимости от потребности момента: один вектор может обрабатываться на нескольких уровнях понимания.

💬 Что происходит при выводе?
Матрешечная модель обучена создавать векторы, в которых самые важные данные находятся в начале. (Этот подход, называемый Matryoshka Representation Learning, не нов — более подробно см. в статье). При этом качественные представления создаются не только для полного размера, но и для усеченных. Можно обрезать вектор — и модель всё равно вас поймет и выдаст валидный ответ.

Получить короткий вектор так же быстро, как длинный, но при этом нужно меньше памяти и вычислений. Работает как режимы экономии батареи на телефоне:
• быстро, но не слишком умно
• сбалансировано
• полный интеллект на максималках.

Пример. Представьте, что модель распознаёт картинку с котом:
• Вектор = 64: «Это кошка»
• Вектор = 256: «Это домашняя кошка в интерьере»
• Вектор = 768: «Это взрослый кот породы табби, лежит на подоконнике в солнечный день».
Чем больше вектор, тем точнее описание.

То есть одна и та же модель:
• Может работать как маленькая, средняя и большая;
• Не нуждается в дроблении на разные версии;
• Масштабируется под любое железо — от смартфона до серверов.

А главное — меньше ресурсов, меньше затрат, меньше головной боли для CTO и DevOps.

💡 Вывод

Google снова тихо затащил. Пока остальные кидают на ИИ все доступные ресурсы, здесь учат модели быть гибче, а не тяжелее. И это один из главных трендов волны EdgeAI.

Полезные ссылки для тех, кто хочет «под капот»:
🔗 Введение в Matryoshka Embedding Models на Hugging Face
🔗 Официальная дока Gemma 3n от Google

#EdgeAI #ML #LLM #Google

🚀 ©ТехноТренды
2