📈 ТехноТренды: Технологии, Тренды, IT
1.08K subscribers
122 photos
23 videos
7 files
224 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 1/3

👉 В спецификациях устройств сегодня часто встречаются сочетания «NPU acceleration» или «TPU coprocessor». Что это за очередные волшебные слова из трех букв? Давайте разбираться.

Быстрое развитие искусственного интеллекта и больших языковых моделей (LLM) предъявляет растущие требования к производительности при обработке огромных массивов данных и к энергоэффективности «железа». Традиционные CPU не умеют в параллельные вычисления, а GPU умеют, но стоят дорого и потребляют много энергии. Передовые архитектуры, такие как ASIC, ARM и RISC-V, гораздо экономичнее, но имеют ограничения по производительности в задачах, связанных с обучением и развертыванием GenAI. Поэтому их всё чаще дополняют специализированными ускорителями — нейронными (NPU) и тензорными (TPU) процессорами.

Рассмотрим обе эти архитектуры, а потом сделаем некоторые практические выводы и прогнозы.

1️⃣ NPU (Neural Processing Unit)

Нейронные процессоры называются так, потому что их архитектура имитирует нейронную сеть человеческого мозга, за счет чего хорошо справляется с параллельными вычислениями. NPU также способны обучаться на основе накопленных данных, чтобы со временем находить оптимальные решения, что полезно для глубокого машинного обучения (ML).

Первые NPU, выпущенные в 2015 году, были основаны на свёрточных нейронных сетях (CNN) и предназначались для использования в сфере аудио- и речевых технологий ИИ. С тех пор архитектура постоянно развивается параллельно с развитием ИИ, особенно в области вывода данных на периферийных устройствах (Edge AI). Ключевые производители NPU — Huawei, Nvidia, Intel, Qualcomm, Apple.

Задачи ИИ в основном сводятся к обсчету слоев нейронной сети — скалярной, векторной и тензорной математике — с последующей нелинейной функцией активации. NPU разработан так, чтобы оптимизировать рабочие нагрузки при решении этих задач, а значит, потреблять меньше энергии. Этому способствуют его технические особенности: кэш-память на кристалле, память с высокой пропускной способностью и т.п.

👉 Применение NPU
Современные NPU способны выполнять триллионы операций в секунду, и активно конкурируют с графическими процессорами там, где важна компактность, автономность и экономичность.

Уже существует довольно много решений, где модулем NPU усилен основной процессор на базе ARM и RISC-V: смартфоны, планшеты, SBC. Применяются нейропроцессоры и отдельно в устройствах Edge AI: носимых устройствах, «мозгах» роботов, инфраструктуре «умных» городов и пр.

Еще более перспективны NPU в гетерогенных вычислениях, где их функционал сочетается с центральным и графическим процессорами. Несколько примеров:
🔸 Обработка изображений и видео в системах видеонаблюдения или медиаиндустрии. CPU управляет общей логикой приложения, потоками данных и интерфейсами; GPU в реальном времени выполняет преобразование изображений, фильтрацию, кодирование/декодирование видеопотока; NPU отвечает за работу ИИ, например, при распознавании, добавлении или удалении объектов на видео.
🔸 Финансовые технологии (FinTech). CPU управляет бизнес-логикой и взаимодействием с пользователем; GPU занимается анализом данных, отслеживанием трендов; NPU — финансовым прогнозированием, оценкой кредитных рисков, выявлением мошенничества, анализом корреляционных моделей.
🔸 Медицина и биоинформатика (анализ генетических данных, диагностика, прогнозирование заболеваний). CPU управляет процессами обработки информации, взаимодействием с базами данных; GPU анализирует изображения с МРТ и других медицинских устройств; NPU используется для машинного обучения и классификации данных, например, для ранней диагностики заболеваний «по картинке».
🔸 Гетерогенные связки с участием NPU востребованы и в таких областях, как виртуальная реальность, беспилотный транспорт, игровая индустрия.

#NPU #ML #IoT #EdgeAI
👍31🔥1
Современные AI-ускорители: плюсы, минусы и перспективы нейронных и тензорных процессоров. Часть 2/3

Возвращаемся к теме, которую начали позавчера. Сегодня поговорим о тензорных процессорах.

2️⃣ TPU (Tensor Processing Unit)

TPU — специализированная интегральная схема (вариант архитектуры ASIC), разработанная компанией Google специально для нейронных сетей. Тензорные процессоры (сюрприз!) оптимизированы под работу с тензорами — многомерными массивами данных, которые составляют основу большинства современных моделей глубокого обучения.

👉 Ключевые особенности TPU:

• Наличие матричного умножителя (MXU) — модуля, который с невероятной скоростью выполняет операции умножения матриц и векторов, что очень важно для обучения и инференса LLM или распознавания изображений.
SparseCore — специализированный ускоритель для обработки сверхбольших встраиваемых моделей, которые часто используются в продвинутых задачах ранжирования и рекомендаций.
• Запатентованная топология интерконнекта (способ связывания узлов в вычислительном кластере, который в случае с TPU обеспечивает высокую скорость при минимальных задержках отклика).

⚡️ При этом TPU весьма энергоэффективны. Производительность в расчете на ватт в рабочем режиме у процессоров семейства Google TPU в 25–80 раз выше, чем у CPU или GPU. Отдельный сопроцессор Edge TPU может выполнять 4 триллиона операций в секунду (4 TOPS), потребляя всего 2 Вт энергии.

👉 Примеры использования TPU
Если NPU чаще встречаются в мобильных и встроенных системах, то TPU чаще используются в облачных вычислениях и крупных вычислительных кластерах.
• Google начала применять тензорные процессоры в 2015 году для собственных исследований в области машинного обучения, а впоследствии — для оптимизации фреймворка Google Tensorflow. Популярность фреймворка также способствовала успеху архитектуры.
• TPU использовались для извлечения текста из фотографий Google Street View, а в «Google Фото» один тензорный процессор мог обрабатывать более 100 миллионов фотографий в день.
• В 2018 году «корпорация добра» сделала TPU общедоступными через свою облачную платформу Google Cloud. Такие продукты Google, как Gmail, Поиск и Переводчик, работают на специализированных облачных TPU.

👉 Применяются эти ускорители и в устройствах Edge AI. Например, чипами TPU оснащаются вычислительные шлюзы (Intelligent edge computing gateway). Это устройства, которые обеспечивают мощную производительность периферийных вычислений для интеллектуального анализа данных и машинного зрения на базе ИИ.
Некоторые области применения таких шлюзов:
🔸 Промышленность: сбор, вычисления и передача данных на интеллектуальных фабриках.
🔸 Энергетика: мониторинг расхода и обработка данных для управления энергией на электростанциях.
🔸 «Умный город»: энергетический мониторинг зданий, сооружений и заводов.
🔸 Интернет вещей: сбор и пересылка данных, удаленный мониторинг и управление, а также проникновение в интранет для полевых ПЛК, систем управления дронами, различных контроллеров, датчиков приборов.

#TPU #ML #IoT #EdgeAI #Google

🚀 ©ТехноТренды
Мини-робот «Топа» от Сбера

26 апреля на конференции ROS meetup Центр робототехники Сбера представил бипедального мини-робота по имени Топа. Аниматроник имеет кавайную внешность «избушки на курьих ножках» и управляется сберовской нейросетью SymFormer.

Особенности реализации:
• Для ИИ Топы использована методика обучения с подкреплением в виртуальной среде IsaacLab от Nvidia. Это позволяет, избегая износа физических компонентов, создавать поведения, которые трудно запрограммировать вручную: корректировку шага при потере равновесия, обход препятствий и т.п.
• При обучении применяются Actor-Critic методы: ИИ пробует действия, получает «награды» и постепенно учится ходить лучше.
• Схема замкнутой кинематики упрощает контроль за конечностями и обеспечивает высокую энергоэффективность.

👉 В результате получился функциональный отечественный прототип робота-помощника, сочетающий в себе передовые AI-технологии и уникальный дизайн.

#робототехника #конференция #ML #фото

🚀 ©ТехноТренды
Об обучении Топы

Прокомментируем слайд, предоставленный Евгением Пономаревым. Он демонстрирует структуру цикла обучения робота — Reinforcement Learning Loop.

1️⃣ Вход (Observed State). В сеть поступают данные: скорость центра масс, угловая скорость торса, проекция вектора гравитации, положения и скорости приводов, команды джойстика и предыдущие действия.

2️⃣ Нейронная сеть (Policy Network): многоуровневая нейросеть обрабатывает входное состояние и на его основе генерирует действие — вектор желаемых положений приводов.

3️⃣ Окружение (Environment): робот в симуляции IsaacLab применяет действие к своему физическому моделированию, что приводит к изменению состояния.

4️⃣ Награда (Reward): окружение вычисляет скалярную награду, оценивая, насколько успешным было действие (поддержание баланса, скорость передвижения, минимизация энергопотребления и пр.).

5️⃣ Обновление модели: награда используется для обновления весов нейросети. Система учится выполнять всё более успешные действия.

#ML #фото

🚀 ©ТехноТренды
Media is too big
VIEW IN TELEGRAM
Участники конференции получили эксклюзивную возможность поуправлять Топой и посмотреть на живую демонстрацию обучения и управления локомоцией робота.

Под руководством Евгения Пономарева (Центр робототехники Сбера) Топу включили и сняли с «насеста», после чего он немного прогулялся по аудитории.

На видео хорошо заметно, как ИИ управляет приводами сгибания колена и голеностопа, сохраняет равновесие и корректирует положение корпуса.

Почему это важно
👉 Топа и его «коллеги» Куба, Краб и Слон — основа будущей индустрии сервисных решений: от промоутеров и гидов до роботов-ассистентов в офисах и торговых центрах. А ещё — отличная тестовая платформа для отработки технологий управления движением: как сделать ходьбу не только устойчивой, но и максимально экономной по энергии. Это ключевой тренд в современной робототехнике.

#робототехника #конференция #ML #видео

🚀 ©ТехноТренды
Продолжаем анализировать Artificial Intelligence Index Report 2025. Начало тут.

1️⃣ ИИ и НИОКР в 2025: кто задаёт темп?

ИИ-революция начинается с науки и разработок. Первая глава AI Index 2025 показывает, как стремительно меняется ландшафт исследований: публикации, конференции, патенты, создание крупных LLM и опенсорсных программных продуктов, развитие аппаратных средств.

Главные факты:

1. Бурный рост публикаций.
Количество публикаций по ИИ утроилось за 10 лет — с ~102 000 в 2013 году до более чем 242 000 в 2023-м. Сейчас ИИ — почти половина всех публикаций о компьютерных науках (41.76% в 2023 году). По регионам лидировали Восточная Азия и Тихоокеанский регион (34.5% от общего числа), за ними следовали США, Европа и другие страны. Подавляющее большинство работ посвящено машинному обучению #ML, которое, как мы отмечали, сейчас развивается особенно стремительно.

2. Наука vs индустрия.
Академический сектор (университеты и исследовательские центры) остается поставщиком основной массы исследований — 85% публикаций. В то же время более 90% значимых ИИ-моделей создаются сегодня индустрией (еще в начале 2010-х абсолютным лидером были научные структуры).

3. Китай — основной конкурент США.
Китайцы впереди всех по общему количеству публикаций, а США сохраняют лидерство по качеству: именно американские исследователи больше всего присутствуют в топ-100 самых цитируемых работ.

4. Патентная гонка.
Количество патентов на ИИ выросло почти в 30 раз за последние 13 лет. Почти 70% всех выданных патентов приходится на долю Китая.

5. Модели растут в масштабах и аппетитах.
Каждые 5 месяцев удваивается вычислительная мощность, необходимая для обучения топовых моделей (как и прогнозировалось). Размеры датасетов для обучения LLM удваиваются каждые 8 месяцев.

6. Данные для обучения заканчиваются.
ИИ уже «съел» большую часть открытых данных интернета. Исследования показывают, что высококачественные данные могут исчерпаться к концу десятилетия. Это создает давление на индустрию: придется искать новые методы обучения — например, генерировать синтетические данные или создавать специализированные приватные датасеты.

7. Стоимость инференса падает.
Цена запроса к модели уровня GPT-3.5 обрушилась более чем в 280 раз за 18 месяцев, сделав ИИ-инструменты гораздо доступнее для разработчиков и компаний. Тренд на удешевление инференса мы уже не раз отмечали. Другая важная тенденция — усиление позиций опенсорса по сравнению с прориетарными моделями (тыц, тыц).

8. Аппаратная часть ускоряется.
Производительность оборудования для ИИ (FP16 операций в секунду) растет на 43% в год. Цены на чипы падают на 30% ежегодно, а энергоэффективность увеличивается на 40% в год. (Наш комментарий: драйвером роста здесь является развитие альтернативных платформ, не только GPU. Индустрия активно работает с архитектурами ARM и RISC-V, а также с различными ускорителями).

9. Энергоэффективность против выбросов.
Несмотря на рост энергоэффективности (см.), обучение моделей сопровождается всё большими выбросами CO₂. Например, обучение Llama 3.1 потребовало выбросов в 8 930 тонн CO₂ — в 500 раз больше годового следа обычного человека в США. Добавим, что проблема энергетического обеспечения потребностей ИИ становится всё более актуальной.

Вывод:
ИИ быстро эволюционирует. Но за ростом моделей стоит не только увеличение вычислений и данных, но и вызовы — энергопотребление, дефицит данных и необходимость нового подхода к этике ИИ.

👉 Продолжение следует...

#AI #ниокр #bigdata #экология #инференс #тренды #аналитика #AI_index_report_2025

🚀 ©ТехноТренды
This media is not supported in your browser
VIEW IN TELEGRAM
Робот выгружает посудомоечную машину по команде — и управляет им не человек, а мультимодальная модель Vision-Language-Action (VLA), работающая в эмулированной среде Isaac Lab от Nvidia.

🇮🇳 Индийская команда Black Coffee Robotics обучила роботизированную руку выполнять повседневные задачи (например, вынимать посуду из бокса посудомойки) с помощью модели OpenVLA-7B. Это мультимодальная трансформер-модель с видеокодером и декодером действий: на вход она получает RGB-изображение 224×224, а на выходе предсказывает 7-мерный вектор действия (позиция, ориентация и захват).

Всё обучение проходило в эмуляторе Isaac Lab (Nvidia). Данные собирали в формате RLDS: на каждом шаге — картинка и соответствующее действие. Задача с посудомойкой включает в себя 50 эпизодов — до 60 шагов на эпизод. Управление — с частотой 5 Гц. Для реалистичности в демо-политики добавляли шум.

Затем модель дообучали с помощью LoRA — всего ~10 тыс. шагов (4–5 часов на одном GPU с 24 ГБ VRAM).

🔥 Что получилось:
• Простые задачи (подъем предметов) — почти 100% успех;
• Модель адаптируется к разным роботам (Widow-X, Kinova);
• Обучение новым задачам — быстрое и воспроизводимое.

🤷‍♂️ Что пока не вышло:
• Без дообучения модель «не видит» новые сцены (~0% успеха);
• Сложные манипуляции с множеством контактов (вроде той же задачи с посудомойкой) — 5–10% успеха даже после настройки.

ИИ пока еще не готов к бесперебойной работе на кухне, но движется к этому уверенными шагами.

#VLA #видео #технологии #ML

🚀 ©ТехноТренды
👍1
Демонстрация работы VLA-модели π₀.₅

Представьте, что с вами работает электронный помощник, который понимает вас с полуслова, умеет самостоятельно сложить белье или прибраться на кухне, а при необходимости даже вытереть губкой пролитую воду.

Компания Physical Intelligence представила новую модель π₀.₅ — визуально-языково-действенную (VLA) систему, способную выполнять задачи в ранее не виденных средах, которых не было в обучающих датасетах, таких как кухня или спальня в новом доме.

🎯 Модель π₀.₅ использует двухэтапный подход:

1️⃣ Формулирование высокоуровневых действий. На основе визуального восприятия и языковых инструкций модель определяет последовательность подзадач, необходимых для выполнения общей задачи. Например, при команде «убери кухню» она может выделить шаги: «собрать посуду», «положить в раковину», «протереть стол».

2️⃣ Преобразование в низкоуровневые команды. Каждое высокоуровневое действие передается в модуль управления действиями, основанный на архитектуре flow matching. Этот модуль генерирует непрерывные моторные команды, позволяя роботу выполнять задачи с высокой точностью и частотой обновления до 50 Гц.

🤖 Ключевой принцип обучения модели — использование гетерогенных данных, т.е. различных типов и форматов информации. Модель обучается на:
• роботизированных демонстрациях
• мультимодальных веб-данных (вопросы-ответы, описания изображений)
• вербальных инструкциях от человека
• данных от различных типов роботов.

Это позволяет научить робота не только выполнять различные действия, но и понимать семантический контекст каждого навыка (например, какие предметы брать и куда их класть), определять высокоуровневую структуру задачи (например, какие шаги необходимы для заправки кровати) и даже анализировать и усваивать поведение других, более простых роботов.
«Наша текущая модель далека от идеала, — подчеркивают разработчики. — Ее цель — не осваивать новые навыки или демонстрировать высокую ловкость, а адаптироваться к новым условиям. В наших экспериментах π₀.₅ может выполнять различные задачи в совершенно новых домах. Не всегда с первой попытки, но часто демонстрируя гибкость и находчивость, с которыми может подойти к новой задаче человек».

#VLA #технологии #сервисная_робототехника #ML #машинное_обучение

🚀 ©ТехноТренды
👏1
AI и борьба за доступ к данным: что изменилось с 2024 года?

Чуть меньше года назад мы писали о нарастающих проблемах с доступом к данным для обучения ИИ-моделей. С тех пор ситуация значительно обострилась. Если в 2024 году основной тренд заключался в ужесточении ограничений через файлы robots.txt и сокращении доступности данных, то к 2025 году эти тенденции усилились.

Похоже, что технологическая сингулярность откладывается.
• В декабре 2024 года сооснователь OpenAI Илья Суцкевер заявил, что индустрия достигла «пика данных» и объем доступных датасетов практически исчерпан.
• В январе 2025 года Илон Маск подтвердил эти опасения:
«Мы фактически исчерпали общую сумму человеческих знаний для обучения ИИ».


Почему данные заканчиваются?

👉 Во-первых, объем накопленной человечеством информации не бесконечен, а ИИ осваивает ее с экспоненциальной скоростью. Исследования показывают, что качественные текстовые данные в Интернете могут закончиться к 2026 году, если не изменится темп их накопления.
График на картинке выше иллюстрирует прогнозы объемов публичного текста и наборов данных, созданных человеком, для LLM с 2020 по 2034 год.

👉 Во-вторых, дело не только в количестве данных, но и в их качестве. Модели ИИ требуют высокой точности, однако большая часть ежедневно генерируемых данных либо недоступна, либо не соответствует стандартам современных LLM. По оценке Epoch AI, общедоступные текстовые данные составляют около 300 трлн токенов, причем их уже начали обрабатывать по второму кругу, что снижает эффективность обучения.

👉 В-третьих, усиливаются запреты, касающиеся конфиденциальности и безопасности. По данным отчета «Consent in Crisis» (2024), доля недоступных для индексирования доменов за год выросла на 25%.

К чему приводит дефицит новых данных?

1️⃣ Ужесточение регулирования повышает зависимость компаний от дешевых, но низкокачественных данных, таких как контент из блогов или коммерческих сайтов, а это ухудшает надежность моделей. В стэнфордском отчете AI Index Report 2025 отмечается, что исчерпание доступных датасетов стало серьезно тормозить развитие медицинского ИИ.

2️⃣ Без качественных данных ИИ теряет точность, а новые проекты могут быть заблокированы на этапе разработки. Это угрожает не только технологическим инновациям, но и безопасности: для компенсации нехватки информации разработчики нередко используют частные данные, что повышает риски предвзятости, нарушений конфиденциальности, кибератак и т.д.

Что делать?

🔥 Одно из перспективных направлений — создание синтетических данных, искусственно сгенерированных с помощью алгоритмов, моделей или симуляций. Они имитируют реальные кейсы, но не содержат фактической информации из реального мира. Рынок таких решений, по прогнозам, к 2030 году вырастет до $2,3 млрд. IBM и Google уже внедряют технологии генерации данных через нейросети. Но результат сильно зависит от продуманности алгоритмов генерации и может даже привести к деградации моделей.

🔥 Еще один путь — легальное использование частных данных. OpenAI и другие компании начали платить авторам YouTube, TikTok и других соцсетей за неопубликованные материалы. Это позволяет формировать высококачественные датасеты, не нарушая прав владельцев информации.

🔥 Третья перспективная возможность — оптимизация моделей, позволяющая улучшить эффективность ИИ при ограниченных ресурсах. Малые языковые модели (SLM) демонстрируют, что успех зависит не от объема данных, а от их структуры и точности. Как бонус, это снижает энергопотребление и упрощает адаптацию моделей под специфические задачи.

Будущее ИИ: вызовы и возможности

Хотя ни один из методов не решает проблему полностью, их комбинация открывает простор для инноваций. Парадоксально, но дефицит данных может стать катализатором развития: разработчики вынуждены будут искать нестандартные подходы, такие как гибридные модели обучения или новые алгоритмы обработки информации. Как отметил один из экспертов, «ограничения стимулируют творчество» — и в случае с ИИ это особенно актуально.

#ИИ #тренды #ML

🚀 ©ТехноТренды
GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды
Матрешка и искусственный интеллект: Google научил модель прятаться внутри самой себя

Когда слышишь слово «матрешка», вряд ли первая ассоциация — ИИ. А зря. Новая модель Gemma 3n от Google реализовала именно этот архитектурный принцип, сделав его основой эффективности. И это не метафора, а легитимный и довольно старый термин: Matryoshka Embedding Model. Не иначе Сергей Брин подсказал ))

🪆Новая матрешка в нашем сельпо

Мы часто пишем об оптимизации моделей (1, 2, 3) — это один из важных трендов на фоне развития EdgeAI. Недавний релиз от Google стал одним из самых инновационных технологических прорывов года. Gemma3n — первая модель «матрешки» промышленного уровня.

На первый взгляд может показаться, что это обычная just one more LLM (их сейчас как пирожки пекут). Но вот в чем фишка: эта модель спокойно работает на вашем айфоне и при этом обеспечивает производительность на уровне лидеров рынка, таких как Claude 3.7 Sonnet и Llama 4. Кое у кого появился повод для паники.

В мульмодальной Gemma 3n включена обработка аудио (плюс к возможностям текста и зрения в версии 3.5). Каждый компонент интегрирует надежные исследовательские модели: Universal Speech Model для аудио, MobileNet v4 для зрения и MatFormer для текста. 

Модель доступна в двух размерах:
E2B (2 млрд параметров) — требует всего 2GB памяти
E4B (4 млрд параметров) — 3GB памяти
При этом фактическое количество параметров составляет 5B и 8B соответственно, но благодаря архитектурным инновациям модель компактно упакована «сама в себя».

Это прорывное решение для EdgeAI. Теперь вы можете использовать мощный ИИ непосредственно на устройстве, без необходимости в облачных серверах или сложной настройке GPU. Прозреваем новый глобальный захват рынка «корпорацией добра» и новые антимонопольные иски 😉

🔧 Как это работает — объясняем наглядно

Принцип матрешки — «одна в другой». То же самое в Google DeepMind сделали с искусственным интеллектом. Архитектура MatFormer (Matryoshka Transformer) представляет собой вложенный трансформер для эластичного вывода: большая модель содержит меньшие, полностью функциональные версии себя. Устройство на ходу выбирает нужную, в зависимости от потребности момента: один вектор может обрабатываться на нескольких уровнях понимания.

💬 Что происходит при выводе?
Матрешечная модель обучена создавать векторы, в которых самые важные данные находятся в начале. (Этот подход, называемый Matryoshka Representation Learning, не нов — более подробно см. в статье). При этом качественные представления создаются не только для полного размера, но и для усеченных. Можно обрезать вектор — и модель всё равно вас поймет и выдаст валидный ответ.

Получить короткий вектор так же быстро, как длинный, но при этом нужно меньше памяти и вычислений. Работает как режимы экономии батареи на телефоне:
• быстро, но не слишком умно
• сбалансировано
• полный интеллект на максималках.

Пример. Представьте, что модель распознаёт картинку с котом:
• Вектор = 64: «Это кошка»
• Вектор = 256: «Это домашняя кошка в интерьере»
• Вектор = 768: «Это взрослый кот породы табби, лежит на подоконнике в солнечный день».
Чем больше вектор, тем точнее описание.

То есть одна и та же модель:
• Может работать как маленькая, средняя и большая;
• Не нуждается в дроблении на разные версии;
• Масштабируется под любое железо — от смартфона до серверов.

А главное — меньше ресурсов, меньше затрат, меньше головной боли для CTO и DevOps.

💡 Вывод

Google снова тихо затащил. Пока остальные кидают на ИИ все доступные ресурсы, здесь учат модели быть гибче, а не тяжелее. И это один из главных трендов волны EdgeAI.

Полезные ссылки для тех, кто хочет «под капот»:
🔗 Введение в Matryoshka Embedding Models на Hugging Face
🔗 Официальная дока Gemma 3n от Google

#EdgeAI #ML #LLM #Google

🚀 ©ТехноТренды
2