Sber AI
6.51K subscribers
2.16K photos
578 videos
1 file
1.95K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
На ПМЭФ представили режим «Глубокое исследование» в GigaChat 👩‍🎓

Новая функция поможет с задачами, требующими основательного погружения. С помощью «Глубокого исследования» вы можете собирать информацию из надёжных источников, проводить аналитику по заданной теме и получать подробные отчёты.

Ранее для этого требовалось:
🔘 изучать десятки статей в интернете
🔘 отсеивать нерелевантные публикации
🔘 вручную структурировать материалы
⏱️ Итог: 2–3 часа при благоприятных условиях


Теперь процесс выглядит так:
🔘 открываете GigaChat
🔘 вводите запрос по интересующей теме
🔘 нажимаете на кнопку «Режим» → «Провести исследование» под полем ввода
🔘 выбираете тон: объективный, академический или другой
🔘 получаете подробный ответ с кратким содержанием статей и ссылками на первоисточники
⏱️ Итог: менее 5 минут на исследование


Пробуйте новый режим по ссылке, а тест смотрите в ролике ⬆️

💯 — поможет быстрее разобраться в сути
Please open Telegram to view this post
VIEW IN TELEGRAM
💯8👍3🔥2🤔2👏1
О важности и роли AI в современном мире 📆

21 июня на ПМЭФ пройдут доклады в рамках международной конференции AI Journey. Поговорим о том, как эффективно применять AI, о передовых разработках учёных и почему GenAI — главный тренд этого года.

Программа докладов

🔘12:00–12:15 | Новые тренды в мире AI — Андрей Кузнецов, к.т.н., директор лаборатории FusionBrain, AIRI

🔘12:15–12:30 | AI для решения математических задач — Александр Гасников, ректор Университета Иннополис, руководитель лаборатории математических основ оптимизации, МФТИ

🔘12:30–12:45 | Мультиагентные системы. Прошлое, настоящее, будущее — Иван Кузьмин, директор департамента данных и рекомендательных систем B2C, Сбер

🔘12:45–13:00 | AI в автономном транспорте — Павел Савинков, технический директор, Navio

🔘13:00–13:15 | Рассуждения и планирования для воплощённого AI — Александр Панов, д.ф.-м.н., директор лаборатории «Когнитивные системы ИИ» Института AIRI, директор Центра когнитивного моделирования МФТИ

➡️ Старт в 12:00 по мск — подключайтесь🖱

Будем вас ждать! 💻
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥3💯1
1️⃣ Сбер анонсировал запуск международной платформы BRICS+ AI Success Hub. Это будет база кейсов по внедрению AI в различные отрасли экономики. Инициатива ускорит сотрудничество и обмен опытом между странами БРИКС. Партнёр — Глобальный альянс по AI при ЮНИДО.

2️⃣ «Школа 21» запустила лендинг-тренажёр для проверки навыков общения с нейросетями. Пользователи смогут потренироваться писать промпты для GigaChat, получат оценку качества запроса и советы по его улучшению. Протестировать можно по ссылке.

3️⃣ Сбер развернёт AI-платформу на базе Почты России. Компании протестируют сценарии применения GigaChat для улучшения обслуживания клиентов.

4️⃣ Администрация Санкт-Петербурга договорилась со Сбером о внедрении GigaChat в сервисы ЕИРЦ СПБ — платёжного агента по расчётам ЖКУ. Нейросеть будет помогать сотрудникам обрабатывать обращения граждан, а также готовить отчётность.

5️⃣ Lada Azimut станет первой моделью со встроенным голосовым ассистентом GigaChat. С его помощью можно будет совершать звонки, управлять музыкой, навигацией и парковочной системой без касаний экрана. Запуск серийного производства запланирован на 2026 год.

6️⃣ В GigaChat добавили режим «Глубокое исследование». Нейросеть научилась анализировать информацию из интернета и составлять подробные отчёты на любые темы. Теперь сбор данных из проверенных источников займёт всего пару минут.

В навигации по ПМЭФ вам поможет наш AI-помощник 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍6🔥3
Настоящее и будущее мультиагентных систем 🤖

На ПМЭФ прошла сессия AI Journey, где Иван Кузьмин рассказал, как мультиагентные системы (MAS) применяются в логистике, финансах и бизнесе для автоматизации сложных задач и снижения издержек. В будущем, отметил он, такие системы смогут гибко адаптироваться под конкретного пользователя или бизнес.

Смотрите запись доклада здесь ➡️

💯 — MAS — это следующая ступенька эволюции AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7💯4👏3🔥1
21 июня на ПМЭФ прошла сессия AI Journey, на которой эксперты поделились взглядами на развитие искусственного интеллекта:

🔘 Александр Панов (AIRI, МФТИ) разобрал, как рассуждение и планирование взаимодействуют в системах воплощённого AI. Также он показал, как мультимодальные модели обучают роботов и мультиагентные системы.

🔘 Андрей Кузнецов (AIRI) рассказал про будущее мультимодальных моделей и возможности, которые открываются с развитием ризонинга. Сегодня такие модели уже умеют не только генерировать контент, но и учатся понимать физику реального мира.

🔘 Александр Гасников (МФТИ, Иннополис) рассказал, как рассуждающие модели применяются в образовании и учатся решать математические задачи. Он также отметил потенциал AI для развития образовательных AI-практик в будущем.

🔘 Иван Кузьмин (Сбер) объяснил эволюцию мультиагентных систем (MAS). Сегодня MAS активно используются в логистике, финансах и автоматизации. В будущем, с интеграцией ML, они смогут адаптироваться под каждого пользователя и решать более сложные задачи.

🔘 Павел Савинков (Navio) рассказал, как устроен автономный транспорт и почему команда Navio отказалась от жёстких алгоритмов в пользу обучаемых моделей, выбрала End-To-End подход и сделала VLA-модели с симулятором основой системы управления.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4👏4
1️⃣ Ростелеком, Сбер и АвтоВАЗ договорились вместе разрабатывать ПО на основе AI для автомобилей, включая систему управления городским транспортом. В будущем ее планируют интегрировать с инфраструктурой умного города.

2️⃣ Сбер разрабатывает «Туристическую карту Санкт-Петербурга» на базе GigaChat. Она будет доступна всем гостям города. Приложение подскажет пользователям интересные места для посещения и поможет составить персональный маршрут. Пользователи также смогут найти в нём актуальную информацию об экскурсиях, транспорте, скидках на рестораны и отели.

3️⃣ Сбер внедрит AI в системы алмазодобывающей компании АЛРОСА. Технологии компьютерного зрения помогут автоматизировать добычу ископаемых, а LLM — оптимизировать документооборот. Также компании планируют обмен ML-технологиями и создание общих датасетов.

4️⃣ Сбер и Правительство Московской области собираются внедрить в Подмосковье цифровые медицинские сервисы на базе AI. В планах — создание технологии дистанционного мониторинга и интеграция AI-помощника в специальное приложение. Он будет расшифровывать анализы и объяснять пользователям результаты простым языком.

5️⃣ Прошла сессия AI Journey, где эксперты из Сбера, AIRI, МФТИ, Университета Иннополис и Navio обсудили будущее искусственного интеллекта. В центре внимания оказались генеративные модели, робототехника, автономный транспорт и развитие мультиагентных систем.

6️⃣ Сбер поддержит развитие космической отрасли. Среди AI-проектов — технология Multi-Image Super-Resolution для улучшения качества спутниковых снимков и ассистент на базе GigaChat, который будет помогать космонавтам на борту орбитальной станции.

7️⃣ В этом году пройдёт третья по счёту премия «Лидеры ИИ». Теперь участвовать можно с проектами на стадии MVP. Заявки принимаются в трёх категориях: «Компании», «Регионы» и «Учёные». Победителей объявят в ноябре на AI Journey 2025.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥4
Станьте голосом big tech night 📆

12 сентября в Москве пройдёт ночь больших технологий — событие, организованное Сбером, Яндексом, X5, Т-Банком и Lamoda. IT-специалисты смогут посетить офисы компаний и узнать, как они создают свои продукты.


Мы набираем экспертов, готовых поделиться опытом и прочитать доклады 🏆

Одна площадка — один трек:

➡️ Сбер — Мультиагентные системы в продукте и бизнес-процессах
➡️ Яндекс — Next-Gen Development
➡️ X5 — Архитектура и управление сложными системами
➡️ Т-Банк — AI для SDLC: от кода до прода
➡️ Lamoda — Создание инфраструктуры для разработки и управление ей

🔥 Успейте подать заявку до 30 июня
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥3
Обучение китайской нейросети обошлось в 200 раз дешевле, чем GPT-4o ⚠️

На днях китайский стартап MiniMax выпустил нейросеть MiniMax-M1 с открытым исходным кодом. Стоимость обучения новой модели оказалась значительно ниже популярных в мире чат-ботов. По словам разработчиков, алгоритм, лежащий в основе M1, не уступает продуктам OpenAI, Anthropic и DeepSeek по производительности и качеству.

Характеристики
🔘 Обучение обошлось всего в $534 700. Это в 200 раз дешевле, чем у GPT-4o
🔘 Поддержка 1 млн токенов контекста, как у Google Gemini 2.5 Pro
🔘 Для вывода 80 тысяч токенов требуется лишь 30% от мощности, которую на это затрачивает DeepSeek R1
🔘 Новый алгоритм обучения CISPO работает в 2 раза быстрее аналогов (DAPO от ByteDance и GRPO от DeepSeek)
🔘 API — $1,3 за ввод до 1 млн токенов (такого тарифа нет ни у одного из конкурентов)


💡 Возможно, запуск M1 подтолкнёт пользователей к переходу на более доступные модели. Как считаете, китайские стартапы вытеснят мировых лидеров?

💯 — Да
🤔 — Нет
Please open Telegram to view this post
VIEW IN TELEGRAM
💯26🤔15🔥3👍1
Завтра стартует GigaConf 2025

25 июня в Москве на Хлебозаводе №9 пройдёт одна из главных AI-конференций этого лета. Более 2 000 участников — разработчиков, ML-инженеров, DevOps-специалистов и продуктологов — соберутся в Москве, чтобы обсудить возможности генеративного AI.

В программе четыре параллельных трека:
🔘 GenAI для бизнеса
🔘 AI-Enhanced DevTools & DevOps
🔘 Разработка моделей GenAI
🔘 Cloud AI Architecture


📆 Среди приглашённых гостей — эксперты из Сбера, Cloud.ru, X5, WB, Авито и Альфа-Банка.

🎉 Помимо деловой части, участников ждут интерактивные и чилл-зоны, AI-фотобудка, DJ-сеты на крыше, розыгрыши призов.

Регистрируйтесь и присоединяйтесь к нам онлайн или офлайн 💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5👏4
This media is not supported in your browser
VIEW IN TELEGRAM
GigaAM: внутри GigaChat ⚙️

В прошлом посте мы рассказали, как обучали линейку открытых аудиомоделей GigaAM. Теперь поговорим о том, как эта модель интегрирована в GigaChat.

Звук поступает в энкодер GigaAM Max. В его основе — модель GigaAM-v2 на архитектуре Conformer. Она считывает и звуковые паттерны, и контекст речи. Чтобы аудиомодель могла «общаться» с языковой моделью GigaChat, между ними используется специальный адаптер. Он состоит из двух частей:

🔘 subsampler — модуль без параметров, который сжимает длину аудио в 4 раза, объединяя соседние фрагменты. Это помогает экономить память и облегчает работу с длинными записями
🔘 projector — модуль, который преобразует аудиопризнаки в представление, понятное языковой модели. Для этого используется простая линейная проекция. Она оказалась эффективнее сложных архитектур. При этом основную работу по извлечению признаков выполняет энкодер


💡 Понимание аудиозапросов и генерация ответов реализуются через метод LoRA (Low-Rank Adaptation). Его компоненты встраиваются в ключевые части модели — в слои внимания и блоки обработки текста (FFN) — и позволяют быстро адаптировать поведение модели к новым задачам, не затрагивая всю систему целиком.

🔄 Чтобы эффективнее работать с длинными аудиозаписями, двумерные свёрточные слои заменили на более лёгкие — одномерные. Нагрузка на память снизилась в 10 раз. Благодаря этому модель теперь обрабатывает многочасовые записи быстро и без потери качества.

➡️ Читайте технические подробности в посте канала разработчиков или на Хабре. А задать свой вопрос голосом можно в боте ✉️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥2
GigaStudio сделает приложение за вас 🤖

На GigaConf 2025 представили GigaStudio — инструмент для создания веб-приложений по текстовым запросам:

1️⃣ вы описываете задачу в чате с AI
2️⃣ нейросеть создаёт решение за пару минут

Благодаря интеграции с GitVerse пользователям доступна работа с репозиториями и профессиональными инструментами. Специалисты без опыта в программировании смогут запускать приложения самостоятельно, а разработчики — экономить часы на создании MVP.

Параллельно GitVerse получила крупное обновление:

🔘 доступна сборка проектов в облаке для всех репозиториев, включая приватные
🔘 увеличено время на сборку приложений в CI/CD
🔘 улучшена поддержка Data Science: можно просматривать Jupyter Notebooks, больше места для хранения датасетов
🔘 запущен обновлённый публичный API GitVerse
🔘 добавлена приоритизация задач и улучшено управление проектами в таск-трекере


🖱 Запишитесь, чтобы получить ранний доступ, и попробуйте одними из первых.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥5👏21
Ранее мы собрали в одном посте все типы языковых моделей. Сегодня остановимся на рассуждающих моделях и расскажем, как их учат думать.

✍️ Как устроено «мышление»

Стандартные языковые модели пытаются предсказать, какое слово с наибольшей вероятностью должно быть дальше в тексте — почти как система Т9 в мобильном телефоне.

Рассуждающая модель не играет в «угадайку». Она разбивает задачу на этапы и логически переходит от одного шага к другому, генерируя цепочку «мыслей» перед финальным ответом. Модель может ветвить пути рассуждений и выбирать наиболее правдоподобный. А чтобы она пользовалась актуальными и точными данными, разработчики закладывают в неё возможность доступа к внешним источникам информации: базам данных, справочникам, калькуляторам, календарям, веб-поисковикам. К рассуждающим моделям относятся GigaChat 2.0, GPT-4.5, Gemini 2.5, Claude 3.7 Sonnet.

5️⃣ Обучение

Рассуждающие модели обучают на задачах, где размечена логика рассуждения — например, на школьной арифметике.

В обучающие примеры добавляют шаблоны-подсказки, которые направляют мышление: «Давай подумаем шаг за шагом», «Во-первых…, во-вторых…, наконец…». Кстати, такие подсказки могут использовать пользователи в своих промптах, чтобы ответы были точнее.
Модель следует принципу самосогласованности (self-consistency). Ей показывают примеры рассуждений и повторяют один и тот же запрос, чтобы модель сгенерировала несколько ответов. Затем она выбирает самый частый или обоснованный вариант, а человек или модель-ассистент оценивают качество ответа.

Плюсы
🔘 Отвечают на сложные запросы
🔘 Дают возможность проследить ход рассуждений модели

Минусы
🔘 Пошаговое рассуждение создаёт больше текста, а значит, требует больше вычислительных ресурсов. Поэтому ответ генерируется медленнее
🔘 С виду логичная цепочка может вести к ошибочному выводу

❤️ — если любите смотреть, как рассуждает модель в ответ на запрос
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍3🔥2
25 июня прошла конференция GigaConf, где ведущие AI-эксперты обсудили настоящее и будущее индустрии. В каком направлении развиваются генеративные модели и как они превращаются из исполнителей в агентов? Собрали для вас главные доклады 👇

💡 Deep Reasoning: как научить LLM думать и действовать

Эксперты Сбера рассказали, как GigaChat 2.0 научился рассуждать и решать сложные задачи. Вместе со слушателями они обсудили, как модель подключает внешние источники информации, чтобы давать точные и полные ответы.

💡 От генеративного AI к интерактивному

В этом докладе речь шла о переходе индустрии от моделей-исполнителей узких задач к агентам, способным рассуждать и применять знания в различных областях. Эксперт рассказал, как можно предсказывать поведение модели, и дал прогноз будущего AI-индустрии. Особое внимание он уделил оптимальному использованию вычислительных ресурсов, благодаря которому можно сделать ответы точнее.

💡 Автономная кибербезопасность

В докладе рассмотрен сценарий, где AI защищает инфраструктуру почти без участия человека. А также поднимается вопрос о том, где роль человека по-прежнему критична, а где уже можно передать управление алгоритмам.

💡 Генерация изображений и видео: Kandinsky 4.1

Доклад посвящён тому, как генеративная модель Kandinsky 4.1 c помощью диффузии создаёт изображения и видео по промптам на естественном языке. Слушатели смогли погрузиться в особенности архитектуры и принципы обучения модели. Особое внимание было уделено проблемам при сборе данных и оценке результатов.

💡 Как собирать данные для обучения LLM

Спикер раскрыл детали масштабного сбора данных: от типов датасетов и партнёрств между IT-компаниями до юридических тонкостей. Он также затронул метрики качества и роль data-инженеров в связке с ML-командами.

💡 Многоагентные системы в облаке Yandex Cloud

Представители Яндекс рассказали, почему 2025 — год агентов, и поделились опытом масштабирования архитектуры и создания AI-агентов с разной степенью гибкости.

Смотрите запись трансляций здесь ➡️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97🔥4
Хотели бы узнать, о чём думает ваш питомец? 🐾

Представьте, что вместо привычного «мяу, мяу» вы слышите: «Хозяин, корми!». Китайская компания Baidu подала патент на приложение, которое позволит «говорить» с домашними питомцами.

Как работает система?
🔘 Она собирает данные: звуки, движения, частоту сердцебиения и пульс животного
🔘 Эти данные проходят предварительную обработку, а после объединяются в один датасет
🔘 Затем AI-модуль анализирует их, чтобы определить текущее эмоциональное состояние питомца
🔘 На финальном этапе система формулирует описание, которое будет понятно человеку


Если в приложение поступают данные, которые не совпадают ни с одной из известных ей эмоций, специалисты вручную маркируют такие случаи, дополняют обучающую выборку и вносят изменения в модель.

💡 В Baidu считают, что их разработка — это шаг к новому уровню общения с животными. Сегодняшние технологии, по их мнению, слишком ограничены. Одни считывают только голос, другие — движения. Но нет таких, которые были бы способны уловить всю палитру эмоций животных.

📆 Проект пока находится на стадии исследования, а одобрение патента может занять годы. Вы бы хотели поговорить с котом через нейросеть?

❤️ — Да, всегда было интересно, почему он орёт по утрам
💔 — Нет, я и так научился его понимать
Please open Telegram to view this post
VIEW IN TELEGRAM
22🤔6💔2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥21👏1
Мы уже писали о новом AI-редакторе Malvina в GigaChat. Он может восстановить старое фото и убрать людей с фона без полной перегенерации изображения. В основе редактора — диффузионный трансформер.

Григорий Алексеенко поделился особенностями подхода:

🔘 в чём преимущество диффузии перед авторегрессией, которая используется в аналогичных моделях
🔘 как Malvina сохраняет исходные параметры изображения (например, разрешение), и почему это не получается у GPT-4o Inpaint


❤️ — если ждёте продолжение рассказа о работе трансформера в Malvina
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍5🔥3🤔3
Исследования ДНК, новая модель для генерации видео и AI-инструменты для разработчиков — в нашем дайджесте 🤖

Модели

🖥 DeepMind представила модель AlphaGenome, которая распознаёт изменения в геноме человека и предсказывает их последствия. Модель принимает на вход длинную последовательность оснований ДНК — до 1 миллиона «букв», из которых состоит молекула. А затем прогнозирует свойства генов. Новая модель поможет исследовать генетические заболевания.

🖥 Midjourney выпустила свою первую модель для генерации видео — V1. Она создаёт четыре пятисекундных видео из одного изображения. V1 работает в двух режимах: автоматический и ручной. Во втором случае пользователь описывает текстовым промптом происходящее в кадре. Инструмент работает через Discord и доступен в веб-версии по базовой подписке.

🖥 Китайская компания MiniMax представила AI-модель M1 с открытым исходным кодом. По словам создателей, её обучение обошлось в 200 раз дешевле GPT-4о, а по производительности и качеству алгоритм не уступает топовым конкурентам. Подробности читайте в нашем посте.

Инструменты разработки

🖥 Anthropic добавила новую функцию в Claude AI, которая позволяет создавать программы на базе искусственного интеллекта. Результаты можно увидеть сразу в чат-боте. Обновление основано на функции Anthropic Artifacts, представленной в прошлом году.

🖥 Google выпустила Gemini CLI — AI-инструмент для командной строки с открытым исходным кодом. Он подключает модель Gemini AI к локальным кодовым базам и позволяет разработчикам делать запросы на естественном языке. Можно попросить Gemini CLI написать новые функции, запустить команду или отладить код.

🖥 Сбер представил GigaStudio — инструмент для создания веб-приложений по текстовым запросам. Он позволит разработчикам быстрее запускать MVP, а cпециалистам без опыта в программировании — создавать приложения самостоятельно. Подробнее — в нашем посте.

❤️ — если готовы доверить AI разработку приложений
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥6💯3👍1
Как измерить творческий потенциал AI 🚀

Специалисты Сбера представили POLLUX — первый бенчмарк для оценки творческих способностей LLMs на русском. Это первый тест, направленный не на решение экзаменационных задач с фиксированным ответом, а на оценку открытой генерации текста.

Что проверяет POLLUX?

🔘 Умение адаптироваться к разным творческим задачам
🔘 Работу со стилями и жанрами
🔘 Способность давать нестандартные ответы

Авторы также предложили типологию и критерии для интерпретируемой оценки. Теперь «креативность» AI можно измерить!

Внутри:
🔘 2 100 уникальных задач 152 типов: от художественного письма до код-ревью
🔘 11 500 ответов от 7 моделей (GPT-4o, Claude 3.5, GigaChat MAX и др.), по которым обучали систему
🔘 471 000 экспертных оценок по 66 критериям: смысл, стиль, структура, ошибки, терминология
🔘 4 модели LLM-as-a-Judge (модели-судьи, анализирующие ответы других моделей), обученные объяснять свои оценки


💡 Тесты показали, что даже самые продвинутые LLM вроде ChatGPT допускают ошибки, когда нужно общаться от лица персонажа или писать на нестандартную тему. Они не попадают в тон, звучат сухо или неубедительно. POLLUX это отслеживает и показывает, где модель теряет стиль. Сравнение 7 ведущих языковых моделей и демо-версию POLLUX можно посмотреть платформе LLM Arena.

➡️ Подробности читайте на Хабре, а сам бенчмарк доступен на GitHub.

Будете использовать POLLUX в своих проектах?

👍 — Да, однозначно
🤔 — А креативность шуток он оценивает?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔8👍65
This media is not supported in your browser
VIEW IN TELEGRAM
3👍2🔥1
Продолжаем рассказ об AI-редакторе Malvina

🔘 Какая архитектура у модели?
🔘 Сколько экспертов работают в MoE Transformer Adapter?
🔘 И за счёт чего Malvina восстанавливает старые изображения?


Обо всём этом — во второй части интервью с Григорием Алексеенко

❤️ — если понравился такой формат
Please open Telegram to view this post
VIEW IN TELEGRAM
11👏3👍2
Легче, быстрее, дешевле ⚡️

Учёные из Университета Бар-Илан разработали метод «обрезки» (pruning) нейросетей без потери качества. Новый подход AFCC (Applied Filter’s Cluster Connections) анализирует отдельные параметры модели и выявляет те, что действительно важны для обучения. Остальные элементы, не влияющие на результат, удаляет. Это позволяет сократить число параметров на отдельных слоях до 90% без ухудшения производительности.

Тесты показали, что «облегчённые» модели:
🔘 быстрее обучаются и работают
🔘 экономят электроэнергию
🔘 требуют меньшего объёма памяти и вычислительной мощности, чем исходные


⚠️ Пока метод тестировался только на архитектурах VGG-11 и EfficientNet-B0, обученных на датасете CIFAR-100. Для других решений его эффективность ещё предстоит изучить.

Стоит отметить, что для внедрения таких моделей требуется глубокий анализ в каждом конкретном случае. Поэтому не ясно, удобно ли будет применять подход для массового внедрения. Однако потенциал у подобных методов большой — в будущем они смогут революционизировать индустрию AI и, возможно, позволят запускать топовые модели даже на смартфонах.

Как думаете, станет ли «обрезка» стандартной практикой при запуске моделей в продакшн?

🔥 — Да, это повысит спрос на такие модели
🤔 — Нет, все параметры могут пригодиться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16🤔82