Sber AI – Telegram

Sber AI

6.51K subscribers

2.16K photos

578 videos

1 file

1.95K links

AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!

Download Telegram

About

Blog

Apps

Platform

6.51K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

На ПМЭФ представили режим «Глубокое исследование» в GigaChat

👩‍🎓

Новая функция поможет с задачами, требующими основательного погружения. С помощью «Глубокого исследования» вы можете собирать информацию из надёжных источников, проводить аналитику по заданной теме и получать подробные отчёты.

Ранее для этого требовалось:

🔘 изучать десятки статей в интернете
🔘 отсеивать нерелевантные публикации
🔘 вручную структурировать материалы
⏱️ Итог: 2–3 часа при благоприятных условиях

Теперь процесс выглядит так:

🔘 открываете GigaChat
🔘 вводите запрос по интересующей теме
🔘 нажимаете на кнопку «Режим» → «Провести исследование» под полем ввода
🔘 выбираете тон: объективный, академический или другой
🔘 получаете подробный ответ с кратким содержанием статей и ссылками на первоисточники
⏱️ Итог: менее 5 минут на исследование

Пробуйте новый режим по ссылке, а тест смотрите в ролике ⬆️

💯 — поможет быстрее разобраться в сути

Please open Telegram to view this post

VIEW IN TELEGRAM

💯8👍3🔥2🤔2👏1

1.52K views12:30

О важности и роли AI в современном мире 📆

21 июня на ПМЭФ пройдут доклады в рамках международной конференции AI Journey. Поговорим о том, как эффективно применять AI, о передовых разработках учёных и почему GenAI — главный тренд этого года.

Программа докладов

🔘12:00–12:15 | Новые тренды в мире AI — Андрей Кузнецов, к.т.н., директор лаборатории FusionBrain, AIRI

🔘12:15–12:30 | AI для решения математических задач — Александр Гасников, ректор Университета Иннополис, руководитель лаборатории математических основ оптимизации, МФТИ

🔘12:30–12:45 | Мультиагентные системы. Прошлое, настоящее, будущее — Иван Кузьмин, директор департамента данных и рекомендательных систем B2C, Сбер

🔘12:45–13:00 | AI в автономном транспорте — Павел Савинков, технический директор, Navio

🔘13:00–13:15 | Рассуждения и планирования для воплощённого AI — Александр Панов, д.ф.-м.н., директор лаборатории «Когнитивные системы ИИ» Института AIRI, директор Центра когнитивного моделирования МФТИ

➡️ Старт в 12:00 по мск — подключайтесь

🖱

Будем вас ждать! 💻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤3🔥3💯1

1.5K viewsedited 08:11

1️⃣ Сбер анонсировал запуск международной платформы BRICS+ AI Success Hub. Это будет база кейсов по внедрению AI в различные отрасли экономики. Инициатива ускорит сотрудничество и обмен опытом между странами БРИКС. Партнёр — Глобальный альянс по AI при ЮНИДО.

2️⃣ «Школа 21» запустила лендинг-тренажёр для проверки навыков общения с нейросетями. Пользователи смогут потренироваться писать промпты для GigaChat, получат оценку качества запроса и советы по его улучшению. Протестировать можно по ссылке.

3️⃣ Сбер развернёт AI-платформу на базе Почты России. Компании протестируют сценарии применения GigaChat для улучшения обслуживания клиентов.

4️⃣ Администрация Санкт-Петербурга договорилась со Сбером о внедрении GigaChat в сервисы ЕИРЦ СПБ — платёжного агента по расчётам ЖКУ. Нейросеть будет помогать сотрудникам обрабатывать обращения граждан, а также готовить отчётность.

5️⃣ Lada Azimut станет первой моделью со встроенным голосовым ассистентом GigaChat. С его помощью можно будет совершать звонки, управлять музыкой, навигацией и парковочной системой без касаний экрана. Запуск серийного производства запланирован на 2026 год.

6️⃣ В GigaChat добавили режим «Глубокое исследование». Нейросеть научилась анализировать информацию из интернета и составлять подробные отчёты на любые темы. Теперь сбор данных из проверенных источников займёт всего пару минут.

В навигации по ПМЭФ вам поможет наш AI-помощник

🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍6🔥3

1.54K views11:01

Настоящее и будущее мультиагентных систем

🤖

На ПМЭФ прошла сессия AI Journey, где Иван Кузьмин рассказал, как мультиагентные системы (MAS) применяются в логистике, финансах и бизнесе для автоматизации сложных задач и снижения издержек. В будущем, отметил он, такие системы смогут гибко адаптироваться под конкретного пользователя или бизнес.

Смотрите запись доклада здесь

➡️

💯 — MAS — это следующая ступенька эволюции AI

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7💯4👏3🔥1

955 views10:25

21 июня на ПМЭФ прошла сессия AI Journey, на которой эксперты поделились взглядами на развитие искусственного интеллекта:

🔘

Александр Панов (AIRI, МФТИ) разобрал, как рассуждение и планирование взаимодействуют в системах воплощённого AI. Также он показал, как мультимодальные модели обучают роботов и мультиагентные системы.

🔘

Андрей Кузнецов (AIRI) рассказал про будущее мультимодальных моделей и возможности, которые открываются с развитием ризонинга. Сегодня такие модели уже умеют не только генерировать контент, но и учатся понимать физику реального мира.

🔘

Александр Гасников (МФТИ, Иннополис) рассказал, как рассуждающие модели применяются в образовании и учатся решать математические задачи. Он также отметил потенциал AI для развития образовательных AI-практик в будущем.

🔘

Иван Кузьмин (Сбер) объяснил эволюцию мультиагентных систем (MAS). Сегодня MAS активно используются в логистике, финансах и автоматизации. В будущем, с интеграцией ML, они смогут адаптироваться под каждого пользователя и решать более сложные задачи.

🔘

Павел Савинков (Navio) рассказал, как устроен автономный транспорт и почему команда Navio отказалась от жёстких алгоритмов в пользу обучаемых моделей, выбрала End-To-End подход и сделала VLA-модели с симулятором основой системы управления.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4👏4

1.15K views12:45

1️⃣ Ростелеком, Сбер и АвтоВАЗ договорились вместе разрабатывать ПО на основе AI для автомобилей, включая систему управления городским транспортом. В будущем ее планируют интегрировать с инфраструктурой умного города.

2️⃣ Сбер разрабатывает «Туристическую карту Санкт-Петербурга» на базе GigaChat. Она будет доступна всем гостям города. Приложение подскажет пользователям интересные места для посещения и поможет составить персональный маршрут. Пользователи также смогут найти в нём актуальную информацию об экскурсиях, транспорте, скидках на рестораны и отели.

3️⃣ Сбер внедрит AI в системы алмазодобывающей компании АЛРОСА. Технологии компьютерного зрения помогут автоматизировать добычу ископаемых, а LLM — оптимизировать документооборот. Также компании планируют обмен ML-технологиями и создание общих датасетов.

4️⃣ Сбер и Правительство Московской области собираются внедрить в Подмосковье цифровые медицинские сервисы на базе AI. В планах — создание технологии дистанционного мониторинга и интеграция AI-помощника в специальное приложение. Он будет расшифровывать анализы и объяснять пользователям результаты простым языком.

5️⃣

Прошла сессия AI Journey, где эксперты из Сбера, AIRI, МФТИ, Университета Иннополис и Navio обсудили будущее искусственного интеллекта. В центре внимания оказались генеративные модели, робототехника, автономный транспорт и развитие мультиагентных систем.

6️⃣ Сбер поддержит развитие космической отрасли. Среди AI-проектов — технология Multi-Image Super-Resolution для улучшения качества спутниковых снимков и ассистент на базе GigaChat, который будет помогать космонавтам на борту орбитальной станции.

7️⃣ В этом году пройдёт третья по счёту премия «Лидеры ИИ». Теперь участвовать можно с проектами на стадии MVP. Заявки принимаются в трёх категориях: «Компании», «Регионы» и «Учёные». Победителей объявят в ноябре на AI Journey 2025.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍6🔥4

1.32K views09:35

Станьте голосом big tech night 📆

12 сентября в Москве пройдёт ночь больших технологий — событие, организованное Сбером, Яндексом, X5, Т-Банком и Lamoda. IT-специалисты смогут посетить офисы компаний и узнать, как они создают свои продукты.

Мы набираем экспертов, готовых поделиться опытом и прочитать доклады 🏆

Одна площадка — один трек:

➡️ Сбер — Мультиагентные системы в продукте и бизнес-процессах
➡️ Яндекс — Next-Gen Development
➡️ X5 — Архитектура и управление сложными системами
➡️ Т-Банк — AI для SDLC: от кода до прода
➡️ Lamoda — Создание инфраструктуры для разработки и управление ей

🔥

Успейте подать заявку до 30 июня

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🔥3

1.2K views12:05

Обучение китайской нейросети обошлось в 200 раз дешевле, чем GPT-4o ⚠️

На днях китайский стартап MiniMax выпустил нейросеть MiniMax-M1 с открытым исходным кодом. Стоимость обучения новой модели оказалась значительно ниже популярных в мире чат-ботов. По словам разработчиков, алгоритм, лежащий в основе M1, не уступает продуктам OpenAI, Anthropic и DeepSeek по производительности и качеству.

Характеристики

🔘 Обучение обошлось всего в $534 700. Это в 200 раз дешевле, чем у GPT-4o
🔘 Поддержка 1 млн токенов контекста, как у Google Gemini 2.5 Pro
🔘 Для вывода 80 тысяч токенов требуется лишь 30% от мощности, которую на это затрачивает DeepSeek R1
🔘 Новый алгоритм обучения CISPO работает в 2 раза быстрее аналогов (DAPO от ByteDance и GRPO от DeepSeek)
🔘 API — $1,3 за ввод до 1 млн токенов (такого тарифа нет ни у одного из конкурентов)

💡 Возможно, запуск M1 подтолкнёт пользователей к переходу на более доступные модели. Как считаете, китайские стартапы вытеснят мировых лидеров?

💯 — Да
🤔 — Нет

Please open Telegram to view this post

VIEW IN TELEGRAM

💯26🤔15🔥3👍1

4.1K views16:30

Завтра стартует GigaConf 2025 ⭐

25 июня в Москве на Хлебозаводе №9 пройдёт одна из главных AI-конференций этого лета. Более 2 000 участников — разработчиков, ML-инженеров, DevOps-специалистов и продуктологов — соберутся в Москве, чтобы обсудить возможности генеративного AI.

В программе четыре параллельных трека:

🔘 GenAI для бизнеса
🔘 AI-Enhanced DevTools & DevOps
🔘 Разработка моделей GenAI
🔘 Cloud AI Architecture

📆 Среди приглашённых гостей — эксперты из Сбера, Cloud.ru, X5, WB, Авито и Альфа-Банка.

🎉 Помимо деловой части, участников ждут интерактивные и чилл-зоны, AI-фотобудка, DJ-сеты на крыше, розыгрыши призов.

Регистрируйтесь и присоединяйтесь к нам онлайн или офлайн

💻

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍5👏4

1.07K views09:05

This media is not supported in your browser

VIEW IN TELEGRAM

GigaAM: внутри GigaChat ⚙️

В прошлом посте мы рассказали, как обучали линейку открытых аудиомоделей GigaAM. Теперь поговорим о том, как эта модель интегрирована в GigaChat.

Звук поступает в энкодер GigaAM Max. В его основе — модель GigaAM-v2 на архитектуре Conformer. Она считывает и звуковые паттерны, и контекст речи. Чтобы аудиомодель могла «общаться» с языковой моделью GigaChat, между ними используется специальный адаптер. Он состоит из двух частей:

🔘 subsampler — модуль без параметров, который сжимает длину аудио в 4 раза, объединяя соседние фрагменты. Это помогает экономить память и облегчает работу с длинными записями
🔘 projector — модуль, который преобразует аудиопризнаки в представление, понятное языковой модели. Для этого используется простая линейная проекция. Она оказалась эффективнее сложных архитектур. При этом основную работу по извлечению признаков выполняет энкодер

💡 Понимание аудиозапросов и генерация ответов реализуются через метод LoRA (Low-Rank Adaptation). Его компоненты встраиваются в ключевые части модели — в слои внимания и блоки обработки текста (FFN) — и позволяют быстро адаптировать поведение модели к новым задачам, не затрагивая всю систему целиком.

🔄 Чтобы эффективнее работать с длинными аудиозаписями, двумерные свёрточные слои заменили на более лёгкие — одномерные. Нагрузка на память снизилась в 10 раз. Благодаря этому модель теперь обрабатывает многочасовые записи быстро и без потери качества.

➡️ Читайте технические подробности в посте канала разработчиков или на Хабре. А задать свой вопрос голосом можно в боте

✉️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5🔥2

1.07K views13:45

GigaStudio сделает приложение за вас 🤖

На GigaConf 2025 представили GigaStudio — инструмент для создания веб-приложений по текстовым запросам:

1️⃣ вы описываете задачу в чате с AI
2️⃣ нейросеть создаёт решение за пару минут

Благодаря интеграции с GitVerse пользователям доступна работа с репозиториями и профессиональными инструментами. Специалисты без опыта в программировании смогут запускать приложения самостоятельно, а разработчики — экономить часы на создании MVP.

Параллельно GitVerse получила крупное обновление:

🔘 доступна сборка проектов в облаке для всех репозиториев, включая приватные
🔘 увеличено время на сборку приложений в CI/CD
🔘 улучшена поддержка Data Science: можно просматривать Jupyter Notebooks, больше места для хранения датасетов
🔘 запущен обновлённый публичный API GitVerse
🔘 добавлена приоритизация задач и улучшено управление проектами в таск-трекере

🖱

Запишитесь, чтобы получить ранний доступ, и попробуйте одними из первых.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥5👏2❤1

1.1K views12:10

Ранее мы собрали в одном посте все типы языковых моделей. Сегодня остановимся на рассуждающих моделях и расскажем, как их учат думать.

✍️

Как устроено «мышление»

Стандартные языковые модели пытаются предсказать, какое слово с наибольшей вероятностью должно быть дальше в тексте — почти как система Т9 в мобильном телефоне.

Рассуждающая модель не играет в «угадайку». Она разбивает задачу на этапы и логически переходит от одного шага к другому, генерируя цепочку «мыслей» перед финальным ответом. Модель может ветвить пути рассуждений и выбирать наиболее правдоподобный. А чтобы она пользовалась актуальными и точными данными, разработчики закладывают в неё возможность доступа к внешним источникам информации: базам данных, справочникам, калькуляторам, календарям, веб-поисковикам. К рассуждающим моделям относятся GigaChat 2.0, GPT-4.5, Gemini 2.5, Claude 3.7 Sonnet.

5️⃣

Обучение

Рассуждающие модели обучают на задачах, где размечена логика рассуждения — например, на школьной арифметике.

В обучающие примеры добавляют шаблоны-подсказки, которые направляют мышление: «Давай подумаем шаг за шагом», «Во-первых…, во-вторых…, наконец…». Кстати, такие подсказки могут использовать пользователи в своих промптах, чтобы ответы были точнее.

Модель следует принципу самосогласованности (self-consistency). Ей показывают примеры рассуждений и повторяют один и тот же запрос, чтобы модель сгенерировала несколько ответов. Затем она выбирает самый частый или обоснованный вариант, а человек или модель-ассистент оценивают качество ответа.

Плюсы
🔘 Отвечают на сложные запросы
🔘 Дают возможность проследить ход рассуждений модели

Минусы
🔘 Пошаговое рассуждение создаёт больше текста, а значит, требует больше вычислительных ресурсов. Поэтому ответ генерируется медленнее
🔘 С виду логичная цепочка может вести к ошибочному выводу

❤️ — если любите смотреть, как рассуждает модель в ответ на запрос

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍3🔥2

909 views10:05

25 июня прошла конференция GigaConf, где ведущие AI-эксперты обсудили настоящее и будущее индустрии. В каком направлении развиваются генеративные модели и как они превращаются из исполнителей в агентов? Собрали для вас главные доклады 👇

💡

Deep Reasoning: как научить LLM думать и действовать

Эксперты Сбера рассказали, как GigaChat 2.0 научился рассуждать и решать сложные задачи. Вместе со слушателями они обсудили, как модель подключает внешние источники информации, чтобы давать точные и полные ответы.

💡

От генеративного AI к интерактивному

В этом докладе речь шла о переходе индустрии от моделей-исполнителей узких задач к агентам, способным рассуждать и применять знания в различных областях. Эксперт рассказал, как можно предсказывать поведение модели, и дал прогноз будущего AI-индустрии. Особое внимание он уделил оптимальному использованию вычислительных ресурсов, благодаря которому можно сделать ответы точнее.

💡

Автономная кибербезопасность

В докладе рассмотрен сценарий, где AI защищает инфраструктуру почти без участия человека. А также поднимается вопрос о том, где роль человека по-прежнему критична, а где уже можно передать управление алгоритмам.

💡

Генерация изображений и видео: Kandinsky 4.1

Доклад посвящён тому, как генеративная модель Kandinsky 4.1 c помощью диффузии создаёт изображения и видео по промптам на естественном языке. Слушатели смогли погрузиться в особенности архитектуры и принципы обучения модели. Особое внимание было уделено проблемам при сборе данных и оценке результатов.

💡

Как собирать данные для обучения LLM

Спикер раскрыл детали масштабного сбора данных: от типов датасетов и партнёрств между IT-компаниями до юридических тонкостей. Он также затронул метрики качества и роль data-инженеров в связке с ML-командами.

💡

Многоагентные системы в облаке Yandex Cloud

Представители Яндекс рассказали, почему 2025 — год агентов, и поделились опытом масштабирования архитектуры и создания AI-агентов с разной степенью гибкости.

Смотрите запись трансляций здесь

➡️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤7🔥4

1.01K viewsedited 15:05

Хотели бы узнать, о чём думает ваш питомец? 🐾

Представьте, что вместо привычного «мяу, мяу» вы слышите: «Хозяин, корми!». Китайская компания Baidu подала патент на приложение, которое позволит «говорить» с домашними питомцами.

Как работает система?

🔘 Она собирает данные: звуки, движения, частоту сердцебиения и пульс животного
🔘 Эти данные проходят предварительную обработку, а после объединяются в один датасет
🔘 Затем AI-модуль анализирует их, чтобы определить текущее эмоциональное состояние питомца
🔘 На финальном этапе система формулирует описание, которое будет понятно человеку

Если в приложение поступают данные, которые не совпадают ни с одной из известных ей эмоций, специалисты вручную маркируют такие случаи, дополняют обучающую выборку и вносят изменения в модель.

💡 В Baidu считают, что их разработка — это шаг к новому уровню общения с животными. Сегодняшние технологии, по их мнению, слишком ограничены. Одни считывают только голос, другие — движения. Но нет таких, которые были бы способны уловить всю палитру эмоций животных.

📆 Проект пока находится на стадии исследования, а одобрение патента может занять годы. Вы бы хотели поговорить с котом через нейросеть?

❤️ — Да, всегда было интересно, почему он орёт по утрам
💔 — Нет, я и так научился его понимать

Please open Telegram to view this post

VIEW IN TELEGRAM

❤22🤔6💔2

1.64K views08:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:50

999 views13:01

🔥2❤1👏1

Мы уже писали о новом AI-редакторе Malvina в GigaChat. Он может восстановить старое фото и убрать людей с фона без полной перегенерации изображения. В основе редактора — диффузионный трансформер.

Григорий Алексеенко поделился особенностями подхода:

🔘 в чём преимущество диффузии перед авторегрессией, которая используется в аналогичных моделях
🔘 как Malvina сохраняет исходные параметры изображения (например, разрешение), и почему это не получается у GPT-4o Inpaint

❤️ — если ждёте продолжение рассказа о работе трансформера в Malvina

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍5🔥3🤔3

1.06K viewsedited 13:01

Исследования ДНК, новая модель для генерации видео и AI-инструменты для разработчиков — в нашем дайджесте 🤖

Модели

🖥

DeepMind представила модель AlphaGenome, которая распознаёт изменения в геноме человека и предсказывает их последствия. Модель принимает на вход длинную последовательность оснований ДНК — до 1 миллиона «букв», из которых состоит молекула. А затем прогнозирует свойства генов. Новая модель поможет исследовать генетические заболевания.

🖥

Midjourney выпустила свою первую модель для генерации видео — V1. Она создаёт четыре пятисекундных видео из одного изображения. V1 работает в двух режимах: автоматический и ручной. Во втором случае пользователь описывает текстовым промптом происходящее в кадре. Инструмент работает через Discord и доступен в веб-версии по базовой подписке.

🖥

Китайская компания MiniMax представила AI-модель M1 с открытым исходным кодом. По словам создателей, её обучение обошлось в 200 раз дешевле GPT-4о, а по производительности и качеству алгоритм не уступает топовым конкурентам. Подробности читайте в нашем посте.

Инструменты разработки

🖥

Anthropic добавила новую функцию в Claude AI, которая позволяет создавать программы на базе искусственного интеллекта. Результаты можно увидеть сразу в чат-боте. Обновление основано на функции Anthropic Artifacts, представленной в прошлом году.

🖥

Google выпустила Gemini CLI — AI-инструмент для командной строки с открытым исходным кодом. Он подключает модель Gemini AI к локальным кодовым базам и позволяет разработчикам делать запросы на естественном языке. Можно попросить Gemini CLI написать новые функции, запустить команду или отладить код.

🖥

Сбер представил GigaStudio — инструмент для создания веб-приложений по текстовым запросам. Он позволит разработчикам быстрее запускать MVP, а cпециалистам без опыта в программировании — создавать приложения самостоятельно. Подробнее — в нашем посте.

❤️ — если готовы доверить AI разработку приложений

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥6💯3👍1

1.1K views08:20

Как измерить творческий потенциал AI 🚀

Специалисты Сбера представили POLLUX — первый бенчмарк для оценки творческих способностей LLMs на русском. Это первый тест, направленный не на решение экзаменационных задач с фиксированным ответом, а на оценку открытой генерации текста.

Что проверяет POLLUX?

🔘 Умение адаптироваться к разным творческим задачам
🔘 Работу со стилями и жанрами
🔘 Способность давать нестандартные ответы

Авторы также предложили типологию и критерии для интерпретируемой оценки. Теперь «креативность» AI можно измерить!

Внутри:

🔘 2 100 уникальных задач 152 типов: от художественного письма до код-ревью
🔘 11 500 ответов от 7 моделей (GPT-4o, Claude 3.5, GigaChat MAX и др.), по которым обучали систему
🔘 471 000 экспертных оценок по 66 критериям: смысл, стиль, структура, ошибки, терминология
🔘 4 модели LLM-as-a-Judge (модели-судьи, анализирующие ответы других моделей), обученные объяснять свои оценки

💡 Тесты показали, что даже самые продвинутые LLM вроде ChatGPT допускают ошибки, когда нужно общаться от лица персонажа или писать на нестандартную тему. Они не попадают в тон, звучат сухо или неубедительно. POLLUX это отслеживает и показывает, где модель теряет стиль. Сравнение 7 ведущих языковых моделей и демо-версию POLLUX можно посмотреть платформе LLM Arena.

➡️ Подробности читайте на Хабре, а сам бенчмарк доступен на GitHub.

Будете использовать POLLUX в своих проектах?

👍 — Да, однозначно
🤔 — А креативность шуток он оценивает?

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔8👍6❤5

1.32K views14:15

This media is not supported in your browser

VIEW IN TELEGRAM

0:57

1.16K views14:20

❤3👍2🔥1

Продолжаем рассказ об AI-редакторе Malvina

🔘 Какая архитектура у модели?
🔘 Сколько экспертов работают в MoE Transformer Adapter?
🔘 И за счёт чего Malvina восстанавливает старые изображения?

Обо всём этом — во второй части интервью с Григорием Алексеенко

❤️ — если понравился такой формат

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👏3👍2

1.07K views14:20

Легче, быстрее, дешевле

⚡️

Учёные из Университета Бар-Илан разработали метод «обрезки» (pruning) нейросетей без потери качества. Новый подход AFCC (Applied Filter’s Cluster Connections) анализирует отдельные параметры модели и выявляет те, что действительно важны для обучения. Остальные элементы, не влияющие на результат, удаляет. Это позволяет сократить число параметров на отдельных слоях до 90% без ухудшения производительности.

Тесты показали, что «облегчённые» модели:

🔘 быстрее обучаются и работают
🔘 экономят электроэнергию
🔘 требуют меньшего объёма памяти и вычислительной мощности, чем исходные

⚠️ Пока метод тестировался только на архитектурах VGG-11 и EfficientNet-B0, обученных на датасете CIFAR-100. Для других решений его эффективность ещё предстоит изучить.

Стоит отметить, что для внедрения таких моделей требуется глубокий анализ в каждом конкретном случае. Поэтому не ясно, удобно ли будет применять подход для массового внедрения. Однако потенциал у подобных методов большой — в будущем они смогут революционизировать индустрию AI и, возможно, позволят запускать топовые модели даже на смартфонах.

Как думаете, станет ли «обрезка» стандартной практикой при запуске моделей в продакшн?

🔥 — Да, это повысит спрос на такие модели
🤔 — Нет, все параметры могут пригодиться

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16🤔8❤2

1.17K views11:50