Sber AI
6.53K subscribers
2.16K photos
577 videos
1 file
1.95K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
AI-агент GigaCode избавит разработчиков от рутины 🔝

На конференции ЦИПР-2025 СберТех представил нового AI-агента GigaCode для рецензирования кода. Он сократит время на рутинную проверку, упростит исправление багов и позволит разработчикам сосредоточиться на более сложных задачах.

Агент работает на базе одноимённого AI-ассистента для разработчиков, который генерирует код и предлагает правки.

🔘 Что умеет агент:

🔘автоматически анализирует изменения в коде
🔘ищет ошибки и уязвимости
🔘даёт советы по оптимизации
🔘объясняет правки в режиме диалога


Инструмент бесплатный для всех пользователей GitVerse.

➡️ Попробуйте новые возможности GigaCode
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи научили нейросети точно редактировать геометрию 3D-моделей 🤖

Недавно мы рассказывали, как диффузионные модели генерируют качественные объекты. Бывает сложно получить две 3D-фигурки с одинаковой позой или отредактировать лишь часть объекта. Исследователи AIRI, Сколтеха, KAUST, Medida AI и AI Foundation and Algorithm Lab предложили метод A3D, который решает эту проблему.

Как работает метод A3D?

💚 Допустим, пользователь хочет сгенерировать бегущих человека и робота с одинаковым положением конечностей. Скорее всего, нейросеть не сможет в точности повторить позу, поэтому сгенерированный робот будет бежать на четвереньках, а человек — на двух ногах. Чтобы добиться одинаковых поз, нужно обучить нейросеть правильно создавать переходные формы — так, чтобы один объект плавно превращался в другой.

Каждой такой форме ставится вектор этого класса. Например, если робот — это 0, а человек — 1, то их гибриды — это промежуточные значения между 0 и 1. Они вычисляются с помощью интерполяции. Затем модель обучается генерировать не только крайние точки, но и саму траекторию перехода из одного объекта в другой. Это позволяет получить объекты с одинаковым расположением частей.


Как обучают такие модели?

💚 В основе обучения лежит метод, который называется Score Distillation Sampling. Модель-ученик генерирует объект. А «учитель» оценивает, насколько результат соответствует текстовому промпту, и предлагает правки.
Идея метода в том, чтобы рендеры (2D-изображения объекта с разных ракурсов) 3D-генератора соответствовали распределению, которое генерирует диффузионная модель для заданного промпта:

1. Создаём рендер объекта c помощью 3D-генератора
2. «Зашумляем» полученное изображение
3. 2D-диффузионная модель пытается угадать по промпту, какой шум мы добавили, и «расшумляет» картинку
4. Считаем диффузионный лосс: сравниваем шум, который мы изначально добавили, и шум, предсказанный 2D-моделью


Правки модели-учителя выражаются в виде градиента — направления, в котором нужно изменить объект. Далее для коррекции выровненных объектов дополнительно используется интерполяция во время обучения модели. То есть 3D-генератор дополнительно на вход получает латентный вектор, указывающий на класс объекта для генерации, а диффузионный лосс учитывает интерполяцию между промптами. Именно за счёт этого плавного перехода во время обучения и достигается итоговое выравнивание геометрии и позы нового объекта.

Чем полезен A3D?

💚 Метод позволяет:
🔘Редактировать загруженный пользователем готовый меш — виртуальный каркас объекта
🔘Менять части объектов в парной генерации. Например, создать одинаково сидящих обезьян, одна из которых — в шапке
🔘Комбинировать объекты — сделать гибрид бобра и кенгуру

Эти возможности пригодятся мультипликаторам и гейм-дизайнерам, которым нужно создавать много похожих объектов.
На странице проекта вы можете поиграть с переходами 3D-объектов, а по этой ссылкепрочитать статью полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏32
Учёные создали «Периодическую AI-таблицу» 🤖

Исследователи из Массачусетского технологического института представили таблицу, которая показывает возможные комбинации между классическими алгоритмами машинного обучения.

В чём суть

🔘 В её основе — фреймворк I-Con, описывающий через единое уравнение, как разные алгоритмы выявляют взаимосвязи между данными
🔘 Он объединяет более 20 методов: от PCA и t-SNE до современных подходов Contrastive Learning
🔘 Таблица позволяет классифицировать и сопоставлять подходы к обучению


💡 Система облегчает подбор алгоритмов под конкретные задачи. Она также указывает на возможные архитектуры, подобно тому, как таблица Менделеева помогала предсказывать существование ещё не открытых элементов.

🔥 — и вам приснятся ещё не открытые алгоритмы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AI, у которого русский — родной

Продолжаем рассказывать про аудиомодальность — способность нейросетей работать со звуком. Многие модели плохо распознают русский язык, так как его не использовали при обучении или он не был приоритетным. Специально для обработки русской речи в Сбере разработали GigaAM — семейство моделей с открытым исходным кодом.

🤖 GigaAM — это базовая модель. У неё есть версии, точно настроенные под конкретные задачи: GigaAM-CTC и GigaAM-RNNT распознают речь, а GigaAM-Emo определяет эмоции.

Как обучали GigaAM

В основе — подход Self-Supervised Learning. Модель предварительно обучалась выявлять в речи общие закономерности на неразмеченных данных. А затем разработчики дообучали модель на датасете, размеченном специально для распознавания речи и эмоций.

💳 В предобучении GigaAM разработчики использовали новый подход HuBERT-CTC, про который подробно рассказали в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.

💳 Для дообучения GigaAM-CTC использовались корпуса аудиозаписей Golos, Sova, CommonVoice и LibriSpeech. Они состоят из аудиокниг и записей живой речи.

💳 GigaAM-Emo дообучали на наборе Dusha — фрагментах подкастов и записях речи актёров озвучки продолжительностью до 20 секунд. Каждой записи приписали одно из четырёх состояний: злость, грусть, нейтральную эмоцию или счастье.

Что умеют эти модели

🔘 GigaAM-CTC на 50% точнее Whisper-Large-v3

🔘 GigaAM-Emo правильно определяет эмоции в 90% случаев, если запись хорошего качества. С шумными записями точность ниже, но показатели всё равно лучше, чем у аналогичных моделей


GigaAM можно использовать в системах голосового ввода, чат-ботах и ассистентах, автоматических расшифровщиках, при анализе разговоров в колл-центрах. Модель распространяется по лицензии MIT.

➡️ Узнать подробности можно на GitHub.
➡️ Улучшенную версию GigaAM можно попробовать в Telegram-боте SaluteSpeech. А если вы развиваете свой бизнес-проект, рекомендуем ознакомиться с SaluteSpeech API.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥3👏3
Blip3-o: модель, рисующая смыслами 🏆

Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.

BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»
2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение
3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку


В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.

🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.

🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.

⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.

➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2🤔2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡

Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.

Golos и Dusha

💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.

Национальный корпус русского языка

✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.

Slovo

💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.

∇²DFT

👨‍💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.

Skoltech3D

💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.

Museum exhibits dataset

⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.

MosMedData Chest CT Scans

🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.

❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
12👏6💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Odyssey: нейросеть для создания 3D-миров 🎮

Стартап Odyssey представил нейросеть, которая превращает видео в интерактивные 3D-миры и позволяет с ними взаимодействовать. Как в игре, но без движка 🔥

В основе — авторегрессионная модель (World Models), которая:
🔘 считывает текущее состояние сцены
🔘 учитывает действия пользователя (шаг, поворот)
🔘 предсказывает на их основе следующий кадр
🔘 достраивает сцену в реальном времени


🔘 По словам разработчиков, Odyssey стабильно генерирует пять минут видео с частотой до 30 кадров в секунду. Сейчас качество генераций пока оставляет желать лучшего. Но, несмотря на это, разработка уже открывает путь к фильмам и играм нового типа, в которых миры будут формироваться по ходу действия. Это означает, что каждый просмотр или сессия в игре будут уникальными.

➡️ Попробовать демо (на стрелочки нажимайте мышкой 😉)

💯 — если ждёте релиз, чтобы погулять по своим видео с отпуска
Please open Telegram to view this post
VIEW IN TELEGRAM
💯96🔥3
Сегодня у Kandinsky день рождения — нейрохудожнику исполняется 3 года 🎉

В честь праздника мы предложили ему нарисовать картину в стиле Василия Кандинского. Сможете ли вы отличить AI-художника от настоящего?

Правильный ответ 👇

Сверху — «Композиция VII», написанная Василием Кандинским в 1913. Снизу — «Генерация №866», созданная Kandinsky в 2025.

Угадали?
❤️ — да
🤔 — нет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21🤔6
Самая дорогая модель OpenAI и браузер от Perplexity — в нашем дайджесте 🤖

➡️ OpenAI выпустила ChatGPT o3-Pro — самую дорогую версию в линейке. Это продвинутая рассуждающая модель для решения задач в науке, образовании, программировании и бизнесе. Стоимость доступа к o3-pro через API — $20 за 1 млн входных токенов и $80 за 1 млн выходных. В тестах превзошла Gemini 2.5 Pro — самую топовую версию AI от Google.

➡️ Google добавила в Gemini поддержку запланированных задач. Теперь подписчики AI Pro и Ultra могут поручать ассистенту работу с расписанием, например, каждый вечер получать сводку из новостей. Или разово — попросить составить ревью прошедшего события, рабочий план на понедельник.

➡️ Mistral AI представила Magistral — модель, которая работает по принципу логического мышления. Нейросеть решает задачи по праву, финансам и медицине, показывая каждый свой шаг. Это помогает не только получить ответ, но и проследить за ходом рассуждений модели.

➡️ Perplexity запускает Comet — AI-браузер нового поколения. Он не просто ищет ссылки, а ведёт диалог: уточняет запросы, сам анализирует источники и выдаёт готовый ответ — всё в окне браузера, без сторонних сервисов.

👍 — жду AI-браузеры с умным поиском
💯 — старый добрый гуглинг всё ещё рулит
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13💯2
На Международной сессии AI Journey расскажут про последние тренды GenAI 🚀

16 июня в петербургском Технохабе Сбера обсудим главные тренды генеративного AI вместе с экспертами международной сессии AI Journey. В программе — доклады о развитии AI-агентов, технологических прорывах и применении нейросетей в бизнесе, медицине и госуправлении, а также на площадке Технохаба пройдет форсайт-сессия.

Программа докладов

🔘Перспективы архитектуры LLM следующего поколения — Хоу Хаовен, доцент Гуандунской лаборатории искусственного интеллекта и цифровой экономики, Шэньчжэнь

🔘GigaChat и будущее русскоязычного искусственного интеллекта — Эмиль Шакиров, руководитель Alignment в GigaChat, Сбер

🔘Тренды в рекомендательных системах: технологии, которые понимают людей — Иван Кузьмин, директор департамента данных и рекомендательных систем B2C, Сбер

🔘Новый тренд: ИИ агенты — активная медицина данных — Виктор Гомболевский, кандидат медицинских наук, ведущий научный сотрудник Института AIRI

🔘Усовершенствованные интерфейсы мозг-компьютер с GenAI для моделирования когнитивных состояний и коммуникации — Субрамани Нилакандан, профессор-исследователь лаборатории интеллектуальных нейрокогнитивных знаний и анализа данных SNKDIR, Инженерный колледж имени Р.М.К., Индия


➡️ Подключайтесь онлайн завтра в 10.00 по мск.

Мы ждём вас 💚
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
RPT: новый подход к обучению LLM 🤖

Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.

Обычно LLM обучают в два этапа
1️⃣ Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов
2️⃣ Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов


У этого подхода есть недостатки:
🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен.
🔘 второй этап требует трудозатратной ручной разметки.

➡️ Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами.

⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.

💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?

💯 — за RPT будущее
👍 — классическое обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
💯9🤔74👍3👏1
Разбираем по полочкам мультимодальные LLM 🤖

В прошлом посте мы рассказали про основные виды языковых моделей. В этом — раскроем принципы работы и устройства диалоговых и мультимодальных систем.

В карточках — как они устроены и где применяются ⬆️

👍 — если за LLM будущее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤔2🔥1