Sber AI

Модели, которые «слышат»

🎧

Открываем серию постов про аудиомодальность — рассказываем, как AI учится понимать звук и зачем это нужно.

Что такое аудиомодальность?
👂 Речь, музыка, звуки окружающей среды — всё это можно анализировать или синтезировать с помощью нейросетей. Способность моделей работать со звуком как с основным типом входных данных называется аудиомодальностью. Такие модели предсказывают, каким фонемам (звукам в языке), целым словам или предложениям соответствуют те или иные акустические волны. Помните, в школе были разборы [сАстава] слов по звукам речи?

5️⃣

Особенности обучения:
🔘Гигантские корпуса аудио, размеченных точными транскрипциями
🔘Нормализация и очистка звука от шумов

Для обработки и распознавания звука есть разные архитектуры, которые могут комбинироваться:

HMM (Hidden Markov Models)
🎤Классический метод. Делит звук на маленькие отрезки и определяет, какой фонеме они соответствуют. Хорошо работает для стабильной, чёткой речи.

DNN (Deep Neural Networks)
🎤Современные нейросети, которые лучше справляются с реальными условиями: шумом, акцентами, быстрой речью. DNN можно встроить в систему вместо HMM или использовать в связке с другой архитектурой: DNN предсказывает признаки, а HMM собирает их в последовательность.

End-to-End архитектуры
🎤Новый подход: модель сразу учится превращать звук в текст, минуя этапы фонем и ручного выделения признаков. Вместо того чтобы по частям анализировать звук, она «слушает» всё целиком и учится понимать на примерах. Часто основана на трансформерах или seq2seq-моделях.

✅

Как применяются?

🔘

Речь → Текст: голосовые помощники, расшифровка интервью, звонков, заседаний

🔘

Текст → Речь: озвучка книг и интерфейсов, генерация аудио для людей с нарушениями речи, локализация контента (автоперевод и озвучка голосом)

🔘

Анализ речи: диагностика заболеваний или определение эмоций клиента по голосу, оценка речевых навыков в приложениях для изучения языков

В следующих постах мы расскажем про класс открытых моделей для обработки звучащей речи GigaAm

🎵

Пользовались аудиомодальными сервисами?
💯 — по работе
👍 — для развлечения
🤔 — что-то новенькое для меня

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7💯4❤1🔥1

999 views12:50

Sber AI

AI в медицине: точность, значимость, будущее🫀

27 мая в офисе AIRI в Сити обсудим, как искусственный интеллект открывает новые подходы в медицине и меняет представление о клинической аналитике.

📆 Лектор — Геннадий Коновалов, профессор, руководитель Центра диагностики и инновационных медицинских технологий
🔘 Модератор — Иван Оселедец, профессор РАН, гендиректор AIRI

Большой семинар AIRI — это возможность для учёных, врачей и инженеров обсудить инновационные идеи и создать решения для реальных задач.

➡️ Регистрация по ссылке. Трансляция пройдет в VK Видео и на YouTube.
Увидимся на семинаре

💚

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5👏1

1.27K views14:32

Sber AI

AI-инструменты, которые упростят жизнь разработчикам

⛺️

Найти текст в буфере обмена, составить конспект деловой встречи, поправить небольшой фрагмент кода — порой мелкие задачи занимают большую часть дня.

Собрали для вас AI-сервисы, которые помогут разгрузиться от рутины, чтобы вы могли создать что-нибудь великое 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤5🔥5

1.34K views08:01

Sber AI

Статью команды Sber-AI приняли на ведущую конференцию NAACL 2025

🎉

Исследователи из Сбера и AIRI представили RusCode — первый бенчмарк, оценивающий способность генеративных моделей подстроиться под российский культурный код в задачах text-to-image. Модель должна не просто рисовать «суп», а уметь отличить борщ от окрошки, узнавать Лермонтова по фуражке, а Пушкина по бакенбардам.

Что внутри:
🔘 1250 сложных текстовых описаний культурных объектов на русском и английском
🔘 19 категорий: от литературы и фольклора до мемов, автомобилей и научных открытий
🔘 Эталонные изображения для каждого промпта
🔘 Сравнительная оценка качества генерации у DALL·E 3, Stable Diffusion 3, Kandinsky 3.1, YandexART 2 от 48 независимых экспертов

📊

Вывод: большинство западных моделей «не считывают» российский визуальный код. Только модели, дообученные на русскоязычных данных, уверенно справляются.

🌏 Авторы поднимают важный вопрос: чтобы модели были по-настоящему универсальными, им нужно «понимать» культурный контекст запроса, а не только рисовать красиво. Благодаря появлению RusCode пользователи со всего мира смогут создавать более аутентичный контент в российском стиле.

Подробности по ссылкам:
🔗 ArXiv
🔗 GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🤔8❤5💯3👏2

5.1K views11:30

Sber AI

УзнавAI вместе со Сбером 🤖

2 июня стартует кампания региональных треков AI Journey — крупнейшей AI-конференции от Сбера. Лекции пройдут в Нижнем Новгороде, Петербурге, Владивостоке, Казани и центре «Сириус», а также в Технохабе Сбера.

Открывает серию сессия AI Journey на ЦИПР 2025 в Нижнем Новгороде — пять докладов от экспертов Сбера и AIRI о ключевых направлениях развития AI: от генеративных моделей и мультиагентных систем до прикладного AGI (Artificial general intelligence). Спикеры расскажут, как пользоваться AI-агентами и как внедрение AGI может повлиять на развитие индустрий, науку, социум и жизнь каждого человека.

Программа докладов:

🔘Generative AI 2025: тренды и применения — Денис Димитров, управляющий директор по исследованию данных, основатель и руководитель проекта Kandinsky

🔘Следующий шаг эволюции AI: мультиагентные системы на базе LLM — Руслан Исрафилов, исполнительный директор по исследованию данных дивизиона развития рекомендательных систем Сбера

🔘От LLM-агентов к практичному AGI: передний край исследований и человекоцентричный подход — Сергей Марков, управляющий директор

🔘На пути к прикладному AGI — Иван Оселедец, генеральный директор Института AIRI

🔘Насколько AGI нужен людям? — Александр Крайнов, директор по развитию технологий AI Яндекса

➡️ Подключайтесь онлайн

Мы ждём вас 💚

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7👏5❤3

1.03K viewsedited 13:25

Sber AI

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Data Fest’25 в гостях у Сбера — уже завтра!

До главного события сообщества Open Data Science осталось совсем немного ✅

Доклады о трендах в AI от топовых экспертов, нетворкинг и игры на развитие soft skills — в штаб-квартире Сбера в Москве на Кутузовском проспекте.

Если не успели зарегистрироваться, чтобы прийти лично, можете посмотреть выступления онлайн. Прямая трансляция будет доступна по этим ссылкам:

➡️

Main Stage

➡️

AI Disrupt Stage

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

972 views13:05

Sber AI

В GigaChat появился генеративный фоторедактор 🤖

Новая функция позволяет изменять изображение по текстовому описанию. В её основе Malvina — диффузионная модель и GigaChat Vision, обеспечивающие локальное попиксельное редактирование без искажения исходного изображения.

Добавлены возможности:

⚫️ Удаление объектов и дефектов (люди, провода, искажения, шум)
⚫️ Замена фона, интеграция новых объектов и деталей
⚫️ Восстановление и раскрашивание старых или повреждённых фотографий
⚫️ Изменение внешности (причёска, макияж, аксессуары)
⚫️ Цветокоррекция и стилистическая обработка изображений

🖥 Для обучения использовано более 11 млн изображений: сначала pretrain на 10 млн, затем тонкая настройка на 1,4 млн.

⚡️ В сравнении с Gemini, модель продемонстрировала более высокую точность и естественность при редактировании, особенно при изменении стиля, фона и мелких деталей.
В side-by-side тестах с участием людей Malvina стабильно выбирали как более точную и аккуратную модель.

Протестировать функцию можно здесь

⬅️

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4🔥3

1.12K views15:04

About

Blog

Apps

Platform