Sber AI
6.53K subscribers
2.16K photos
577 videos
1 file
1.95K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
Модели, которые «слышат» 🎧

Открываем серию постов про аудиомодальность — рассказываем, как AI учится понимать звук и зачем это нужно.

Что такое аудиомодальность?
👂 Речь, музыка, звуки окружающей среды — всё это можно анализировать или синтезировать с помощью нейросетей. Способность моделей работать со звуком как с основным типом входных данных называется аудиомодальностью. Такие модели предсказывают, каким фонемам (звукам в языке), целым словам или предложениям соответствуют те или иные акустические волны. Помните, в школе были разборы [сАстава] слов по звукам речи?

5️⃣ Особенности обучения:
🔘Гигантские корпуса аудио, размеченных точными транскрипциями
🔘Нормализация и очистка звука от шумов

Для обработки и распознавания звука есть разные архитектуры, которые могут комбинироваться:

HMM (Hidden Markov Models)
🎤Классический метод. Делит звук на маленькие отрезки и определяет, какой фонеме они соответствуют. Хорошо работает для стабильной, чёткой речи.

DNN (Deep Neural Networks)
🎤Современные нейросети, которые лучше справляются с реальными условиями: шумом, акцентами, быстрой речью. DNN можно встроить в систему вместо HMM или использовать в связке с другой архитектурой: DNN предсказывает признаки, а HMM собирает их в последовательность.

End-to-End архитектуры
🎤Новый подход: модель сразу учится превращать звук в текст, минуя этапы фонем и ручного выделения признаков. Вместо того чтобы по частям анализировать звук, она «слушает» всё целиком и учится понимать на примерах. Часто основана на трансформерах или seq2seq-моделях.


Как применяются?
🔘 Речь → Текст: голосовые помощники, расшифровка интервью, звонков, заседаний
🔘 Текст → Речь: озвучка книг и интерфейсов, генерация аудио для людей с нарушениями речи, локализация контента (автоперевод и озвучка голосом)
🔘 Анализ речи: диагностика заболеваний или определение эмоций клиента по голосу, оценка речевых навыков в приложениях для изучения языков

В следующих постах мы расскажем про класс открытых моделей для обработки звучащей речи GigaAm 🎵

Пользовались аудиомодальными сервисами?
💯 — по работе
👍 — для развлечения
🤔 — что-то новенькое для меня
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7💯41🔥1
AI в медицине: точность, значимость, будущее🫀

27 мая в офисе AIRI в Сити обсудим, как искусственный интеллект открывает новые подходы в медицине и меняет представление о клинической аналитике.

📆 Лектор — Геннадий Коновалов, профессор, руководитель Центра диагностики и инновационных медицинских технологий
🔘 Модератор — Иван Оселедец, профессор РАН, гендиректор AIRI


Большой семинар AIRI — это возможность для учёных, врачей и инженеров обсудить инновационные идеи и создать решения для реальных задач.

➡️ Регистрация по ссылке. Трансляция пройдет в VK Видео и на YouTube.
Увидимся на семинаре 💚
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65👏1
AI-инструменты, которые упростят жизнь разработчикам ⛺️

Найти текст в буфере обмена, составить конспект деловой встречи, поправить небольшой фрагмент кода — порой мелкие задачи занимают большую часть дня.

Собрали для вас AI-сервисы, которые помогут разгрузиться от рутины, чтобы вы могли создать что-нибудь великое 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥5
Статью команды Sber-AI приняли на ведущую конференцию NAACL 2025 🎉

Исследователи из Сбера и AIRI представили RusCode — первый бенчмарк, оценивающий способность генеративных моделей подстроиться под российский культурный код в задачах text-to-image. Модель должна не просто рисовать «суп», а уметь отличить борщ от окрошки, узнавать Лермонтова по фуражке, а Пушкина по бакенбардам.

Что внутри:
🔘 1250 сложных текстовых описаний культурных объектов на русском и английском
🔘 19 категорий: от литературы и фольклора до мемов, автомобилей и научных открытий
🔘 Эталонные изображения для каждого промпта
🔘 Сравнительная оценка качества генерации у DALL·E 3, Stable Diffusion 3, Kandinsky 3.1, YandexART 2 от 48 независимых экспертов

📊 Вывод: большинство западных моделей «не считывают» российский визуальный код. Только модели, дообученные на русскоязычных данных, уверенно справляются.

🌏 Авторы поднимают важный вопрос: чтобы модели были по-настоящему универсальными, им нужно «понимать» культурный контекст запроса, а не только рисовать красиво. Благодаря появлению RusCode пользователи со всего мира смогут создавать более аутентичный контент в российском стиле.

Подробности по ссылкам:
🔗 ArXiv
🔗 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🤔85💯3👏2
УзнавAI вместе со Сбером 🤖

2 июня стартует кампания региональных треков AI Journey — крупнейшей AI-конференции от Сбера. Лекции пройдут в Нижнем Новгороде, Петербурге, Владивостоке, Казани и центре «Сириус», а также в Технохабе Сбера.

Открывает серию сессия AI Journey на ЦИПР 2025 в Нижнем Новгороде — пять докладов от экспертов Сбера и AIRI о ключевых направлениях развития AI: от генеративных моделей и мультиагентных систем до прикладного AGI (Artificial general intelligence). Спикеры расскажут, как пользоваться AI-агентами и как внедрение AGI может повлиять на развитие индустрий, науку, социум и жизнь каждого человека.

Программа докладов:

🔘Generative AI 2025: тренды и применения — Денис Димитров, управляющий директор по исследованию данных, основатель и руководитель проекта Kandinsky

🔘Следующий шаг эволюции AI: мультиагентные системы на базе LLM — Руслан Исрафилов, исполнительный директор по исследованию данных дивизиона развития рекомендательных систем Сбера

🔘От LLM-агентов к практичному AGI: передний край исследований и человекоцентричный подход — Сергей Марков, управляющий директор

🔘На пути к прикладному AGI — Иван Оселедец, генеральный директор Института AIRI

🔘Насколько AGI нужен людям? — Александр Крайнов, директор по развитию технологий AI Яндекса


➡️ Подключайтесь онлайн

Мы ждём вас 💚
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏53
This media is not supported in your browser
VIEW IN TELEGRAM
Data Fest’25 в гостях у Сбера — уже завтра!

До главного события сообщества Open Data Science осталось совсем немного

Доклады о трендах в AI от топовых экспертов, нетворкинг и игры на развитие soft skills — в штаб-квартире Сбера в Москве на Кутузовском проспекте.

Если не успели зарегистрироваться, чтобы прийти лично, можете посмотреть выступления онлайн. Прямая трансляция будет доступна по этим ссылкам:

➡️ Main Stage
➡️ AI Disrupt Stage
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
В GigaChat появился генеративный фоторедактор 🤖

Новая функция позволяет изменять изображение по текстовому описанию. В её основе Malvina — диффузионная модель и GigaChat Vision, обеспечивающие локальное попиксельное редактирование без искажения исходного изображения.

Добавлены возможности:
⚫️ Удаление объектов и дефектов (люди, провода, искажения, шум)
⚫️ Замена фона, интеграция новых объектов и деталей
⚫️ Восстановление и раскрашивание старых или повреждённых фотографий
⚫️ Изменение внешности (причёска, макияж, аксессуары)
⚫️ Цветокоррекция и стилистическая обработка изображений


🖥 Для обучения использовано более 11 млн изображений: сначала pretrain на 10 млн, затем тонкая настройка на 1,4 млн.

⚡️ В сравнении с Gemini, модель продемонстрировала более высокую точность и естественность при редактировании, особенно при изменении стиля, фона и мелких деталей.
В side-by-side тестах с участием людей Malvina стабильно выбирали как более точную и аккуратную модель.

Протестировать функцию можно здесь ⬅️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥3