Модели, которые «слышат» 🎧
Открываем серию постов про аудиомодальность — рассказываем, как AI учится понимать звук и зачем это нужно.
Что такое аудиомодальность?
👂 Речь, музыка, звуки окружающей среды — всё это можно анализировать или синтезировать с помощью нейросетей. Способность моделей работать со звуком как с основным типом входных данных называется аудиомодальностью. Такие модели предсказывают, каким фонемам (звукам в языке), целым словам или предложениям соответствуют те или иные акустические волны. Помните, в школе были разборы [сАстава] слов по звукам речи?
5️⃣ Особенности обучения:
🔘 Гигантские корпуса аудио, размеченных точными транскрипциями
🔘 Нормализация и очистка звука от шумов
✅ Как применяются?
🔘 Речь → Текст: голосовые помощники, расшифровка интервью, звонков, заседаний
🔘 Текст → Речь: озвучка книг и интерфейсов, генерация аудио для людей с нарушениями речи, локализация контента (автоперевод и озвучка голосом)
🔘 Анализ речи: диагностика заболеваний или определение эмоций клиента по голосу, оценка речевых навыков в приложениях для изучения языков
В следующих постах мы расскажем про класс открытых моделей для обработки звучащей речи GigaAm🎵
Пользовались аудиомодальными сервисами?
💯 — по работе
👍 — для развлечения
🤔 — что-то новенькое для меня
Открываем серию постов про аудиомодальность — рассказываем, как AI учится понимать звук и зачем это нужно.
Что такое аудиомодальность?
Для обработки и распознавания звука есть разные архитектуры, которые могут комбинироваться:
HMM (Hidden Markov Models)🎤 Классический метод. Делит звук на маленькие отрезки и определяет, какой фонеме они соответствуют. Хорошо работает для стабильной, чёткой речи.
DNN (Deep Neural Networks)🎤 Современные нейросети, которые лучше справляются с реальными условиями: шумом, акцентами, быстрой речью. DNN можно встроить в систему вместо HMM или использовать в связке с другой архитектурой: DNN предсказывает признаки, а HMM собирает их в последовательность.
End-to-End архитектуры🎤 Новый подход: модель сразу учится превращать звук в текст, минуя этапы фонем и ручного выделения признаков. Вместо того чтобы по частям анализировать звук, она «слушает» всё целиком и учится понимать на примерах. Часто основана на трансформерах или seq2seq-моделях.
В следующих постах мы расскажем про класс открытых моделей для обработки звучащей речи GigaAm
Пользовались аудиомодальными сервисами?
💯 — по работе
👍 — для развлечения
🤔 — что-то новенькое для меня
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7💯4❤1🔥1
AI в медицине: точность, значимость, будущее🫀
27 мая в офисе AIRI в Сити обсудим, как искусственный интеллект открывает новые подходы в медицине и меняет представление о клинической аналитике.
Большой семинар AIRI — это возможность для учёных, врачей и инженеров обсудить инновационные идеи и создать решения для реальных задач.
➡️ Регистрация по ссылке. Трансляция пройдет в VK Видео и на YouTube.
Увидимся на семинаре💚
27 мая в офисе AIRI в Сити обсудим, как искусственный интеллект открывает новые подходы в медицине и меняет представление о клинической аналитике.
📆 Лектор — Геннадий Коновалов, профессор, руководитель Центра диагностики и инновационных медицинских технологий🔘 Модератор — Иван Оселедец, профессор РАН, гендиректор AIRI
Большой семинар AIRI — это возможность для учёных, врачей и инженеров обсудить инновационные идеи и создать решения для реальных задач.
Увидимся на семинаре
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5👏1
AI-инструменты, которые упростят жизнь разработчикам ⛺️
Найти текст в буфере обмена, составить конспект деловой встречи, поправить небольшой фрагмент кода — порой мелкие задачи занимают большую часть дня.
Собрали для вас AI-сервисы, которые помогут разгрузиться от рутины, чтобы вы могли создать что-нибудь великое🚀
Найти текст в буфере обмена, составить конспект деловой встречи, поправить небольшой фрагмент кода — порой мелкие задачи занимают большую часть дня.
Собрали для вас AI-сервисы, которые помогут разгрузиться от рутины, чтобы вы могли создать что-нибудь великое
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5🔥5
Статью команды Sber-AI приняли на ведущую конференцию NAACL 2025 🎉
Исследователи из Сбера и AIRI представили RusCode — первый бенчмарк, оценивающий способность генеративных моделей подстроиться под российский культурный код в задачах text-to-image. Модель должна не просто рисовать «суп», а уметь отличить борщ от окрошки, узнавать Лермонтова по фуражке, а Пушкина по бакенбардам.
Что внутри:
🔘 1250 сложных текстовых описаний культурных объектов на русском и английском
🔘 19 категорий: от литературы и фольклора до мемов, автомобилей и научных открытий
🔘 Эталонные изображения для каждого промпта
🔘 Сравнительная оценка качества генерации у DALL·E 3, Stable Diffusion 3, Kandinsky 3.1, YandexART 2 от 48 независимых экспертов
📊 Вывод: большинство западных моделей «не считывают» российский визуальный код. Только модели, дообученные на русскоязычных данных, уверенно справляются.
🌏 Авторы поднимают важный вопрос: чтобы модели были по-настоящему универсальными, им нужно «понимать» культурный контекст запроса, а не только рисовать красиво. Благодаря появлению RusCode пользователи со всего мира смогут создавать более аутентичный контент в российском стиле.
Подробности по ссылкам:
🔗 ArXiv
🔗 GitHub
Исследователи из Сбера и AIRI представили RusCode — первый бенчмарк, оценивающий способность генеративных моделей подстроиться под российский культурный код в задачах text-to-image. Модель должна не просто рисовать «суп», а уметь отличить борщ от окрошки, узнавать Лермонтова по фуражке, а Пушкина по бакенбардам.
Что внутри:
Подробности по ссылкам:
🔗 ArXiv
🔗 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🤔8❤5💯3👏2
УзнавAI вместе со Сбером 🤖
2 июня стартует кампания региональных треков AI Journey — крупнейшей AI-конференции от Сбера. Лекции пройдут в Нижнем Новгороде, Петербурге, Владивостоке, Казани и центре «Сириус», а также в Технохабе Сбера.
Открывает серию сессия AI Journey на ЦИПР 2025 в Нижнем Новгороде — пять докладов от экспертов Сбера и AIRI о ключевых направлениях развития AI: от генеративных моделей и мультиагентных систем до прикладного AGI (Artificial general intelligence). Спикеры расскажут, как пользоваться AI-агентами и как внедрение AGI может повлиять на развитие индустрий, науку, социум и жизнь каждого человека.
Программа докладов:
➡️ Подключайтесь онлайн
Мы ждём вас💚
2 июня стартует кампания региональных треков AI Journey — крупнейшей AI-конференции от Сбера. Лекции пройдут в Нижнем Новгороде, Петербурге, Владивостоке, Казани и центре «Сириус», а также в Технохабе Сбера.
Открывает серию сессия AI Journey на ЦИПР 2025 в Нижнем Новгороде — пять докладов от экспертов Сбера и AIRI о ключевых направлениях развития AI: от генеративных моделей и мультиагентных систем до прикладного AGI (Artificial general intelligence). Спикеры расскажут, как пользоваться AI-агентами и как внедрение AGI может повлиять на развитие индустрий, науку, социум и жизнь каждого человека.
Программа докладов:
🔘 Generative AI 2025: тренды и применения — Денис Димитров, управляющий директор по исследованию данных, основатель и руководитель проекта Kandinsky🔘 Следующий шаг эволюции AI: мультиагентные системы на базе LLM — Руслан Исрафилов, исполнительный директор по исследованию данных дивизиона развития рекомендательных систем Сбера🔘 От LLM-агентов к практичному AGI: передний край исследований и человекоцентричный подход — Сергей Марков, управляющий директор🔘 На пути к прикладному AGI — Иван Оселедец, генеральный директор Института AIRI🔘 Насколько AGI нужен людям? — Александр Крайнов, директор по развитию технологий AI Яндекса
Мы ждём вас
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Data Fest’25 в гостях у Сбера — уже завтра!
До главного события сообщества Open Data Science осталось совсем немного✅
Доклады о трендах в AI от топовых экспертов, нетворкинг и игры на развитие soft skills — в штаб-квартире Сбера в Москве на Кутузовском проспекте.
Если не успели зарегистрироваться, чтобы прийти лично, можете посмотреть выступления онлайн. Прямая трансляция будет доступна по этим ссылкам:
➡️ Main Stage
➡️ AI Disrupt Stage
До главного события сообщества Open Data Science осталось совсем немного
Доклады о трендах в AI от топовых экспертов, нетворкинг и игры на развитие soft skills — в штаб-квартире Сбера в Москве на Кутузовском проспекте.
Если не успели зарегистрироваться, чтобы прийти лично, можете посмотреть выступления онлайн. Прямая трансляция будет доступна по этим ссылкам:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
В GigaChat появился генеративный фоторедактор 🤖
Новая функция позволяет изменять изображение по текстовому описанию. В её основе Malvina — диффузионная модель и GigaChat Vision, обеспечивающие локальное попиксельное редактирование без искажения исходного изображения.
Добавлены возможности:
🖥 Для обучения использовано более 11 млн изображений: сначала pretrain на 10 млн, затем тонкая настройка на 1,4 млн.
⚡️ В сравнении с Gemini, модель продемонстрировала более высокую точность и естественность при редактировании, особенно при изменении стиля, фона и мелких деталей.
В side-by-side тестах с участием людей Malvina стабильно выбирали как более точную и аккуратную модель.
Протестировать функцию можно здесь⬅️
Новая функция позволяет изменять изображение по текстовому описанию. В её основе Malvina — диффузионная модель и GigaChat Vision, обеспечивающие локальное попиксельное редактирование без искажения исходного изображения.
Добавлены возможности:
⚫️ Удаление объектов и дефектов (люди, провода, искажения, шум)⚫️ Замена фона, интеграция новых объектов и деталей⚫️ Восстановление и раскрашивание старых или повреждённых фотографий⚫️ Изменение внешности (причёска, макияж, аксессуары)⚫️ Цветокоррекция и стилистическая обработка изображений
В side-by-side тестах с участием людей Malvina стабильно выбирали как более точную и аккуратную модель.
Протестировать функцию можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥3