Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Прошлая неделя выдалась богатой на выступления. Посетили 3 конференции в Москве. 8 декабря выступили на Conversation AI. Вика Кондрашук поделилась опытом, как сделать речевую аналитику на базе нашего Open Source с хорошим качеством и найти проблемные диалоги, недовольных клиентов, оценить работу операторов. Иван Бондаренко рассказал об инвариантности моделей распознавания речи. Записи выступлений организаторы обещают разместить в открытом доступе через пол года 😊

🔥5❤3

109 viewsВика Кондрашук, 18:32

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Анонсы выступлений на неделю:
20.12.2023 (среда) 10:00-10:45 НСК (06:00-06:45 МСК)

“и вы исключительно устыдив собираетесь фырчать милитаризировавши” -
Если хотите узнать, что это за белиберда и зачем она нужна большим языковым моделям, то приходите 20 декабря в 10:00 на "Декабрьские чтения" в Институт математики (в аудиторию 305) или подключайтесь по ссылке https://imsoran.ktalk.ru/ngxu161rctwl

Наш CTO Иван Юрьевич выступит с докладом “Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке.”

Аннотация:
В данной работе проводится сравнение предварительного обучения нейросети трансформерного типа на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения нескольких моделей в рамках выполнения заданий проекта RussianSuperGLUE показали одинаковые оценки. Этот факт свидетельствует о том, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.

❤4

128 viewsВика Кондрашук, edited 17:31

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Анонсы выступлений на неделю: 20.12.2023 (среда) 10:00-10:45 НСК (06:00-06:45 МСК) “и вы исключительно устыдив собираетесь фырчать милитаризировавши” - Если хотите узнать, что это за белиберда и зачем она нужна большим языковым моделям, то приходите 20 декабря…

Какая бизнес-проблема здесь решается:
Например нам нужно реализовать чат-бота на базе LLM с возможность свободного ведения диалога для консультирования клиентов в финансовой организации. Однако, в тот момент, когда чат-бот будет запущен на проде, может возникнуть часть проблем, связанных с безопасностью.
Одной из самых распространенных проблем являются атаки на LLM, которые заставляют выдавать часть обучающего датасета, где могут быть, например, персональные данные.
Другая проблема связана с обучением на открытых датасета, когда злоумышленник знаком с датасетом для предобучения и может спланировать атаки, которые заставляют модель “ломаться”.
С помощью метода переноса обучения, глубокие нейросети могут предобучаться на большом датасете общего назначения и затем дообучаться на маленьком целевом датасете для конкретной бизнес-задачи. Из финального небольшого датасета можно легко удалить все персональные данные, и данные, которые составляют коммерческую тайну. Но как быть с большим датасетом общего назначения?
Если изначально обучать нейросеть на малом количестве данных для вашей целевой задачи, то возникнет проблема переобучения, поэтому используют большой датасет для предобучения. Но кто гарантирует безопасность при предобучении? В компьютерном зрении можно сделать инъекции, чтобы ослабить безопасность модели, вот простой пример с распознаванием лиц: в датасет добавляется изображение человека в очках с широкой красной оправой и помечается лейблом “собака”. Соответственно, модель компьютерного зрения, предобученная на этом датасете, человека в красных очках будет воспринимать как собаку. Аналогичные инъекции можно сделать в системы компьютерного зрения для анализа юридических документов, либо для анализа сканов паспортов, чтобы ослабить работу модели.
Бизнесу чаще всего нужна безопасная модель, но большой датасет общего назначения нельзя полностью валидировать, например в задачах компьютерного зрения, генерации текстов, хромосомного анализа, либо анализа электроэнцефалограмм. Возникает вопрос: что делать? Где взять данные для предобучения, которые бы удовлетворяли критериям надежности и безопасности? Одно из наиболее эффективных решений - синтезировать самим в контуре заказчика. Но как? Необходимо чтобы алгоритм синтеза был простой и прозрачный, который поддается верификации.
В докладе Иван Юрьевич предлагает метод синтеза текстов на естественном псевдоязыке, который позволяет эффективно предобучать большие модели. Данный метод простой и верифицируемый - это контекстно-свободная грамматика. Иван Юрьевич доказывает, что этот подход не уступает предобучению на естественных текстах текстов, но является самым безопасным.
Прилагаю в комментариях слайд с результатами экспериментов, где видно, что модель, обученная на синтетическом датасете не уступает по качеству модели, обученной на натуральном датасете.

141 viewsВика Кондрашук, edited 17:02

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

И это не все посты на сегодня.

В пятницу 22 декабря в 18:30 МСК состоится доклад в рамках семинара 'Нейронные сети', МГУ, кафедра МаТИС

Докладчик: наш CTO Бондаренко Иван, он же научный сотрудник лаборатории прикладных цифровых технологий международного математического центра Новосибирского Государственного Университета, старший преподаватель кафедры фундаментальной и прикладной лингвистики НГУ.

Тема доклада:
Платон, припоминание и сильный искусственный интеллект: создание мультимодального диалогового агента общего назначения

Аннотация:
В докладе предлагается архитектура мультимодального диалогового агента "Менон", разработанного для участия в соревновании на лучший алгоритм "сильного ИИ" в рамках конференции AI Journey 2023. Вместо "классической" схемы с обучением проекционных слоёв для встраивания "замороженных" кодировщиков модальностей в "замороженную" языковую модель предлагается альтернативный подход к построению мультимодальной нейросети, ключевым элементом которого является кросс-модальный RAG в духе платоновского "распознавания через припоминание". Обсуждаются сильные и слабые стороны такого подхода.
Ссылка на ЗУМ:
https://us04web.zoom.us/j/7792011999?pwd=V3NVOWUrSjBxVlVQZyt1c0dJbGNEZz09

Идентификатор конференции: 779 201 1999
Код доступа: 883418

Начало в 18:30 по Москве

Zoom

Join our Cloud HD Video Meeting

Zoom is the leader in modern enterprise cloud communications.

161 viewsВика Кондрашук, edited 17:09

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Добрый день!
Видеозапись семинара 'Нейронные сети', МГУ, кафедра МаТИС от 22.12.2023: “Платон, припоминание и сильный искусственный интеллект: создание мультимодального диалогового агента общего назначения” https://disk.yandex.ru/d/qr3gHhowOf-cKg

И живой llm-бот к нему.
Знакомьтесь - это Meno AI
https://t.iss.one/small_nsu_ai_bot

Делитесь в комментариях к этому посту прикольными скринами вашего общения 😅

180 viewsВика Кондрашук, edited 05:39

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Channel photo updated

13:22

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Уважаемые подписчики канала "Диалогер"! Наша команда поздравляет вас с наступающим Новым 2024 Годом и желает вам счастья, мира и добра, а также, разумеется, успешного внедрения искусственного интеллекта в ваших бизнес-процессах! Пусть "вкалывают роботы, а не человек" 😁

И, конечно, наш сильный ИИ по имени "Менон" от всей своей электронной души присоединяется к нашим поздравлениям и тоже кое-что вам пишет 😉

🎉6

197 viewsВика Кондрашук, 13:28

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Channel photo updated

03:46

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Поздравляем нашего тех.дира Ивана Бондаренко с новым успехом! Два его выступления - на общем ДатаФесте https://youtu.be/laNp7fYCci4?si=0sjRdGO3a0vV72Fo&t=1 и на сибирском ДатаФесте https://youtu.be/4riQc-gkLSE?si=PB38U0S3x3tcY-8M&t=1 - стали лауреатами конкурса ODS Best Video Award 2023! Желаем Ивану новых научно-технических высот и новых впечатляющих достижений!
А с полным списком 23 лауреатов конкурса ODS Best Video Award 2023 можно ознакомиться по ссылке https://youtube.com/playlist?list=PLTlO6nV_TaGAp7bpWOjh_pilfXx6swSis&si=v0L8cNGRM9otibzo

YouTube

Иван Бондаренко - BART + Wav2Vec = друзья навек, или пара слов о распознавании речи seq2seq-моделями

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "NLP":
https://ods.ai/tracks/df23-ml_in_manufacturing

Наши соц.сети:
Telegram: https://t.iss.one/datafest
Вконтакте: https://vk.com/datafest

🔥8👍1

139 viewsВика Кондрашук, 10:29

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Доброго времени суток!
Наш разработчик-исследователь Сюзанна тоже стала победителем в конкурсе сообщества Open Data Science за лучший видеорассказ по теме машинного обучения в 2023 году!

Доклад Сюзанны назывался «Сбор и разметка корпуса голосовых команд своими руками: наш опыт». Посмотреть можно по ссылке:
https://youtu.be/Dlg-Ia9MBIc
Мы собирали и размечали датасет для того, чтобы правильно обучить систему распознавания голосовых команд, а затем сжать обученную модель, чтобы она могла обрабатывать 1000 запросов за 1 секунду на нескольких слабых CPU для заказчика, который производит оборудование для умного дома с голосовым управлением.
Всего в конкурсе ODS Best Video Award 2023 представлено 23 лауреата, предлагаем всем посмотреть плейлист с записями выступлений всех лауреатов 😊:
https://youtube.com/playlist?list=PLTlO6nV_TaGAp7bpWOjh_pilfXx6swSis&si=v0L8cNGRM9otibzo

YouTube

Сюзанна Мартиросян | Сбор и разметка корпуса голосовых команд своими руками: наш опыт

Спикер: Сюзанна Мартиросян
Название доклада: "Сбор и разметка корпуса голосовых команд своими руками: наш опыт"

Ссылка на мероприятие:
https://ods.ai/events/datafestsiberia4
Ссылка на трек:
https://ods.ai/tracks/sibfest4-st

Наши соц.сети:
Telegram: ht…

❤4

141 viewsВика Кондрашук, 07:33

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Доброго времени суток!
И мы снова анонсируем выступление нашего технического директора и сооснователя Ивана Бондаренко 😊
Уже завтра Иван выступит на научно-популярном ток-шоу «Разберём на атомы» с темой «Безопасность данных в сфере IT».
Мы все сейчас окружены техникой, и иногда хочется, чтобы она работала по указанию: свет, который отключается от хлопка, сериал, который телевизор включает, потому что его попросили и тд. Уже раздумывали над подключением света и бытовой техники к системе «умного дома»? Удобно, конечно, но что если...

Не замечали ли вы, что Сири в вашем телефоне не хочет помочь с вопросом? Что Алиса в браузере себе на уме? А робот-пылесос, как назло, всасывает ваши носки, где бы вы их не прятали? Вдруг техника задумает переворот? Иван, как отличный дресировщик ИИ расскажет о реальных и мнимых опасностях, которые несут в себе развитие систем искусственного интеллекта. Вы узнаете можно ли верить таким системам, что такое "атака на ИИ" и как учёные защищают ИИ от разного рода атак.

✅ Регистрация: https://nsk-myatom.timepad.ru/event/2748031/
✅ Дата и время: 25 января в 19:00 в ИЦАЭ: пр. Карла Маркса 20/1, каб. 103.
✅ Мероприятие бесплатное.

Друзья, приходите! 😊

132 viewsВика Кондрашук, 04:55

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Разобрали на атомы безопасность: в искусственном интеллекте, в атомной энергетике и даже в зимних видах спорта.

Эксперты:

Иван Бондаренко – научный сотрудник лаборатории прикладных цифровых технологий ММФ НГУ, старший преподаватель кафедры фундаментальной и прикладной лингвистики ГИ НГУ, сооснователь стартапа «Сибирские нейросети», выступил с темой: «Друг или Скайнет? О возможностях ИИ».

Антон Грехов, ведущий инженер по радиационной безопасности ГК «Росатом», представил тему: «Радиация. Обыденная или опасная?».

Егор Буров, врач-травматолог-ортопед, руководитель службы травматологии и ортопедии клиники «Евромед», выступил с темой: «Безопасный спорт в зимний период, вымысел или реальность».

⚡ Приятного просмотра 😊: https://vk.com/video-53640458_456239525

Разберём на атомы: "Безопасность"

vk video

141 viewsВика Кондрашук, edited 07:21

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Нашего технического директора, Ивана Бондаренко, упомянули в статье про обучение нейросети для распознавания эмоций. В основу своей работы коллеги из СПбГУ взяли нашу открытую модель распознавания речи. https://tass.ru/obschestvo/19822749

TACC

В Петербурге обучили нейросеть распознавать эмоциональную речь

Обучение проводилось на основе интервью с жертвами Холокоста

141 viewsВика Кондрашук, 05:59

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Вышел юбилейный выпуск альманаха "Логос" в честь 60-летия гуманитарного образования в НГУ. Наш технический директор рассказал в выпуске про наши работы по компьютерной лингвистике.

👏2

132 viewsВика Кондрашук, 16:35

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Forwarded from АКАДЕМПАРК | channel

Победитель А:СТАРТ: DIALOGER 一 речевая аналитика для контакт-центров

Одной из проблем бизнеса сегодня является качество работы внутренних колл-центров. Оценка исхода любого диалога субъективна, поскольку выполняется сотрудниками предприятия. В результате компании теряют потенциальных клиентов и текущих клиентов в процессе телефонного разговора.

Помочь в вопросе эффективности звонков теперь сможет сервис DIALOGER 一 стартап-победитель осенней сессии А:СТАРТ в 2023 году.

Глубокий анализ диалога с помощью сервиса на основе ИИ включает в себя 40+ параметров. Сервис автоматизирует анализ всех разговоров, находит проблемные диалоги, недовольных клиентов, оценивает работу операторов.

Команда пришла к идее создания такой системы неслучайно: «Ранее наша команда занималась исследованиями ИИ: распознавание речи, анализ текстов, компьютерное зрение, генеративный ИИ», 一 рассказывает Виктория Кондрашук, руководитель проекта.

Подробнее на сайте: https://academpark.com/media/news/26650/

🔥8❤2

139 viewsВика Кондрашук, 10:09

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Опять в СМИ пишут про наши открытые модели распознавания речи 😃
⚡В интерфаксе:
https://www.interfax-russia.ru/siberia/news/razrabotannye-v-novosibirske-neyroseti-nauchili-raspoznavat-golosovye-komandy
⚡и на сайте НГУ:
https://www.nsu.ru/n/media/news/nauka/razrabotannuyu-uchenymi-ngu-neyroset-nauchili-raspoznavat-golosovye-komandy-upravleniya-avtonomnymi-/

🍒А если вам нужна речевая аналитика для контакт центра, наша компания "Сибирские нейросети" обучит для вас самую лучшую модель распознавания речи на ваших данных и настроит глубокий семантический анализ диалога, чтобы заранее находить проблемные диалоги, недовольных клиентов, оценивать работу операторов.

www.interfax-russia.ru

Разработанные в Новосибирске нейросети научили распознавать голосовые команды - Сибирь || Интерфакс Россия

Новосибирск. 14 февраля. ИНТЕРФАКС - Специалисты из Исследовательского института искусственного интеллекта (AIRI, Москва) и Москов... читать далее на "Интерфакс-Россия"

👏3

145 viewsВика Кондрашук, edited 05:14

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

⚡Часто ли вы пользуетесь нейросетями? Как часто они выдают ошибки? 💻🤖❌

В рамках «Недели Дарвина» поговорим и об этом. Иван Бондаренко, технический директор компании “Сибирские нейросети”, научный сотрудник лаборатории прикладных цифровых технологий Математического центра в Академгородке, старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ, сегодня выступит с лекцией «Эволюция ошибок нейросетей: от линейной неразделимости до галлюцинаций ChatGPT».

Иван расскажет, как совместно с эволюцией искусственных нейросетей происходила эволюция их ошибок и как человеку возможно «ужиться» с ошибками и галлюцинациями современных нейросетевых систем?

🕰️Когда: 20 февраля в 18:30
🤓Где: аудитория 3107

Зарегистрироваться можно на сайте: https://events.nsu.ru/darwins_week/#rec85562276
Помните, что регистрация необходима!

👍1

164 viewsВика Кондрашук, edited 03:37

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Добрый день! 😊Приглашаю вас на мероприятие. Подробности ниже:

109 viewsВика Кондрашук, 03:44

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Forwarded from «Единое окно» инноваций

Безграничный мир ИИ: тренды, возможности и риски обсудим на встрече «Инновационная среда»

✅ 6 марта, 16:00 - 18:00
✅ Точка кипения-Новосибирск

Темы и спикеры:
🔹Безопасное предобучение глубоких моделей ИИ — Иван Бондаренко, «Сибирские нейросети»

🔹Открытые решения на базе искусственного интеллекта для задач бизнеса: как внедрить речевую аналитику на базе открытых технологий и сохранить миллионы рублей — Виктория Кондрашук, «Сибирские нейросети»

🔹Как быстро внедрить ИИ в свой продукт и дать новую ценность вашим клиентам — Олег Лупиков, основатель компании Настоящий Искусственный Интеллект и MAIA AI, «Postilla», «Hook»

🔹Автоматическое определение характеристик лесных массивов по съемке с БВС — Артём Ситников, «Digital Research», «Digital Clouds»

Ждем на встрече разработчиков, представителей науки, бизнеса и всех неравнодушных к теме искусственного интеллекта!

🛜 Зарегистрироваться

#поСредам

113 viewsВика Кондрашук, 03:44

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

⚡Сегодня в 15:30 МСК (19:30 НСК) Иван Бондаренко выступит с темой “Правда и ложь больших языковых моделей”🤖
🍒Аннотация:
"Без преувеличения можно сказать, что в IT-календаре 2023 год прошёл под знаком ChatGPT и других больших языковых моделей (Large Language Models, или LLM).
Говорят, у самых больших нейросетей, моделирующих язык человека, появились эмерджентные свойства, а некоторые вообще наделяют их душой как у человека. Но человеку свойственно ошибаться, а нейросетям?
В своём рассказе я попытаюсь обсудить с вами, как правильно использовать и донастраивать "под себя" современные LLM, какие ошибки они делают и можно ли им вообще доверять."

📍Выступление проводится в рамках конференции: https://snowone.ru/

📍❌Ссылка на онлайн-трансляцию:
https://www.youtube.com/watch?v=IkxGtKErK9E

📍Запись выступления:
https://www.youtube.com/watch?v=Dhtk6K68vrU

SnowOne 2025. Content-First Java‑конференция из Сибири

SnowOne 2025 — Content-First Java‑конференция из Сибири

144 viewsВика Кондрашук, edited 12:00

About

Blog

Apps

Platform