Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
213 subscribers
98 photos
15 videos
2 files
92 links
https://sibnn.ai
https://lk.sibnn.ai Писец
ИТ-компания «Сибирские Нейросети» рассказывает об исследованиях.
Мы можем:
- Анализировать разговоры real time;
- Обучать и уменьшать большие языковые модели;
- Автоматизировать коммуникации
Download Telegram
Добрый день!
Сегодня наша команда выступает на конференции Института системного программирования РАН (ИСП РАН)
Секция «Российский open source: разработка библиотек в сфере ИИ»
Доступна трансляция по ссылке https://www.isprasopen.ru/ (зал “Ротонда”)
Мы выступаем очно в 17.30-17.45 МСК, зал “Ротонда”, Кому интересно, подключайтесь.
Тема: “Распознавание и семантический анализ звукозаписей интервью: методы, модели и открытые технологии”.
🔥6
Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
Выступили сегодня на Conversation AI 😊
Прошлая неделя выдалась богатой на выступления. Посетили 3 конференции в Москве. 8 декабря выступили на Conversation AI. Вика Кондрашук поделилась опытом, как сделать речевую аналитику на базе нашего Open Source с хорошим качеством и найти проблемные диалоги, недовольных клиентов, оценить работу операторов. Иван Бондаренко рассказал об инвариантности моделей распознавания речи. Записи выступлений организаторы обещают разместить в открытом доступе через пол года 😊
🔥53
Анонсы выступлений на неделю:
20.12.2023 (среда) 10:00-10:45 НСК (06:00-06:45 МСК)

и вы исключительно устыдив собираетесь фырчать милитаризировавши” -
Если хотите узнать, что это за белиберда и зачем она нужна большим языковым моделям, то приходите 20 декабря в 10:00 на "Декабрьские чтения" в Институт математики (в аудиторию 305) или подключайтесь по ссылке https://imsoran.ktalk.ru/ngxu161rctwl

Наш CTO Иван Юрьевич выступит с докладом “Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке.”

Аннотация:
В данной работе проводится сравнение предварительного обучения нейросети трансформерного типа на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения нескольких моделей в рамках выполнения заданий проекта RussianSuperGLUE показали одинаковые оценки. Этот факт свидетельствует о том, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.
4
Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
Анонсы выступлений на неделю: 20.12.2023 (среда) 10:00-10:45 НСК (06:00-06:45 МСК) “и вы исключительно устыдив собираетесь фырчать милитаризировавши” - Если хотите узнать, что это за белиберда и зачем она нужна большим языковым моделям, то приходите 20 декабря…
Какая бизнес-проблема здесь решается:
Например нам нужно реализовать чат-бота на базе LLM с возможность свободного ведения диалога для консультирования клиентов в финансовой организации. Однако, в тот момент, когда чат-бот будет запущен на проде, может возникнуть часть проблем, связанных с безопасностью.
Одной из самых распространенных проблем являются атаки на LLM, которые заставляют выдавать часть обучающего датасета, где могут быть, например, персональные данные.
Другая проблема связана с обучением на открытых датасета, когда злоумышленник знаком с датасетом для предобучения и может спланировать атаки, которые заставляют модель “ломаться”.
С помощью метода переноса обучения, глубокие нейросети могут предобучаться на большом датасете общего назначения и затем дообучаться на маленьком целевом датасете для конкретной бизнес-задачи. Из финального небольшого датасета можно легко удалить все персональные данные, и данные, которые составляют коммерческую тайну. Но как быть с большим датасетом общего назначения?
Если изначально обучать нейросеть на малом количестве данных для вашей целевой задачи, то возникнет проблема переобучения, поэтому используют большой датасет для предобучения. Но кто гарантирует безопасность при предобучении? В компьютерном зрении можно сделать инъекции, чтобы ослабить безопасность модели, вот простой пример с распознаванием лиц: в датасет добавляется изображение человека в очках с широкой красной оправой и помечается лейблом “собака”. Соответственно, модель компьютерного зрения, предобученная на этом датасете, человека в красных очках будет воспринимать как собаку. Аналогичные инъекции можно сделать в системы компьютерного зрения для анализа юридических документов, либо для анализа сканов паспортов, чтобы ослабить работу модели.
Бизнесу чаще всего нужна безопасная модель, но большой датасет общего назначения нельзя полностью валидировать, например в задачах компьютерного зрения, генерации текстов, хромосомного анализа, либо анализа электроэнцефалограмм. Возникает вопрос: что делать? Где взять данные для предобучения, которые бы удовлетворяли критериям надежности и безопасности? Одно из наиболее эффективных решений - синтезировать самим в контуре заказчика. Но как? Необходимо чтобы алгоритм синтеза был простой и прозрачный, который поддается верификации.
В докладе Иван Юрьевич предлагает метод синтеза текстов на естественном псевдоязыке, который позволяет эффективно предобучать большие модели. Данный метод простой и верифицируемый - это контекстно-свободная грамматика. Иван Юрьевич доказывает, что этот подход не уступает предобучению на естественных текстах текстов, но является самым безопасным.
Прилагаю в комментариях слайд с результатами экспериментов, где видно, что модель, обученная на синтетическом датасете не уступает по качеству модели, обученной на натуральном датасете.
И это не все посты на сегодня.

В пятницу 22 декабря в 18:30 МСК состоится доклад в рамках семинара 'Нейронные сети', МГУ, кафедра МаТИС

Докладчик: наш CTO Бондаренко Иван, он же научный сотрудник лаборатории прикладных цифровых технологий международного математического центра Новосибирского Государственного Университета, старший преподаватель кафедры фундаментальной и прикладной лингвистики НГУ.

Тема доклада:
Платон, припоминание и сильный искусственный интеллект: создание мультимодального диалогового агента общего назначения

Аннотация:
В докладе предлагается архитектура мультимодального диалогового агента "Менон", разработанного для участия в соревновании на лучший алгоритм "сильного ИИ" в рамках конференции AI Journey 2023. Вместо "классической" схемы с обучением проекционных слоёв для встраивания "замороженных" кодировщиков модальностей в "замороженную" языковую модель предлагается альтернативный подход к построению мультимодальной нейросети, ключевым элементом которого является кросс-модальный RAG в духе платоновского "распознавания через припоминание". Обсуждаются сильные и слабые стороны такого подхода.
Ссылка на ЗУМ:
https://us04web.zoom.us/j/7792011999?pwd=V3NVOWUrSjBxVlVQZyt1c0dJbGNEZz09

Идентификатор конференции: 779 201 1999
Код доступа: 883418

Начало в 18:30 по Москве
Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
И это не все посты на сегодня. В пятницу 22 декабря в 18:30 МСК состоится доклад в рамках семинара 'Нейронные сети', МГУ, кафедра МаТИС Докладчик: наш CTO Бондаренко Иван, он же научный сотрудник лаборатории прикладных цифровых технологий международного…
Добрый день!
Видеозапись семинара 'Нейронные сети', МГУ, кафедра МаТИС от 22.12.2023: “Платон, припоминание и сильный искусственный интеллект: создание мультимодального диалогового агента общего назначения” https://disk.yandex.ru/d/qr3gHhowOf-cKg

И живой llm-бот к нему.
Знакомьтесь - это Meno AI
https://t.iss.one/small_nsu_ai_bot

Делитесь в комментариях к этому посту прикольными скринами вашего общения 😅
Уважаемые подписчики канала "Диалогер"! Наша команда поздравляет вас с наступающим Новым 2024 Годом и желает вам счастья, мира и добра, а также, разумеется, успешного внедрения искусственного интеллекта в ваших бизнес-процессах! Пусть "вкалывают роботы, а не человек" 😁

И, конечно, наш сильный ИИ по имени "Менон" от всей своей электронной души присоединяется к нашим поздравлениям и тоже кое-что вам пишет 😉
🎉6
Поздравляем нашего тех.дира Ивана Бондаренко с новым успехом! Два его выступления - на общем ДатаФесте https://youtu.be/laNp7fYCci4?si=0sjRdGO3a0vV72Fo&t=1 и на сибирском ДатаФесте https://youtu.be/4riQc-gkLSE?si=PB38U0S3x3tcY-8M&t=1 - стали лауреатами конкурса ODS Best Video Award 2023! Желаем Ивану новых научно-технических высот и новых впечатляющих достижений!
А с полным списком 23 лауреатов конкурса ODS Best Video Award 2023 можно ознакомиться по ссылке https://youtube.com/playlist?list=PLTlO6nV_TaGAp7bpWOjh_pilfXx6swSis&si=v0L8cNGRM9otibzo
🔥8👍1
Доброго времени суток!
Наш разработчик-исследователь Сюзанна тоже стала победителем в конкурсе сообщества Open Data Science за лучший видеорассказ по теме машинного обучения в 2023 году!

Доклад Сюзанны назывался «Сбор и разметка корпуса голосовых команд своими руками: наш опыт». Посмотреть можно по ссылке:
https://youtu.be/Dlg-Ia9MBIc
Мы собирали и размечали датасет для того, чтобы правильно обучить систему распознавания голосовых команд, а затем сжать обученную модель, чтобы она могла обрабатывать 1000 запросов за 1 секунду на нескольких слабых CPU для заказчика, который производит оборудование для умного дома с голосовым управлением.
Всего в конкурсе ODS Best Video Award 2023 представлено 23 лауреата, предлагаем всем посмотреть плейлист с записями выступлений всех лауреатов 😊:
https://youtube.com/playlist?list=PLTlO6nV_TaGAp7bpWOjh_pilfXx6swSis&si=v0L8cNGRM9otibzo
4
Доброго времени суток!
И мы снова анонсируем выступление нашего технического директора и сооснователя Ивана Бондаренко 😊
Уже завтра Иван выступит на научно-популярном ток-шоу «Разберём на атомы» с темой «Безопасность данных в сфере IT».
Мы все сейчас окружены техникой, и иногда хочется, чтобы она работала по указанию: свет, который отключается от хлопка, сериал, который телевизор включает, потому что его попросили и тд. Уже раздумывали над подключением света и бытовой техники к системе «умного дома»? Удобно, конечно, но что если...

Не замечали ли вы, что Сири в вашем телефоне не хочет помочь с вопросом? Что Алиса в браузере себе на уме? А робот-пылесос, как назло, всасывает ваши носки, где бы вы их не прятали? Вдруг техника задумает переворот? Иван, как отличный дресировщик ИИ расскажет о реальных и мнимых опасностях, которые несут в себе развитие систем искусственного интеллекта. Вы узнаете можно ли верить таким системам, что такое "атака на ИИ" и как учёные защищают ИИ от разного рода атак.

Регистрация: https://nsk-myatom.timepad.ru/event/2748031/
Дата и время: 25 января в 19:00 в ИЦАЭ: пр. Карла Маркса 20/1, каб. 103.
Мероприятие бесплатное.

Друзья, приходите! 😊
Разобрали на атомы безопасность: в искусственном интеллекте, в атомной энергетике и даже в зимних видах спорта.

Эксперты:

Иван Бондаренко – научный сотрудник лаборатории прикладных цифровых технологий ММФ НГУ, старший преподаватель кафедры фундаментальной и прикладной лингвистики ГИ НГУ, сооснователь стартапа «Сибирские нейросети», выступил с темой: «Друг или Скайнет? О возможностях ИИ».

Антон Грехов, ведущий инженер по радиационной безопасности ГК «Росатом», представил тему: «Радиация. Обыденная или опасная?».


Егор Буров, врач-травматолог-ортопед, руководитель службы травматологии и ортопедии клиники «Евромед», выступил с темой: «Безопасный спорт в зимний период, вымысел или реальность».

Приятного просмотра 😊: https://vk.com/video-53640458_456239525
Нашего технического директора, Ивана Бондаренко, упомянули в статье про обучение нейросети для распознавания эмоций. В основу своей работы коллеги из СПбГУ взяли нашу открытую модель распознавания речи. https://tass.ru/obschestvo/19822749
Вышел юбилейный выпуск альманаха "Логос" в честь 60-летия гуманитарного образования в НГУ. Наш технический директор рассказал в выпуске про наши работы по компьютерной лингвистике.
👏2