Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
213 subscribers
98 photos
15 videos
2 files
91 links
https://sibnn.ai
https://lk.sibnn.ai Писец
ИТ-компания «Сибирские Нейросети» рассказывает об исследованиях.
Мы можем:
- Анализировать разговоры real time;
- Обучать и уменьшать большие языковые модели;
- Автоматизировать коммуникации
Download Telegram
💥Наши тех.дир Иван и llm-разработчик Роман сегодня на #Highload Saint Highload++
Иван выступает, а Роман поддерживает нашего мультимодального бота Менона, чтобы он справлялся с нагрузкой, которая возникла после доклада Ивана.
6🔥3👏2
❤️Один из зрителей сделал конспект доклада Ивана:
👍2
Forwarded from mtsepkov (Maxim Tsepkov)
#Highload Иван Бондаренко (НГУ) Сильный искусственный интеллект у вас в подвале: как собрать мультимодальную LLM из опенсорса и настроить ее под вашу задачу. Началось все с участия в соревновании Strong Intelligence на AIJ-2023, где надо было сделать ИИ, способный понимать картинки и звуки. Базовую LLM давали организаторы, решение надо было представить в контейнере, дальше организаторы оценивали на своих тестах. Они пошли понятным путем, собрав энкодеры из open source решений. Энкодер - два такта, перекодировка изображения или звуков в вектор параметров, а потом перекодировав вектор параметров в вектор токенов для LLM. В презентации есть подробности - что использовано.

Заняли 14 место из 30, их результат не удовлетворил. И они подумали - а что можно сделать? Анализ показал проблему: энкодеры работают независимо от контекста разговора. И появилась другая идея: сделать общую модель мира во внешней базе данных и искать в нем, создавая контекст разговора, они назвали это припоминанием знаний. Для этого использована китайская ONE-PLANE, которая связывает разные модальности и превращенная в ANNOY-вектор для поиска английская википедия. Дополнительно потребовался генератор коротких подписей к рисункам - его результат фокусирует поиск, распознаватель звуков и преобразователи для речи и других видов звуков. И уже полученный в результате текст подается на вход LLM. В докладе было разобрана механика работы на конкретном примере.

Дальше надо сравнивать результаты с другими. Они сравнивали свои с разными решениями, при этом в качестве арбитра выступал ChatGPT - он оценивал качества ответов разных систем, сравнивал их ответы между собой. Получается относительно объективная метрика. И есть сравнения с разными системами, а также в конфигурациях с разными LLM. B тут оказалось, что основной фокус переносится на этап создания контекста, а мощность LLM уже не столь важна - что существенно для производительности, так как создание контекста - относительно дешевые решения.

Таким образом, компонентная архитектура - гибкий и не требовательный к железу способ управлять знаниями системы. И архитектура распознавания через припоминание имеет большее значение, чем LLM. Университет поддержал грантом, делают систему для ориентации студентов, способную отвечать на философские вопросы, типа чему стоит учиться, и на конкретные - куда нести документы.
👍2
Дмитрий пригласил меня на запись подкаста, где мы увлеченно обсуждали стартапы, основанные на технологиях искусственного интеллекта.
В ходе нашей беседы я с радостью поделилась своим опытом и практическими навыками в этой области, рассказав о своем стартапе "Сибирские нейросети".
Всего за полгода с момента основания наша компания значительно расширилась:
- наш коллектив увеличился с 4-х до 15-ти человек и мы продолжаем увеличивать штат;
- количество предлагаемых продуктов возросло с 1-го до 4-х;
- количество наших партнеров, которые уже заказали внедрение нашего ИИ и НИР увеличилось с нуля до пяти;
Более того, у нас уже образовалась очередь – около 7-ми предстоящих внедрений и НИР для новых партнеров.
Если вам интересно, приглашаю вас насладиться прослушиванием!
🔥4
2. Как заработать 70 млн рублей на переводе речи в текст
mymeet.аi, ViSaver, Сибирские нейросети

⚡️Доступ к конспектам всех интервью и базе знаний по всему сезону – startupsecrets.ru/ai

Сегодня мы вместе раскроем секреты рынка искусственного интеллекта, который применяется для расшифровки аудио и видео-файлов в текст.

Разобраться в теме со всех сторон я позвал трех основателей, которые уже успели на троих получить 12 млн рублей грантами от государства и привлечь 4,5 млн рублей инвестициями от ангелов:

Федор Жилкин – со-основатель, технический и генеральный директор проекта mymeet.ai, ИИ-ассистента для онлайн-встреч, который позволяет транскрибировать звонки, делать их краткую выжимку и быстро назначать задачи присутствующим. Команда недавно привлекла свой первый раунд в 3 млн рублей.

Ася Семенова – основательница проекта ViSaver, который позволяет мгновенно искать информацию внутри видео файлов по текстовому запросу. Команда на старте получила 1,5 млн рублей от частного инвестора и еще 2 млн рублей в виде грантов от ФСИ.

Виктория Кондрашук – основательница стартапа «Сибирские нейросети», компании-разработчика open source системы для анализа интервью. Стартап получил 10 млн рублей от ФСИ на свою разработку.

🙌Спец-сезон создается при поддержке Yandex Cloud.

Где послушать, подписаться и лайкнуть:
🎵 Яндекс • 🎵 Apple • 📺 YouTube • 🎵 Spotify🌐 На сайте подкаста

Приятного прослушивания!

#ИИстартапы #стартапы #СтартапСекретыПодкаст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Резиденты встретились с генеральным директором АО «Спутниковые системы «Гонец» Павлом Черенковым для обсуждения возможностей сотрудничества

🛰️ АО «СС «Гонец» — оператор отечественных систем связи и ретрансляции, созданных по заказу «Роскосмоса». Компания управляет группой спутников по съемке и обработке информации с датчиков и мониторит объекты нефтегазовой и энергетической отраслей в любой точке страны.

На встрече присутствовали:

➡️ «Элрон» — производит микроконтроллеры для одноплатных компьютеров;
➡️ «Дата Ист» — предоставляет услуги по созданию и внедрению геоинформационных систем;
➡️ «Сибирские нейросети» — разрабатывают большие языковые модели;
➡️ «СИА» — создает двигатели для малых спутников;
➡️ SoftLab-NSK — разрабатывает системы на принципах виртуальной реальности.

В ходе встречи были найдены точки соприкосновения и обозначены конкретные шаги для потенциального взаимодействия АО с резидентами Технопарка.

Подробнее читайте на сайте и в приложении Академпарка.
👍41
❤️ Вчера 24.07 встретились с генеральным директором АО «СС «Гонец» Павлом Черенковым для обсуждения возможностей сотрудничества.
АО «Спутниковая система «Гонец» является оператором отечественных систем связи и ретрансляции, созданных по заказу Государственной корпорации «Роскосмос». Компания управляет группой спутников, решающих задачи мониторинга объектов нефтегазовой и энергетической отраслей нашей страны.

Мы продемонстрировали наши сервисы на базе ИИ - речевую аналитику и большие языковые модели. Коллег заинтересовали разработки в области больших языковых моделей. Павел Черенков указал нашей команде на возможность использовать наши разработки для предварительной обработки данных на борту спутников.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2👏1
https://sibnn.ai/ - Мы рады сообщить, что обновили наш веб-сайт. Собрали в одном месте наши основные продукты и открытые модели 😊
🔥8👍2
Добрый день 😊
Мы сегодня выступаем и демонстрируем наши разработки на международном форуме “Технопром”и Сибирской венчурной ярмарке.

На демонстрационном стенде покажем свои разработки для решения задач в области речевых технологий, обработки текстов на естественном языке, а также нейросетевые, шумоустойчивые и адаптируемые к доменной лексике модели распознавания речи, большие мультизадачные и мультимодальные языковые модели.
Кто сегодня здесь, приходите в 10й зал на наш стенд (1й этаж) 😀
👍6🔥21
Лучший питч на форуме "Городские технологии" от Ивана Юрьевича ☺️
👍8🔥2
Дали интервью для официального канала фонда Сколково 💗
🔥2
Forwarded from Skolkovo LIVE
Media is too big
VIEW IN TELEGRAM
📣 Языковая модель, которая действует без облака — такое решение представляет на «Технопроме» наш резидент «Сибирские нейросети». Продукт способен обработать корпоративные данные любого заказчика, чтобы его сотрудники могли с удобством получать доступ к нужной информации при помощи чат-бота!

Стартап получил резидентство этим летом по программе Fast Track — она позволяет пройти сколковскую экспертизу по ускоренной процедуре и воспользоваться поддержкой менторов, чтобы развиваться быстрее и эффективнее.

Какие еще разработки презентует компания на форуме? Узнайте из нашего репортажа!

👋 Skolkovo LIVE — инновации тут
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥1👏1😁1
На Сибирской венчурной ярмарке отметили наш проект как один из наиболее инвестиционно привлекательных 😊
👍8🔥2
Forwarded from Skolkovo LIVE
🎉 Участник «Сколково» признан одним из лучших на Сибирской венчурной ярмарке!

Компания «Сибирские нейросети» заняла второе место по итогам питч-сессии. Победителей поздравил Вадим Васильев, министр образования науки и инновационной политики Новосибирской области.

Этим летом стартап получил статус резидента «Сколково» по Fast Track — программе, позволяющей быстрее пройти сколковскую экспертизу, проконсультироваться с менторами для более эффективного развития технологий.

❗️На ярмарке наши эксперты отобрали перспективные проекты, которым предложили бесплатно поучаствовать в Fast Track — это «Бридж-ИТ», «Агроспектр» и «БИТ». Сертификаты вручил Александр Фертман, управляющий директор центра индустриальных технологий «Сколково».

👋 Skolkovo LIVE — инновации тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Развернули бота на базе нашей маленькой модели.
@sibnn_bot
Пока он ребенок и многого не умеет, но мы его активно обучаем 😜
👍1
Многие компании уже сделали сабмит своих моделей на бенчмарке MERA. А мы решили проверить, какие результаты покажет открытая модель без какого-либо дообучения (наши сабмиты подписаны НГУ, потому что совместно проводим исследования).

В качестве такой модели взяли Qwen2-72B-Instruct-GPTQ-Int4, которая сразу же попала на 3-е место в лидерборде!

Эта квантизованная версия модели состоит из 72B параметров, сжатых в 4-битное представление с фиксированной запятой. Модель была обучена нашими коллегами из "Алибабы" преимущественно на английском и китайском языках, а также дополнительно на 27 языках, включая русский. Длина контекста для предварительного обучения 128 тыс токенов.
Модель незначительно уступает в качестве моделям GigaChat-Pro (29B параметров) и MTS AI Chat Medium. При этом модель Qwen2 обогнала такие модели как GigaChat Lite, T-lite-0.1, MTS AI Chat 7B, Mixtral 8x7B Instruct и многие другие.

Модель показала самые высокие результаты среди других русскоязычных LLM на задачах MathLogicQA (Accuracy 0.681) и PARus (Accuracy 0.958) - задаче выбора наиболее логичного продолжения для заданной ситуации.

Заметно хуже модель пока справляется с задачами на понимание кода - это видно по задачам BPS и LCS, на которых модель показала значения точности 0.038 и 0.15 соответственно.
Более подробная аналитика нашего сабмита.

При этом стоит отметить, что из моделей семейства Qwen именно эта версия заметно превзошла по качеству все остальные. Следующая лучшая версия модели Qwen - Qwen 7B Instruct - показала общий результат на MERA только 0.443 (Qwen2-72B-Instruct-GPTQ-Int4 - 0.542).
🔥3