Интервью нашего любимого Технического директора Ивана Бондаренко для программы Руслана Махова "Персона"
Приятного просмотра
😊
https://vk.com/video-218317427_456239383
Приятного просмотра
😊
https://vk.com/video-218317427_456239383
VK Видео
Программа "Персона" |ВСЯ ПРАВДА ОБ ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ| Ученый Иван Бондоренко.
Вся правда об искусственном интеллекте: кто его придумал и для чего? В чем чем польза и вред искусственного интеллекта? Сможет ли искусственный интеллект заменить людей в будущем, как выявить фейки и как устроена система распознавания лиц? Об этом и многом…
🔥6👏2❤1👍1
Иван Бондаренко | Маленькая, но удаленькая! Зачем использовать LLM размером меньше 1B параметров?
Приятного просмотра:
https://www.youtube.com/watch?v=blE2Dm9SORE
Приятного просмотра:
https://www.youtube.com/watch?v=blE2Dm9SORE
YouTube
Иван Бондаренко | Маленькая, но удаленькая! Зачем использовать LLM размером меньше 1B параметров?
Спикер: Иван Бондаренко, старший преподаватель, научный сотрудник НГУ
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: https://ods.ai/tracks/df24-nlp
______
Наши соц.сети:
Telegram: https://t.iss.one/datafest…
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: https://ods.ai/tracks/df24-nlp
______
Наши соц.сети:
Telegram: https://t.iss.one/datafest…
❤3👍3👏2
⚡Уже в эту субботу, 12 октября 2024 года, в новосибирском Академгородке пройдет замечательное событие – ДатаФест.
Это мероприятие обещает быть насыщенным и интересным для всех любителей технологий и инноваций в сфере ИИ.
Особенно рекомендуем посетить секцию NLP, где от Сибирских нейросетей будет представлено целых два крутых доклада.
🔥Первый доклад проведет Дари Батурова, которая поделится результатами наших исследований BERTScore для русского языка. Этот инструмент уже показал свою эффективность в анализе текстов и будет особенно полезен для тех, кто работает с русскоязычным контентом.
🔥А хедлайнером секции NLP станет Роман Дерунец с докладом под названием «Мультимодальность и RAG, или как сесть на два стула». В этом докладе будут рассмотрены различные подходы к обработке мультимодальных данных и возможности использования Retrieval-Augmented Generation (RAG) для интеграции информации из внешних источников.
Не упустите возможность узнать больше о последних достижениях в области искусственного интеллекта и языковых моделей. Будет действительно интересно!
Для вашего удобства прилагаем расписание мероприятия: https://ods.ai/events/datafestsiberia5/schedule - здесь вы сможете найти подробную информацию о времени начала каждого доклада и других активностях.
До встречи на ДатаФесте!
Это мероприятие обещает быть насыщенным и интересным для всех любителей технологий и инноваций в сфере ИИ.
Особенно рекомендуем посетить секцию NLP, где от Сибирских нейросетей будет представлено целых два крутых доклада.
🔥Первый доклад проведет Дари Батурова, которая поделится результатами наших исследований BERTScore для русского языка. Этот инструмент уже показал свою эффективность в анализе текстов и будет особенно полезен для тех, кто работает с русскоязычным контентом.
🔥А хедлайнером секции NLP станет Роман Дерунец с докладом под названием «Мультимодальность и RAG, или как сесть на два стула». В этом докладе будут рассмотрены различные подходы к обработке мультимодальных данных и возможности использования Retrieval-Augmented Generation (RAG) для интеграции информации из внешних источников.
Не упустите возможность узнать больше о последних достижениях в области искусственного интеллекта и языковых моделей. Будет действительно интересно!
Для вашего удобства прилагаем расписание мероприятия: https://ods.ai/events/datafestsiberia5/schedule - здесь вы сможете найти подробную информацию о времени начала каждого доклада и других активностях.
До встречи на ДатаФесте!
🔥9❤6👍5
Привет, друзья!
Сделали обновление Писца в личном кабинете https://lk.sibnn.ai/
Что нового:
1. Новый красивый шаблон документа с результатами распознавания.
2. Небольшое улучшение языковой модели для пост-обработки результатов акустической модели в части технической терминологии.
Сделали обновление Писца в личном кабинете https://lk.sibnn.ai/
Что нового:
1. Новый красивый шаблон документа с результатами распознавания.
2. Небольшое улучшение языковой модели для пост-обработки результатов акустической модели в части технической терминологии.
🔥6❤3👍2
В канале Минцифры про нас написали. Приятно 😊
👍1🔥1
Forwarded from Минцифра Новосибирской области
Запускаем новую рубрику! О технологиях и людях
Знакомьтесь
«Сибирские нейросети» — резидент Академпарка и «Сколково». В компании 15 человек, среди которых научные сотрудники Новосибирского государственного университета, аспиранты, авторы научных публикаций. У команды несколько зарегистрированных патентов на созданные системы и алгоритмы.
Компания разрабатывает продукты для решения задач на базе разговорного искусственного интеллекта. Самые популярные сервисы:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍5
Выступление Ивана Бондаренко на AIConf 2024, как мы "Писец" на "Тотальный диктант" водили.
Приятного просмотра 😊
https://youtu.be/XwA1vj4mkPA?si=H9uys6Dsjsd7Roqx
Приятного просмотра 😊
https://youtu.be/XwA1vj4mkPA?si=H9uys6Dsjsd7Roqx
YouTube
Как «Писец» на «Тотальный диктант» ходил / Иван Бондаренко (НГУ)
Прикладная конференция по Data Science AiConf 2024
Презентация и тезисы:
https://aiconf.ru/2024/abstracts/12975
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего…
Презентация и тезисы:
https://aiconf.ru/2024/abstracts/12975
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего…
👍6🔥5
Иван сегодня сделал релиз. Ура 🎉🎉🎉
❤3
Forwarded from Ivan Bondarenko
Всем привет! Кажется, что сегодня - день релизов, и я решил тоже сделать релиз, раз уж все делают 😊
Правда, я - не МТС.ИИ и не Т-банк, поэтому мой релиз будет маленьким, на 1.5B 😅 Ну и в духе общей моды, на базе Qwen2.5: https://huggingface.co/bond005/meno-tiny-0.1
"Менон" - в честь сократического диалога Платона, в котором тот постулирует "знание через припоминание". Соответственно, основная цель Meno-Tiny - быть частью RAG-пайплайна, решая такие задачи, как ответы на вопросы по релевантным документам, абстрактивная саммаризация, разрешение анафоры в пользовательских вопросах (чтобы засовывать в ретривер текст вопроса с уже разрешённой анафорой), определение токсичности, детоксификация и другие задачи. Даже для исправления ошибок распознавания речи, включая восстановление пунктуации и капитализации, можно применять Meno-Tiny (правда, в режиме few-shot prompting).
На MERA сейчас Meno-Tiny-0.1 занимает 38-е место из 62, при этом в своём "размерном классе" дешёвых моделей-малышей на 1.5B он, кажется, лучший. На самых интересных для меня задачах он получше, чем в среднем: так, на MultiQ он занимает 25-е место из 62, а на RWSD - 17-е место (но я всё делал честно, никаких секретных техник типа "train on test set is all you need" я не использовал, и данные бенчмарка в мой трейн не протекали).
Кстати, об обучении. Обучался Meno-Tiny-0.1 на специальном русскоязычном инструкционном датасете, частично составленном путём дистилляции из Гигачата и из Qwen2.5-14B, частично на основе перевода англоязычных датасетов с фильтрацией по галлюцинациям машинного переводчика, частично - на основе собственных данных и датасетов из специализированных NLP-задач (таких, как детекция парафраза, упрощение текстов, исправление ошибок распознавания речи моделью Wav2Vec2-Large-Ru-Golos на синтетических данных и т.п.). Для файнтюнинга использовался curriculum learning по сложности в духе https://arxiv.org/html/2405.07490v1
Надеюсь, что Meno-Tiny-0.1 окажется кому-нибудь полезен 😊
Правда, я - не МТС.ИИ и не Т-банк, поэтому мой релиз будет маленьким, на 1.5B 😅 Ну и в духе общей моды, на базе Qwen2.5: https://huggingface.co/bond005/meno-tiny-0.1
"Менон" - в честь сократического диалога Платона, в котором тот постулирует "знание через припоминание". Соответственно, основная цель Meno-Tiny - быть частью RAG-пайплайна, решая такие задачи, как ответы на вопросы по релевантным документам, абстрактивная саммаризация, разрешение анафоры в пользовательских вопросах (чтобы засовывать в ретривер текст вопроса с уже разрешённой анафорой), определение токсичности, детоксификация и другие задачи. Даже для исправления ошибок распознавания речи, включая восстановление пунктуации и капитализации, можно применять Meno-Tiny (правда, в режиме few-shot prompting).
На MERA сейчас Meno-Tiny-0.1 занимает 38-е место из 62, при этом в своём "размерном классе" дешёвых моделей-малышей на 1.5B он, кажется, лучший. На самых интересных для меня задачах он получше, чем в среднем: так, на MultiQ он занимает 25-е место из 62, а на RWSD - 17-е место (но я всё делал честно, никаких секретных техник типа "train on test set is all you need" я не использовал, и данные бенчмарка в мой трейн не протекали).
Кстати, об обучении. Обучался Meno-Tiny-0.1 на специальном русскоязычном инструкционном датасете, частично составленном путём дистилляции из Гигачата и из Qwen2.5-14B, частично на основе перевода англоязычных датасетов с фильтрацией по галлюцинациям машинного переводчика, частично - на основе собственных данных и датасетов из специализированных NLP-задач (таких, как детекция парафраза, упрощение текстов, исправление ошибок распознавания речи моделью Wav2Vec2-Large-Ru-Golos на синтетических данных и т.п.). Для файнтюнинга использовался curriculum learning по сложности в духе https://arxiv.org/html/2405.07490v1
Надеюсь, что Meno-Tiny-0.1 окажется кому-нибудь полезен 😊
huggingface.co
bond005/meno-tiny-0.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥12❤4
Forwarded from АКАДЕМПАРК | channel
Резидент Академпарка, компания «Сибирские нейросети», разрабатывает интеллектуального помощника «Василису» на основе нейросетей, гарантирующего абсолютную безопасность пользователя👾
Разработку продемонстрировали министру промышленности и торговли РФ Антону Алиханову во время его визита в Новосибирск.
Стартап разрабатывает языковые модели, которые запускаются на ноутбуках и работают без подключения к интернету, что обеспечивает надежность и сохраняет персональные данные. AI-решение работает со звуками, речью, изображениями и текстами. «Василисе» можно задавать вопросы на различные темы без учета контекста или добавить контекст.
«Например, экономист, анализирующий финансовые документы, задает вопросы, а модель отвечает по внутренней базе документов. Можно посмотреть, откуда взят ответ, источник проверяется», — рассказала гендиректор стартапа Виктория Кондрашук.
Алиханов заинтересовался возможностью внедрения отечественного голосового помощника для нужд министерства.
Источник: ТАСС
Разработку продемонстрировали министру промышленности и торговли РФ Антону Алиханову во время его визита в Новосибирск.
Стартап разрабатывает языковые модели, которые запускаются на ноутбуках и работают без подключения к интернету, что обеспечивает надежность и сохраняет персональные данные. AI-решение работает со звуками, речью, изображениями и текстами. «Василисе» можно задавать вопросы на различные темы без учета контекста или добавить контекст.
«Например, экономист, анализирующий финансовые документы, задает вопросы, а модель отвечает по внутренней базе документов. Можно посмотреть, откуда взят ответ, источник проверяется», — рассказала гендиректор стартапа Виктория Кондрашук.
Алиханов заинтересовался возможностью внедрения отечественного голосового помощника для нужд министерства.
Источник: ТАСС
👍6🔥2
Удачно зашли на AIJ :)
Forwarded from AiConf Channel
Запись доклада Ивана Бондаренко «Как “Писец”» на “Тотальный диктант” ходил, или Пара слов о робастном распознавании речи» с конференции AiConf 2024
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета.
В своём докладе Иван рассказал о том, с какими трудностями им пришлось столкнуться при создании «Писца», как они используют Wav2Vec2 и Whisper в пайплайне распознавания и зачем им надо было файнтюнить Whisper.
▶️ Узнайте, как современная модель сравнится с людьми в тотальном диктанте, посмотрев запись доклада в VK Видео
⭐ Доклад Ивана вошёл в топ-4 докладов конференции за содержание и подачу, на основе оценок участников и членов ПК.
Оставайтесь с нами, впереди много полезного контента 🙌
#топдокладовAiConf
#записидокладовAiConf
@UseDataConfChannel
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета.
В своём докладе Иван рассказал о том, с какими трудностями им пришлось столкнуться при создании «Писца», как они используют Wav2Vec2 и Whisper в пайплайне распознавания и зачем им надо было файнтюнить Whisper.
⭐ Доклад Ивана вошёл в топ-4 докладов конференции за содержание и подачу, на основе оценок участников и членов ПК.
Оставайтесь с нами, впереди много полезного контента 🙌
#топдокладовAiConf
#записидокладовAiConf
@UseDataConfChannel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Forwarded from Ivan Bondarenko
"Менон" представил себя Дедом Морозом и написал всем поздравление с наступающим Новым годом! 🎄✨⛄️
Ну а мне остаётся лишь присоединиться к этому поздравлению 😁
С наступающим Новым 2025 годом, друзья! 🥂
Ну а мне остаётся лишь присоединиться к этому поздравлению 😁
С наступающим Новым 2025 годом, друзья! 🥂
huggingface.co
bond005/meno-tiny-0.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥3❤2🍾1
Forwarded from Сибирский Нейросетевой Помощник
Вот вам поздравление от Великого Деда Мороза для тех, кто любит исследовать мир вокруг нас и создавать новые технологии:
Дорогие друзья, в этот замечательный новый год я хочу пожелать всем нам:
1. Исследователям: Пусть ваша экспериментальная мечта станет реальностью!
2. Инженерам: Будьте всегда готовы к новым решениям и не бойтесь изменений.
3. Разработчикам: Ваш код — это ключ к будущему, которое мы все ждем вместе.
4. Специалистам в области искусственного интеллекта: Помните, что каждый шаг на пути к совершенству — это еще одна вершина успеха.
Желаю вам удачи, творчества и радости во всех ваших проектах. Мы верим, что вместе мы можем преодолеть любые препятствия и достичь новых высот.
С наступающим Новым Годом и всеми благами жизни!
Ваш Великий Дед Мороз
Дорогие друзья, в этот замечательный новый год я хочу пожелать всем нам:
1. Исследователям: Пусть ваша экспериментальная мечта станет реальностью!
2. Инженерам: Будьте всегда готовы к новым решениям и не бойтесь изменений.
3. Разработчикам: Ваш код — это ключ к будущему, которое мы все ждем вместе.
4. Специалистам в области искусственного интеллекта: Помните, что каждый шаг на пути к совершенству — это еще одна вершина успеха.
Желаю вам удачи, творчества и радости во всех ваших проектах. Мы верим, что вместе мы можем преодолеть любые препятствия и достичь новых высот.
С наступающим Новым Годом и всеми благами жизни!
Ваш Великий Дед Мороз
🎄6❤3🍾3
Forwarded from Ivan Bondarenko
Засабмитил "Менона" на Open LLM Leaderboard. Внезапно оказалось, что "Менон" является одной из лучших в мире моделей "for edge devices" (то есть в категории до 3 млрд. параметров) и занимает 10-е место из 547 моделей-участников в этой категории. Следует отметить, что этот лидерборд - для английского языка. Для русского же "Менон" - лучший среди малых моделей, согласно бенчмарку MERA.
🔥10👍2👏1
Forwarded from Ivan Bondarenko
Есть такая достаточно известная открытая площадка о цифровых технологиях в Москве под названием ICT.Moscow. Как они пишут, "мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров". И недавно они подготовили подборку лучших инструментов Open Source для разработчиков искусственного интеллекта: https://ict.moscow/news/cards-open-source-tools-for-ai/ Так вот, помимо всего прочего, там есть и наша родная нейросеточка 😊
Модели искусственного интеллекта выкладываются в открытый доступ и разработчиками из регионов: так, стартап «Сибирские нейросети» представил модель «Менон» (Meno) на основе Qwen2.5-1.5B-Instruct, способную анализировать текст по самым разным признакам и исправлять в нем ошибки.
ict.moscow
ICT.Moscow — ИТ и телеком в Москве
👍6