❤️🔥Выступление Ивана Бондаренко на DataFusion 2025:
https://broadcast.comdi.com/watch/rc34lydi
👆Супер краткое содержание:
Докладчик подчеркнул, что, хотя большие языковые модели (LLM) демонстрируют значительный прогресс, их использование связано с высокими затратами на обучение и инференс, что ограничивает их применение. Вместе с тем, развитие больших моделей также способствовало прогрессу малых языковых моделей, которые содержат до 7 миллиардов параметров. Эти модели более доступны для использования и обучения на стандартном оборудовании, и они могут быть эффективными в специализированных задачах.
Докладчик, Иван Бондаренко, представил исследования и внедрение малых генеративных моделей в различных отраслях, включая образование и промышленность. Он отметил, что малые модели могут быть использованы для решения задач, связанных с пониманием и манипулированием текстом, и они могут быть эффективно интегрированы в пайплайны с использованием внешних баз знаний.
Иван также обсудил подходы к обучению малых моделей, такие как Curriculum Learning, и отметил, что малые модели могут быть дообучены на специализированных задачах, что делает их ценными для решения конкретных бизнес-задач. Он подчеркнул, что малые модели могут улучшить экономическую эффективность и ускорить инференс, а также быть полезными для фильтрации и подготовки запросов для больших моделей.
В заключении, Иван отметил, что малые языковые модели могут быть особенно полезны в отраслях, где требуется управление базами знаний, вопросно-ответные системы, особенно с чувствительными документами, и задачи, связанные с извлечением знаний.
10 ключевых слов из доклада:
1. Малые языковые модели
2. Инференс
3. Пропускная способность
4. Генеративные модели
5. Дообучение
6. Экономическая эффективность
7. Знание о мире
8. Понимание текста
9. Retrieval-Augmented Generation (RAG)
10. Curriculum Learning
10 выводов на основе данного доклада:
1. Сложность и стоимость больших языковых моделей: Большие языковые модели требуют значительных вычислительных мощностей и затрат на обучение и инференс. Их использование может быть проблематично для многих организаций.
2. Проблемы с задержками и комплаенсом: Использование услуг ведущих поставщиков языковых моделей часто сопряжено с проблемами задержек и соблюдения регуляторных требований.
3. Развитие малых языковых моделей: Развитие больших языковых моделей стимулировало прогресс в малых языковых моделях, которые имеют до 7 миллиардов параметров и могут быть эффективно использованы большинством организаций на собственных мощностях.
4. Эффективность малых моделей: Малые языковые модели могут быть не менее эффективны, а иногда даже лучше больших моделей в специализированных областях применения. Они генерируют меньше галлюцинаций и имеют лучшую пропускную способность и дешёвые инференсы.
5. Использование малых моделей в различных отраслях: Компания «Сибирские нейросети» активно внедряет малые генеративные модели в образовательной деятельности, промышленности и других отраслях бизнеса.
6. Эволюция нейросетей: Нейросети имеют длительную историю, начиная с середины XX века, и их сложность постоянно увеличивается. Современные большие языковые модели достигают уровня сложности человеческого мозга.
7. Перенос обучения: Малые языковые модели способны к переносу обучения, что позволяет использовать знания, полученные при решении одной задачи, для решения другой задачи с меньшим набором данных.
8. Экономическая эффективность малых моделей: Малые языковые модели экономически эффективны, так как они не требуют мощного дата-центра и обеспечивают быстрый отклик.
9. Роль базы знаний: Использование внешней базы знаний позволяет снизить требования к размеру модели и улучшить управляемость знаний, что делает малые модели более подходящими для специализированных задач.
10. Внедрение малых моделей в различных отраслях: Малые языковые модели могут быть эффективно внедрены в управление базами знаний, вопросно-ответные системы, особенно для чувствительных документов, и для специализированных задач, где требуется дообучение модели на конкретных данных.
https://broadcast.comdi.com/watch/rc34lydi
👆Супер краткое содержание:
Докладчик подчеркнул, что, хотя большие языковые модели (LLM) демонстрируют значительный прогресс, их использование связано с высокими затратами на обучение и инференс, что ограничивает их применение. Вместе с тем, развитие больших моделей также способствовало прогрессу малых языковых моделей, которые содержат до 7 миллиардов параметров. Эти модели более доступны для использования и обучения на стандартном оборудовании, и они могут быть эффективными в специализированных задачах.
Докладчик, Иван Бондаренко, представил исследования и внедрение малых генеративных моделей в различных отраслях, включая образование и промышленность. Он отметил, что малые модели могут быть использованы для решения задач, связанных с пониманием и манипулированием текстом, и они могут быть эффективно интегрированы в пайплайны с использованием внешних баз знаний.
Иван также обсудил подходы к обучению малых моделей, такие как Curriculum Learning, и отметил, что малые модели могут быть дообучены на специализированных задачах, что делает их ценными для решения конкретных бизнес-задач. Он подчеркнул, что малые модели могут улучшить экономическую эффективность и ускорить инференс, а также быть полезными для фильтрации и подготовки запросов для больших моделей.
В заключении, Иван отметил, что малые языковые модели могут быть особенно полезны в отраслях, где требуется управление базами знаний, вопросно-ответные системы, особенно с чувствительными документами, и задачи, связанные с извлечением знаний.
10 ключевых слов из доклада:
1. Малые языковые модели
2. Инференс
3. Пропускная способность
4. Генеративные модели
5. Дообучение
6. Экономическая эффективность
7. Знание о мире
8. Понимание текста
9. Retrieval-Augmented Generation (RAG)
10. Curriculum Learning
10 выводов на основе данного доклада:
1. Сложность и стоимость больших языковых моделей: Большие языковые модели требуют значительных вычислительных мощностей и затрат на обучение и инференс. Их использование может быть проблематично для многих организаций.
2. Проблемы с задержками и комплаенсом: Использование услуг ведущих поставщиков языковых моделей часто сопряжено с проблемами задержек и соблюдения регуляторных требований.
3. Развитие малых языковых моделей: Развитие больших языковых моделей стимулировало прогресс в малых языковых моделях, которые имеют до 7 миллиардов параметров и могут быть эффективно использованы большинством организаций на собственных мощностях.
4. Эффективность малых моделей: Малые языковые модели могут быть не менее эффективны, а иногда даже лучше больших моделей в специализированных областях применения. Они генерируют меньше галлюцинаций и имеют лучшую пропускную способность и дешёвые инференсы.
5. Использование малых моделей в различных отраслях: Компания «Сибирские нейросети» активно внедряет малые генеративные модели в образовательной деятельности, промышленности и других отраслях бизнеса.
6. Эволюция нейросетей: Нейросети имеют длительную историю, начиная с середины XX века, и их сложность постоянно увеличивается. Современные большие языковые модели достигают уровня сложности человеческого мозга.
7. Перенос обучения: Малые языковые модели способны к переносу обучения, что позволяет использовать знания, полученные при решении одной задачи, для решения другой задачи с меньшим набором данных.
8. Экономическая эффективность малых моделей: Малые языковые модели экономически эффективны, так как они не требуют мощного дата-центра и обеспечивают быстрый отклик.
9. Роль базы знаний: Использование внешней базы знаний позволяет снизить требования к размеру модели и улучшить управляемость знаний, что делает малые модели более подходящими для специализированных задач.
10. Внедрение малых моделей в различных отраслях: Малые языковые модели могут быть эффективно внедрены в управление базами знаний, вопросно-ответные системы, особенно для чувствительных документов, и для специализированных задач, где требуется дообучение модели на конкретных данных.
Comdi
Кейс-сессия. Малые генеративные модели
Поговорим о возможностях, перспективах и сценариях применения малых генеративных моделей. Какими техническими, организационными и экономическими преимуществами они обладают? Обсудим все этапы — от постановки задачи и обучения до внедрения и поддержки
🔥7❤1
Forwarded from НГУ|NSU
Для участия необходимо зарегистрироваться на сайте, пройти отборочный контест и собеседование.
Что ждёт участников?
- Командные проекты и общение со специалистами из индустрии.
- Работа с моделями Яндекса вроде YandexGPT и актуальными opensource-решениями, такими как Qwen.
- Лекции и семинары от разработчиков NLP-систем и академических исследователей.
- Этическая составляющая как анализ галлюцинаций, защита от jailbreak-атак и т.п.
- Разбор трансформеров от базовой архитектуры до робастного обучения IRM и комбинации с внешними источниками знаний RAG.
- Акцент на многоязычность и устойчивость NLP-моделей.
Подать заявку на участие в студкемпе можно здесь.
Важно отметить, что студенты НГУ не могут быть участниками проекта, но могут быть приглашены в роли вольных слушателей в случае успешного прохождения отбора.
Доступ к первому этапу отбора (соревнованию в контесте) уже открыт. Его можно пройти до 23:59 мск 18 мая. Советуем не откладывать решение задач.
❗️ Если вы планируете поступать в магистратуру ММФ НГУ, то сертификат участия в любом студкемпе добавит вам 10 баллов в конкурсе индивидуальных достижений.
❗️Кроме того, участникам и вольным слушателям студкемпа в НГУ предоставится возможность пройти собеседование на программу «Прикладное машинное обучение и большие данные», которая реализуется при поддержке Школы анализа данных. Студенты 3 и 4 курсов, успешно прошедшие собеседование, смогут поступить на программу без экзаменов.
@nsuniversity
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Forwarded from AINL Conference
Roman Derunets - Knowledge as Recollection: Advancing Multimodal Retrieval-Augmented Generation
VK Video
YouTube
VK Video
YouTube
🔥8👍3👏1
Погода в Нижнем Новгороде прекрасная.
На этой неделе мы среди участников ЦИПР, как и большинство представителей нашего сообщества.
Если кто-то хочет встретиться лично — напишите в ТГ, что хотите обсудить, и я передам ваш контакт нашему коммерческому директору Дмитрию для личной встречи✍️
На этой неделе мы среди участников ЦИПР, как и большинство представителей нашего сообщества.
Если кто-то хочет встретиться лично — напишите в ТГ, что хотите обсудить, и я передам ваш контакт нашему коммерческому директору Дмитрию для личной встречи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥2
Друзья, сегодня в 12.20 МСК на https://truetechday.ru/ (секция AI&ML) наш Технический директор Иван Бондаренко расскажет про обучение трансформеров и безопасный ИИ. Приходите послушать и пообщаться или подключайтесь онлайн ✍️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Forwarded from AINL Conference
Dear colleagues, we are glad to present you recording of panel discussion with invited speakers Sergey Markov and Natalia Loukashevitch, a researcher from Siberian Neuronets Ivan Bondarenko and AINL Chair Valentin Malykh. The discussion is devoted to AI development in recent years, its place in educational system and the future of AI conferences. The discussion is in Russian.
VK Video
YouTube
VK Video
YouTube
🔥4
This media is not supported in the widget
VIEW IN TELEGRAM
🔥7
Forwarded from Elena Bruches
Всем привет!
Сегодня в 20:00 по Новосибирску / 16:00 по Иван @Bond_005 расскажет про статью Exploring the Latent Capacity of LLMs for One-Step Text Generation (https://arxiv.org/pdf/2505.21189)👨💻
Ждём всех по ссылке: https://jazz.sber.ru/6hlguh?psw=OBYMChwQAgUGBgscQwQVFgkMFg
Сегодня в 20:00 по Новосибирску / 16:00 по Иван @Bond_005 расскажет про статью Exploring the Latent Capacity of LLMs for One-Step Text Generation (https://arxiv.org/pdf/2505.21189)
Ждём всех по ссылке: https://jazz.sber.ru/6hlguh?psw=OBYMChwQAgUGBgscQwQVFgkMFg
Please open Telegram to view this post
VIEW IN TELEGRAM
web.telegram.org
Telegram Web
Telegram is a cloud-based mobile and desktop messaging app with a focus on security and speed.
🔥5
Выступление Ивана Бондаренко на True Tech Day 2025 от МТС.
https://vkvideo.ru/video-226874221_456239460
https://vkvideo.ru/video-226874221_456239460
VK Видео
Между грамматикой и семантикой: чему на самом деле предобучаются трансформеры. Доклад Ивана Бондаренко | True Tech Day 2025
Иван Бондаренко — старший преподаватель и научный сотрудник НГУ, сооснователь стартапа «Сибирские нейросети», ex. Huawei
🔥4❤1
Материалы встречи 1.07.25:
🎙 Докладчик: Иван @Bond_005
📄 Статья: Exploring the Latent Capacity of LLMs for One-Step Text Generation (https://arxiv.org/pdf/2505.21189)
🎥 Запись на YouTube: https://youtu.be/Ep1x2V0ZlII
🎙 Докладчик: Иван @Bond_005
📄 Статья: Exploring the Latent Capacity of LLMs for One-Step Text Generation (https://arxiv.org/pdf/2505.21189)
🎥 Запись на YouTube: https://youtu.be/Ep1x2V0ZlII
🔥3❤1