Cегодня в секции OpenSource на DataFest 2025 - доклад в Белграде, в офисе Яндекса.
В 16-10 выступает Алексей Васильев, исполнительный директор по исследованию данных в Сбере:
OpenSource в Sber AI Lab. Библиотека для создания рекомендательных систем RePlay
Большинство фреймворков в области рекомендаций нацелены в первую очередь на исследователей и требуют модификации для использования в продакшене из-за невозможности работы с большими наборами данных или неподходящей архитектуры. Мы представляем нашу библиотеку с открытым исходным кодом RePlay — фреймворк, содержащий сквозной конвейер для построения рекомендательных систем, который готов к использованию в проде.
Кто регистрировался на площадку - приходите, для остальных - выложим видео и презентацию позже, в комментариях к этому посту.
В 16-10 выступает Алексей Васильев, исполнительный директор по исследованию данных в Сбере:
OpenSource в Sber AI Lab. Библиотека для создания рекомендательных систем RePlay
Большинство фреймворков в области рекомендаций нацелены в первую очередь на исследователей и требуют модификации для использования в продакшене из-за невозможности работы с большими наборами данных или неподходящей архитектуры. Мы представляем нашу библиотеку с открытым исходным кодом RePlay — фреймворк, содержащий сквозной конвейер для построения рекомендательных систем, который готов к использованию в проде.
Кто регистрировался на площадку - приходите, для остальных - выложим видео и презентацию позже, в комментариях к этому посту.
👍6
Сегодня - следующий день опенсорс-докладов DataFest, который пройдёт в СПб на площадке Selectel. Для тех кто удалённо - трансляция будет тут.
Сегодня в программе четыре доклада, начиная с 20-30 и до 22-30:
1. SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Владимир Игошин, ИТМО
Расскажем о том, что такое дифракционные нейросети, представим нашу открытую библиотеку для их моделирования и нашем опыте разработки.
2. Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска моделей машинного обучения
Кирилл Колодяжный, YADRO
Хочу рассказать про исследовательский и образовательный проект Adept который я сейчас разрабатываю - это платформа для обучения нейронных сетей. Основная цель: создать базу для курса по построению ML-платформ, чтобы познакомить студентов со всеми компонентами от реализации библиотек линейной алгебры до Python-интерфейса с которым работают ML-инженеры. Также в планах реализовать конвейер обучения моделей на Vulkan и OpenCL, чтобы была альтернатива CUDA. Сейчас проект уже используется как база для студенческой практики.
3. Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Андрей Новицкий, независимый разработчик
Построение систем искусственного интеллекта и машинного обучения (AI/ML), работающих в режиме реального времени - непростая инженерная задача, особенно в части обработки данных.
В этом докладе мы обсудим связанные с этим ключевые сложности (вычисление онлайн и оффлайн фичей, построение feature platform и т.д.), рассмотрим существующие open-source решения (Flink, Spark, Chronon) и проприетарные облачные платформы (Tecton-ai, Fennel-ai, Chalk-ai), а затем представим Volga — open-source движок обработки данных, призванный стать улучшенной альтернативой упомянутым системам. Github: https://github.com/volga-project/volga, блог: https://volgaai.substack.com/
4. Обучение на табличных данных в Postgres
Александр Календарёв, разработчик OpenSource
Доклад о плюсах и минусах внедрения библиотеки CatBoost в PostgreSQL. Так же в начале сделаю обзор существующих проектов машинного обучения в PostgreSQL и расскажу, чем они отличаются от моего решения. Расскажу какие есть идеи и что уже внедрено. Будет демонстрация на датасетах с kaggle.
До встречи!
Сегодня в программе четыре доклада, начиная с 20-30 и до 22-30:
1. SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Владимир Игошин, ИТМО
Расскажем о том, что такое дифракционные нейросети, представим нашу открытую библиотеку для их моделирования и нашем опыте разработки.
2. Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска моделей машинного обучения
Кирилл Колодяжный, YADRO
Хочу рассказать про исследовательский и образовательный проект Adept который я сейчас разрабатываю - это платформа для обучения нейронных сетей. Основная цель: создать базу для курса по построению ML-платформ, чтобы познакомить студентов со всеми компонентами от реализации библиотек линейной алгебры до Python-интерфейса с которым работают ML-инженеры. Также в планах реализовать конвейер обучения моделей на Vulkan и OpenCL, чтобы была альтернатива CUDA. Сейчас проект уже используется как база для студенческой практики.
3. Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Андрей Новицкий, независимый разработчик
Построение систем искусственного интеллекта и машинного обучения (AI/ML), работающих в режиме реального времени - непростая инженерная задача, особенно в части обработки данных.
В этом докладе мы обсудим связанные с этим ключевые сложности (вычисление онлайн и оффлайн фичей, построение feature platform и т.д.), рассмотрим существующие open-source решения (Flink, Spark, Chronon) и проприетарные облачные платформы (Tecton-ai, Fennel-ai, Chalk-ai), а затем представим Volga — open-source движок обработки данных, призванный стать улучшенной альтернативой упомянутым системам. Github: https://github.com/volga-project/volga, блог: https://volgaai.substack.com/
4. Обучение на табличных данных в Postgres
Александр Календарёв, разработчик OpenSource
Доклад о плюсах и минусах внедрения библиотеки CatBoost в PostgreSQL. Так же в начале сделаю обзор существующих проектов машинного обучения в PostgreSQL и расскажу, чем они отличаются от моего решения. Расскажу какие есть идеи и что уже внедрено. Будет демонстрация на датасетах с kaggle.
До встречи!
🔥6❤1👍1
Недавно писали про вебинар лаборатории LISA ИТМО, где мы применяли наш инструмент для улучшения репозиториев OSA к студенческим научным проектам.
И вот стала доступна запись (YouTube и ВК) и ссылки на обработанные репозитории - см. репост ниже.
Не везде доработка получилось идеальной, но в целом оказалось полезным. Вот, например, отзыв от автора одного из проектов - CGT4NN:
"OSA очень много полезного сделала в моём репозитории, что делать руками было бы долго и неприятно. Например, она создала workflows для автоматизации тестирования и сгенерировала docstrings для определений функций. Меня радует, что такая рутинная работа была сделана за меня."
И вот стала доступна запись (YouTube и ВК) и ссылки на обработанные репозитории - см. репост ниже.
Не везде доработка получилось идеальной, но в целом оказалось полезным. Вот, например, отзыв от автора одного из проектов - CGT4NN:
"OSA очень много полезного сделала в моём репозитории, что делать руками было бы долго и неприятно. Например, она создала workflows для автоматизации тестирования и сгенерировала docstrings для определений функций. Меня радует, что такая рутинная работа была сделана за меня."
🔥7👍1
Forwarded from Lisa.itmo
Media is too big
VIEW IN TELEGRAM
21 мая прошла встреча и мы готовы поделиться результатами анализа репозиториев проектов в экосистеме LISA-ITMO
Материалы генерации проекта OSA по репозиториям LISA:
1. CGT4NN — базовая и с учетом тезиса
2. bot_vasily — базовая и с учетом тезиса
3. LLM-resume-moderator — базовая и с учетом тезиса
4. SchoolOCR — с учетом тезиса
5. teept-gui-assistant — базовая и с учетом тезиса
6. universal_eduplatform — базовая и с учетом тезиса
Благодарим приглашенных экспертов из NSS Lab: Николая Никитина и Андрея Гетманова! 🔥
Запись встречи с таймкодами на YouTube и ВК 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥1
Некоторое время назад наш подписчик Валерий рассказал об очень любопытном опенсорсном инструменте для генерации постеров с помощью (v)LLM - https://github.com/Paper2Poster/Paper2Poster. Тут же заинтересовались - делать постеры обычно нужно быстро и адекватное начальное приближение в формате pptx было бы довольно полезно.
Попробовали прогнать нашу статью c NeurIPS 2024. Первая картинка - сгенерированный ИИ-инструментом постер, вторая - авторская версия, представленная на конференции.
Вывод: пока не оч. Всё-таки выглядит "скучно" и не особо информативно. При этом данный результат получился не с первого раза - если загружать полный текст статьи с appendix-ами, то получается совсем так себе, пришлось его вырезать.
Из плюсов - всё можно доработать вручную в поверпоинте. Но вот будет ли сильно быстрее ли чем делать вручную с нуля - не факт. Ну и радует что инструмент заработал и выдал обещанный результат - т.е. технически реализовано неплохо.
Так что пока это скорее добротный proof-of-concept, чем рабочий инструмент.
С другой стороны, каких только постеров на конференциях не встретишь, стена текста на куче мятых А4 - ещё не самое странное. Так что может через пару итераций доработки будет вполне полезный ассистент ученого-статьеписателя.
P.S. За эксперименты c генерацией постеров спасибо Ярославу @staeros.
Попробовали прогнать нашу статью c NeurIPS 2024. Первая картинка - сгенерированный ИИ-инструментом постер, вторая - авторская версия, представленная на конференции.
Вывод: пока не оч. Всё-таки выглядит "скучно" и не особо информативно. При этом данный результат получился не с первого раза - если загружать полный текст статьи с appendix-ами, то получается совсем так себе, пришлось его вырезать.
Из плюсов - всё можно доработать вручную в поверпоинте. Но вот будет ли сильно быстрее ли чем делать вручную с нуля - не факт. Ну и радует что инструмент заработал и выдал обещанный результат - т.е. технически реализовано неплохо.
Так что пока это скорее добротный proof-of-concept, чем рабочий инструмент.
С другой стороны, каких только постеров на конференциях не встретишь, стена текста на куче мятых А4 - ещё не самое странное. Так что может через пару итераций доработки будет вполне полезный ассистент ученого-статьеписателя.
P.S. За эксперименты c генерацией постеров спасибо Ярославу @staeros.
🔥13
Итак, настал финальный день DataFest 2025.
Сегодня в онлайн-программе доклады секции Opensource, начиная с 14-00 мск:
1. Александр Нозик, Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Термин открытое программное обеспечение у всех на слуху. В этом докладе мы обсудим, что такое открытое программное обеспечение, какова его история и какие типы такого ПО бывают. Обсудим создание комьюнити и коммерциализации таких проектов на примере экосистемы KScience, включающей такие проекты как KMath, Controls-kt, VisionForge и Maps-kt. Ну и наконец мы обсудим, как может выглядеть экосистема открытого ПО для промышленности на базе вузов.
2. Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ
Как ученые-стратеги понимают open source
Доклад про то, как ученые-стратеги смотрят на явление open source, какие существуют мифы и заблуждения, какие новые взгляды и инициативы стоит знать. Поговорим о (1) развитии научной мысли и подходов к open source с позиции стратегического управления организациями — от простейших концепций и бизнес-моделей к развитию организационных способностей. Кроме того, обсудим (2) мягкие инициативы государственных структур и регуляторов в данной области — от open source-реестров к геостратегическому взгляду на феномен открытой разработки технологий.
3. Антон Ширяев
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
VLMHyperBench позволяет: сравнивать модели, запускаемые на разных фреймворках инференса (Hugging Face, vLLM, SGLang и др.); сравнивать между собой модели, несовместимые по зависимостям; оценивать подбираемые промпты для каждого отдельного типа документа и каждого отдельного поля документа, объединяя их в коллекции промптов; подбирать коллекцию промптов для каждого типа вопроса, если их конечное множество, как в документах; использовать коллекции промптов и системных промптов подобранных индивидуально для каждой модели, чтобы получать максимум от ее возможностей; легко добавлять свои наборы данных, модели, типы задач, метрики и визуализации результатов оценки за счет модульной и расширяемой архитектуры; проводить оценку метрик с агрегацией: по каждому отдельному объекту датасета индивидуально, группируя тип вопроса и промпт, группируя по типу вопроса, по всему датасету. Вдохновившись примером Дональда Кнута, мы решили создать собственный open source фреймворк, сочетающий данные возможности и особенности.Следить за нашим проектом удобнее всего через официальный новостной канал. Проект был поддержан грантом Yandex Open Source 2025 г.
4. Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО
CTCI - библиотека для анализа однородных промышленных данных.
Однородные плотно сгруппированные промышленные данные - это, например, камни в кучах и на конвейере, пузырьки флотации, гранулы удобрений и так далее, т.е. те данные, которые достаточно сложно и дорого размечать, и даже автоматическая разметка с помощью фундаментальных моделей не всегда помогает. В инструменте CTCI мы предлагаем способы размечать автоматически, при этом значительно экономя время, но достигая сопоставимых результатов.
——
Также проанонсирую доклад в соседнем треке AI4SE, который пройдет в 12-00 мск:
Андрей Гетманов, ML researcher и open-source разработчик, Институт ИИ ИТМО:
OSA: Как помочь учёным писать хороший код
Тут Андрей расскажет про новые обновления в нашем инструменте OSA (в частности - покажет прототип графического интерфейса).
Приглашаем всех послушать и позадавать вопросы. Пароль от ODS спейса: datafest2025_0106, а а ссылка тут - https://ods.ai/events/df2025-01-june-online
Сегодня в онлайн-программе доклады секции Opensource, начиная с 14-00 мск:
1. Александр Нозик, Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Термин открытое программное обеспечение у всех на слуху. В этом докладе мы обсудим, что такое открытое программное обеспечение, какова его история и какие типы такого ПО бывают. Обсудим создание комьюнити и коммерциализации таких проектов на примере экосистемы KScience, включающей такие проекты как KMath, Controls-kt, VisionForge и Maps-kt. Ну и наконец мы обсудим, как может выглядеть экосистема открытого ПО для промышленности на базе вузов.
2. Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ
Как ученые-стратеги понимают open source
Доклад про то, как ученые-стратеги смотрят на явление open source, какие существуют мифы и заблуждения, какие новые взгляды и инициативы стоит знать. Поговорим о (1) развитии научной мысли и подходов к open source с позиции стратегического управления организациями — от простейших концепций и бизнес-моделей к развитию организационных способностей. Кроме того, обсудим (2) мягкие инициативы государственных структур и регуляторов в данной области — от open source-реестров к геостратегическому взгляду на феномен открытой разработки технологий.
3. Антон Ширяев
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
VLMHyperBench позволяет: сравнивать модели, запускаемые на разных фреймворках инференса (Hugging Face, vLLM, SGLang и др.); сравнивать между собой модели, несовместимые по зависимостям; оценивать подбираемые промпты для каждого отдельного типа документа и каждого отдельного поля документа, объединяя их в коллекции промптов; подбирать коллекцию промптов для каждого типа вопроса, если их конечное множество, как в документах; использовать коллекции промптов и системных промптов подобранных индивидуально для каждой модели, чтобы получать максимум от ее возможностей; легко добавлять свои наборы данных, модели, типы задач, метрики и визуализации результатов оценки за счет модульной и расширяемой архитектуры; проводить оценку метрик с агрегацией: по каждому отдельному объекту датасета индивидуально, группируя тип вопроса и промпт, группируя по типу вопроса, по всему датасету. Вдохновившись примером Дональда Кнута, мы решили создать собственный open source фреймворк, сочетающий данные возможности и особенности.Следить за нашим проектом удобнее всего через официальный новостной канал. Проект был поддержан грантом Yandex Open Source 2025 г.
4. Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО
CTCI - библиотека для анализа однородных промышленных данных.
Однородные плотно сгруппированные промышленные данные - это, например, камни в кучах и на конвейере, пузырьки флотации, гранулы удобрений и так далее, т.е. те данные, которые достаточно сложно и дорого размечать, и даже автоматическая разметка с помощью фундаментальных моделей не всегда помогает. В инструменте CTCI мы предлагаем способы размечать автоматически, при этом значительно экономя время, но достигая сопоставимых результатов.
——
Также проанонсирую доклад в соседнем треке AI4SE, который пройдет в 12-00 мск:
Андрей Гетманов, ML researcher и open-source разработчик, Институт ИИ ИТМО:
OSA: Как помочь учёным писать хороший код
Тут Андрей расскажет про новые обновления в нашем инструменте OSA (в частности - покажет прототип графического интерфейса).
Приглашаем всех послушать и позадавать вопросы. Пароль от ODS спейса: datafest2025_0106, а а ссылка тут - https://ods.ai/events/df2025-01-june-online
🔥6🤩2
Через 10 минут начнётся секция Open Source DataFest 2025
Подключаться сюда
Пароль: datafest2025_0106
После подключения заходите в комнату Open Source
Задавайте вопросы в чате Spatial, спикеры обязательно на них ответят
Подключаться сюда
Пароль: datafest2025_0106
После подключения заходите в комнату Open Source
Задавайте вопросы в чате Spatial, спикеры обязательно на них ответят
app.spatial.chat
SpatialChat
Virtual space platform to help remote teams collaborate.
🔥5
Научный опенсорс
Сообщают, что на Хабре объявили совместный с GitVerse конкурс статей про опенсорс - https://habr.com/ru/specials/898552/ Статьи могут быть посвящены опыту создания, поддержке и сопровождении open-source-проектов, описанию глубоких погружений в код популярных…
Пару месяцев назад писал про конкурс "Сезон Open Source" на Хабре, организованный совместно с GitVerse. И вот уже 10 июня в 16-00 начнется встреча с подведением итогов и другими активностями, посвященными открытом коду. Планируется обсуждения перспектив совмещения ИИ и open-source, современных инструментов (в том числе GigaCode и GigaIDE) и перспектив области в целом.
Все подробности - в канале GitVerse, трансляция - тут.
От своей лаборатории мы подавали на конкурс посты:
1) OSA: ИИ-помощник для разработчиков научного open source (про активно нами развиваемый проект https://github.com/aimclub/OSA)
2) Нейросети со льдом (про созданный в рамках проекта КОД-ИИ фреймворк https://github.com/ChrisLisbon/TorchCNNBuilder и его использование для прикладных задач в области гидромета).
Все подробности - в канале GitVerse, трансляция - тут.
От своей лаборатории мы подавали на конкурс посты:
1) OSA: ИИ-помощник для разработчиков научного open source (про активно нами развиваемый проект https://github.com/aimclub/OSA)
2) Нейросети со льдом (про созданный в рамках проекта КОД-ИИ фреймворк https://github.com/ChrisLisbon/TorchCNNBuilder и его использование для прикладных задач в области гидромета).
🔥10❤5