При сабмите на конференции с double-blind review (как, например, на большинстве треков A*) у авторов периодически возникает вопрос - как упомянуть в статье свой репозиторий с кодом и данными, не утратив при этом анонимности.
Могу порекомендовать сервис, который сам использую - https://anonymous.4open.science/
Что умеет:
1) Анонимизировать существующие репо из гитхаба, меняя ссылку на свою (а при необходимости - синхронизируя дальнейшие обновления);
2) Удалять заданные ключевые слова, которые могут вас раскрыть (название, имена, технологии);
3) Чистить картинки, приложенные PDF и др.
4) Учитывать требования конкретных конференций к анонимизации;
5) Удалять анонимный репозиторий после заданной даты;
Конечно, бдительность все равно нужно сохранять. Знаю ситуацию с desk reject с NeurIPS, когда никто из соавторов не заметил, что в конце README притаился раздел в How To Cite с не до конца анонимизированной ссылкой на предыдущую статью по проекту. А вот рецензент - заметил... Было обидно.
От этого предложенный сервис не спасёт, конечно. Но вообще такие моменты умеют неплохо подмечать LLM - есть смысл им свою статью и документацию из репо тоже "показывать" (тот же бесплатный DeepSeek умеет принимать на вход документы целиком).
В общем, очень удобная штука. Всем удачных сабмитов!
Могу порекомендовать сервис, который сам использую - https://anonymous.4open.science/
Что умеет:
1) Анонимизировать существующие репо из гитхаба, меняя ссылку на свою (а при необходимости - синхронизируя дальнейшие обновления);
2) Удалять заданные ключевые слова, которые могут вас раскрыть (название, имена, технологии);
3) Чистить картинки, приложенные PDF и др.
4) Учитывать требования конкретных конференций к анонимизации;
5) Удалять анонимный репозиторий после заданной даты;
Конечно, бдительность все равно нужно сохранять. Знаю ситуацию с desk reject с NeurIPS, когда никто из соавторов не заметил, что в конце README притаился раздел в How To Cite с не до конца анонимизированной ссылкой на предыдущую статью по проекту. А вот рецензент - заметил... Было обидно.
От этого предложенный сервис не спасёт, конечно. Но вообще такие моменты умеют неплохо подмечать LLM - есть смысл им свою статью и документацию из репо тоже "показывать" (тот же бесплатный DeepSeek умеет принимать на вход документы целиком).
В общем, очень удобная штука. Всем удачных сабмитов!
👍7🔥3❤1
Небольшой дайджест интересных материалов в околоопенсорсной сфере, на основе попадавшегося за последнего время в соседних сообществах и нашем чате:
1) Выложили доклад Андрея Гетманова "OSA: как помочь учёным писать хороший код" с конференции Merge (Иннополис);
2) Вышла подборка решений для создания и управления ИИ-приложениями от российских разработчиков от ICT Moscow - про наши проекты тоже упомянули;
3) Идет набор участников на школу DataCon, посвященную применению AI/ML в разработке фармацевтических молекул. Представители NSS Lab ИТМО участвуют в программе, среди прочего - проведем мастер-класс по применения ИИ-инструмента OSA для связанных с химией открытых репозиториев;
4) Опубликованы результаты конкурса опенсорс-статей на Хабре, можно почитать посты по интересующим темам;
5) Обьявлен call for speakers на конференцию OFFZONE 2025. Есть AI-трек.
Надеюсь что-то пригодится.
Если что-то особенно любопытное пропустили - пишите в комментарии)
1) Выложили доклад Андрея Гетманова "OSA: как помочь учёным писать хороший код" с конференции Merge (Иннополис);
2) Вышла подборка решений для создания и управления ИИ-приложениями от российских разработчиков от ICT Moscow - про наши проекты тоже упомянули;
3) Идет набор участников на школу DataCon, посвященную применению AI/ML в разработке фармацевтических молекул. Представители NSS Lab ИТМО участвуют в программе, среди прочего - проведем мастер-класс по применения ИИ-инструмента OSA для связанных с химией открытых репозиториев;
4) Опубликованы результаты конкурса опенсорс-статей на Хабре, можно почитать посты по интересующим темам;
5) Обьявлен call for speakers на конференцию OFFZONE 2025. Есть AI-трек.
Надеюсь что-то пригодится.
Если что-то особенно любопытное пропустили - пишите в комментарии)
YouTube
OSA: как помочь учёным писать хороший код - Андрей Гетманов, ИТМО
IT-конференция Merge, Иннополис, 26.04.2025
В современной науке код приходится писать всем: от биологов до химиков. Они зачастую не знакомы с best practices разработки, такой код сложно прочесть и ещё сложнее запустить.
Я расскажу, как обстоят дела в ресёрче…
В современной науке код приходится писать всем: от биологов до химиков. Они зачастую не знакомы с best practices разработки, такой код сложно прочесть и ещё сложнее запустить.
Я расскажу, как обстоят дела в ресёрче…
🔥7❤3👍1
Увидел в чате SPC анонс вот такого мероприятия. Kotlin, как известно, создан выпускниками ИТМО, да ещё и сам митап проходит в Петербурге. Поэтому не могу не проанонсировать:
"28 июня состоится долгожданная встреча Kotlin User Group в Петербурге!
Мероприятие начнется с вступления легенды Kotlin— Романа Елизарова.
Мы собрали несколько тем, которые могут быть интересны для общения. про Kotlin & Spring, про Rich Errors, и про Kotlin в IoT. Обсудим интересные новости с Kotlin Conf.
И конечно — неформальное общение!
Перед тем как прийти, нужно обязательно зарегистрироваться на событие."
Кстати, если кто-то хочет адаптировать OSA к улучшению Kotlin-репозиториев - пишите, поможем.
"28 июня состоится долгожданная встреча Kotlin User Group в Петербурге!
Мероприятие начнется с вступления легенды Kotlin— Романа Елизарова.
Мы собрали несколько тем, которые могут быть интересны для общения. про Kotlin & Spring, про Rich Errors, и про Kotlin в IoT. Обсудим интересные новости с Kotlin Conf.
И конечно — неформальное общение!
Перед тем как прийти, нужно обязательно зарегистрироваться на событие."
Кстати, если кто-то хочет адаптировать OSA к улучшению Kotlin-репозиториев - пишите, поможем.
🔥4
Коллеги с ФКН ВШЭ анонсировали семинар по нашей любимой теме - "Open-source в науке".
Пройдет онлайн 27.06 (пятница), в 18-00 мск, докладчик - Иван Рубачев, исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс
Подробности про семинар и ссылка на зум - тут.
Пройдет онлайн 27.06 (пятница), в 18-00 мск, докладчик - Иван Рубачев, исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс
Подробности про семинар и ссылка на зум - тут.
🔥11🤩6
Научный опенсорс
А тем временем, близится DataFest 2025, на котором мы традиционно проводим секцию OpenSource. В карточках - описание основных локаций и докладов. Площадок несколько: 24 мая - в Москве (VK), 25 мая - в Белграде (Yandex), 29 мая - в СПб (Selectel), 1 июня …
Подоспели записи докладов опенсорс-трека с ODS DataFest - видео и материалы со всех площадок выложены тут.
Ниже - выступления очного дня в Selectel и онлайна (записями докладов с площадок VK и Белграде уже делились ранее):
Офис Selectel, Санкт-Петербург
Владимир Игошин, студента Нового Физтеха ИТМО.
SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Кирилл Колодяжный, ведущий разработчик ПО в YADRO.
Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска ML-моделей
Андрей Новицкий, независимый разработчик.
Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Александр Календарёв, разработчик OpenSource.
Обучение на табличных данных в Postgres
Онлайн
Александр Нозик, директор Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ.
Как ученые-стратеги понимают open source
Антон Ширяев, магистрант AI Talent Hub ИТМО.
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО.
CTCI - библиотека для анализа однородных промышленных данных.
Спасибо всем кто участвовал!
Ниже - выступления очного дня в Selectel и онлайна (записями докладов с площадок VK и Белграде уже делились ранее):
Офис Selectel, Санкт-Петербург
Владимир Игошин, студента Нового Физтеха ИТМО.
SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Кирилл Колодяжный, ведущий разработчик ПО в YADRO.
Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска ML-моделей
Андрей Новицкий, независимый разработчик.
Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Александр Календарёв, разработчик OpenSource.
Обучение на табличных данных в Postgres
Онлайн
Александр Нозик, директор Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.
Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ.
Как ученые-стратеги понимают open source
Антон Ширяев, магистрант AI Talent Hub ИТМО.
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.
Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО.
CTCI - библиотека для анализа однородных промышленных данных.
Спасибо всем кто участвовал!
🔥10❤6🎉3
Тем временем, ворвались на PyCon 2025 с докладом про OSA - наш инструмент для улучшения репозиториев.
Андрей Гетманов расскажет про обновления, которые многочисленные контрибьюторы (из ИТМО и не только) реализовали за последние несколько месяцев: от агента-планировщика, обеспечивающего автоматизацию комплексной обработки репозитория до улучшенной генерации документации в формате mkdocs и возможностей улучшения уже существующих README.
Кто будет на PyCon в этом году - приходите послушать и позадавать Андрею вопросы. Запись потом выложат.
Репозиторий всё тот же - https://github.com/aimclub/OSA. Заходите, пробуйте, если понравится - ставьте звездочки)
P.S. Кстати, недавно работу про OSA приняли на воркшоп CODEML конференции ICML - даже получили там статус "Spotlight". Про это тоже скоро расскажем и вышлем препринт и постер.
Андрей Гетманов расскажет про обновления, которые многочисленные контрибьюторы (из ИТМО и не только) реализовали за последние несколько месяцев: от агента-планировщика, обеспечивающего автоматизацию комплексной обработки репозитория до улучшенной генерации документации в формате mkdocs и возможностей улучшения уже существующих README.
Кто будет на PyCon в этом году - приходите послушать и позадавать Андрею вопросы. Запись потом выложат.
Репозиторий всё тот же - https://github.com/aimclub/OSA. Заходите, пробуйте, если понравится - ставьте звездочки)
P.S. Кстати, недавно работу про OSA приняли на воркшоп CODEML конференции ICML - даже получили там статус "Spotlight". Про это тоже скоро расскажем и вышлем препринт и постер.
pycon.ru
Андрей Гетманов. OSA: инструмент для повышения воспроизводимости и качества научного кода
В современной науке код приходится писать всем: от биологов до химиков. Они зачастую не знакомы с best practices разработки, такой код сложно прочесть и ещё сложнее запустить.
🔥15
Сообщают, что авторы семейства бенчмарков MERA выкатили MERA Code - новый открытый бенчмарк предназначенный для оценки больших языковых моделей на реальных прикладных задачах.
Хорошие бенчмарки сейчас вещь очень востребованная - новые модели и агенты/мультиагенты на их основе создаются очень часто, и без адекватной оценки - далеко не уедешь. В наших изысканиях по ИИ для опенсорса сталкивается с таким постоянно.
В разработке бенчмарка принимали участие команды Сбера, Т-Банка, MWS AI, Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».
Заявлены:
- Прозрачная методика оценки LLM для русского языка.
- 11 задач в формате инструкций (text2code, code2text, code2code) на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
- Открытая платформа со сквозной системой подсчёта баллов, рейтингом и удобным фреймворком для тестирования.
- И, конечно, анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода.
Репозитории - гитхаб, гитверс.
Почитать подробнее можно на Хабре или на arxiv.
Хорошие бенчмарки сейчас вещь очень востребованная - новые модели и агенты/мультиагенты на их основе создаются очень часто, и без адекватной оценки - далеко не уедешь. В наших изысканиях по ИИ для опенсорса сталкивается с таким постоянно.
В разработке бенчмарка принимали участие команды Сбера, Т-Банка, MWS AI, Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».
Заявлены:
- Прозрачная методика оценки LLM для русского языка.
- 11 задач в формате инструкций (text2code, code2text, code2code) на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
- Открытая платформа со сквозной системой подсчёта баллов, рейтингом и удобным фреймворком для тестирования.
- И, конечно, анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода.
Репозитории - гитхаб, гитверс.
Почитать подробнее можно на Хабре или на arxiv.
👍10
В цикле хабропостов Дмитрия Кабанова, посвященном опенсорсу, вышел новый материал - расширенный вариант одного из докладов с нашей секции Datafest:
От экосистемы KScience к опенсорс-хабу — рассказывает Александр Нозик, директор Центра научного программирования
Внутри - много подробностей про экосистему KScience, опыте опенсорс-разработчиков решений с бизнесом, а также обсуждение концепции университетского open source-хаба и его потенциальной финансовой модели.
При этом, если мы фокусируемся больше на опенсорсе в науке (пусть и с большим креном в сторону AI/ML), то тематику нового хаба (создаваемого на базе МФТИ) Александр обозначил как "Индустриальный open-source" (уже есть чат хаба, в котором можно поучаствовать всем заинтересованным).
От экосистемы KScience к опенсорс-хабу — рассказывает Александр Нозик, директор Центра научного программирования
Внутри - много подробностей про экосистему KScience, опыте опенсорс-разработчиков решений с бизнесом, а также обсуждение концепции университетского open source-хаба и его потенциальной финансовой модели.
При этом, если мы фокусируемся больше на опенсорсе в науке (пусть и с большим креном в сторону AI/ML), то тематику нового хаба (создаваемого на базе МФТИ) Александр обозначил как "Индустриальный open-source" (уже есть чат хаба, в котором можно поучаствовать всем заинтересованным).
Хабр
От экосистемы KScience к опенсорс-хабу — рассказывает Александр Нозик, директор Центра научного программирования
В начале лета меня пригласили на Data Fest 2025 в секцию по менеджменту и научным инициативам в open source. Делюсь расшифровкой доклада, но не своего, а одного из коллег по секции. Это — Александр...
👍9
Недавно обещал рассказать про то, как статью о нашем инструменте OSA приняли на воркшоп CODEML конференции ICML 2025.
Формат воркшопа любопытный - рассматривают статьи про новые ML-проекты с открытым кодом, багфиксы и улучшения в существующих, опыт разработки и предложения по улучшению процессов.
Поэтому написали туда короткую статью с описанием Осы и небольшими экспериментами по оценка качества генерации README и его сравнению с аналогами (ReadmeAI и др.). Получилось, на мой взгляд неплохо - с чем рецензенты и согласились.
Публикации non-archival - так что учтем полученные рецензии (довольно содержательные и позитивные) и подадим куда-нибудь ещё. Из минусов - нужна анонимизация (мне кажется, что для статей про опенсорс это несколько излишне).
Порадовало что организаторы отнесли нашу статью к категории spotlight - т.е. предложили выступить с докладом, а не только с постером. К сожалению, вживую добраться до ICML не удалось (получить визу в Канаду непросто) - но с доставкой постера помогли коллеги из AIRI, так что на воркшопе мы засветились (см. фото).
Текст статьи доступен на openreview, код - всё в том же репозитории https://github.com/aimclub/OSA.
Формат воркшопа любопытный - рассматривают статьи про новые ML-проекты с открытым кодом, багфиксы и улучшения в существующих, опыт разработки и предложения по улучшению процессов.
Поэтому написали туда короткую статью с описанием Осы и небольшими экспериментами по оценка качества генерации README и его сравнению с аналогами (ReadmeAI и др.). Получилось, на мой взгляд неплохо - с чем рецензенты и согласились.
Публикации non-archival - так что учтем полученные рецензии (довольно содержательные и позитивные) и подадим куда-нибудь ещё. Из минусов - нужна анонимизация (мне кажется, что для статей про опенсорс это несколько излишне).
Порадовало что организаторы отнесли нашу статью к категории spotlight - т.е. предложили выступить с докладом, а не только с постером. К сожалению, вживую добраться до ICML не удалось (получить визу в Канаду непросто) - но с доставкой постера помогли коллеги из AIRI, так что на воркшопе мы засветились (см. фото).
Текст статьи доступен на openreview, код - всё в том же репозитории https://github.com/aimclub/OSA.
🔥19❤3⚡3🤩2👍1
Всем летний привет от нашего сообщества!
Рады анонсировать внеочередной Scientific Open Source Meetup от нашего сообщества ITMO Opensource, который пройдет 24 июля 2025 года с 18:30 до 22:00 в Санкт-Петербурге.
Формат необычный - митап частично проводится как элемент обучения в рамках программы дополнительного профессионального образования для преподавателей и руководителей образовательных программ подготовки топ-специалистов в области ИИ. Поэтому и уклон выступлений - в сторону образования. Из-за ограниченной вместимости площадки, для широкой публики все выступления будут доступны в формате live-трансляции.
Какие доклады будут в программе митапа:
- Николай Никитин, руководитель группы научно-технического развития, Институт ИИ ИТМО - Практики создания и поддержки культуры и экосистемы открытого кода в сфере ИИ в университете
- Владислав Терещенко, аспирант лаборатории LISA, ИТМО - Как мы научили LLM-ассистента рецензировать научные работы студентов ИТМО: вновь о проекте Edulytica
- Юлия Борисова, аспирант лаборатории NSS, ИТМО - Репозитории и опенсорс для студентов - что, зачем и как?
- Дмитрий Чуканов, ведущий эксперт по технологиям GitVerse - GitVerse — пространство для развития, обучения и новых открытий
- Олег Сиротюк, лидер сообщества OpenScaler - Секреты DeepSeek: академический open source как катализатор китайских инноваций и технологической независимости
Мероприятие проходит при поддержке:
OpenScaler — сообщество разработчиков ОС с открытым исходным кодом. Они уже несколько лет исследуют китайскую open-source экосистему, а также ведут канал Китай.AI, где публикуют и разбирают статьи из первоисточников про достижения Китая в ИИ. На этот раз коллеги расскажут о том, как в Китае opensource применяется в образовании.
Дата: 24 июля 2025 года
Время: 18:30 - 22:00
Место: онлайн
Ждем вас в трансляции в четверг!
Рады анонсировать внеочередной Scientific Open Source Meetup от нашего сообщества ITMO Opensource, который пройдет 24 июля 2025 года с 18:30 до 22:00 в Санкт-Петербурге.
Формат необычный - митап частично проводится как элемент обучения в рамках программы дополнительного профессионального образования для преподавателей и руководителей образовательных программ подготовки топ-специалистов в области ИИ. Поэтому и уклон выступлений - в сторону образования. Из-за ограниченной вместимости площадки, для широкой публики все выступления будут доступны в формате live-трансляции.
Какие доклады будут в программе митапа:
- Николай Никитин, руководитель группы научно-технического развития, Институт ИИ ИТМО - Практики создания и поддержки культуры и экосистемы открытого кода в сфере ИИ в университете
- Владислав Терещенко, аспирант лаборатории LISA, ИТМО - Как мы научили LLM-ассистента рецензировать научные работы студентов ИТМО: вновь о проекте Edulytica
- Юлия Борисова, аспирант лаборатории NSS, ИТМО - Репозитории и опенсорс для студентов - что, зачем и как?
- Дмитрий Чуканов, ведущий эксперт по технологиям GitVerse - GitVerse — пространство для развития, обучения и новых открытий
- Олег Сиротюк, лидер сообщества OpenScaler - Секреты DeepSeek: академический open source как катализатор китайских инноваций и технологической независимости
Мероприятие проходит при поддержке:
OpenScaler — сообщество разработчиков ОС с открытым исходным кодом. Они уже несколько лет исследуют китайскую open-source экосистему, а также ведут канал Китай.AI, где публикуют и разбирают статьи из первоисточников про достижения Китая в ИИ. На этот раз коллеги расскажут о том, как в Китае opensource применяется в образовании.
Дата: 24 июля 2025 года
Время: 18:30 - 22:00
Место: онлайн
Ждем вас в трансляции в четверг!
🔥12❤1👍1
Небольшое объявление для тех, кто хочет попробовать себя на научной позиции в сфере AI/ML:
У нас Институте ИИ ИТМО открылось несколько вакансий уровня junior и middle, от NSS Lab и AI Industrial Research Lab.
Среди тематики выделали три основных трека: по AI4Science, AI4Industry и по мультиагентным LLM.
В ходе работы можно будет и поучаствовать в разработке наших многочисленных open-source решений, и поресерчить на уровне A* / Q1.
Так что если ищете позицию с уклоном в разработку ПО - такие тоже есть.
Все подробности и форма для откликов - тут (по ссылке - канал NSS Lab, там периодически пишем о наших достижениях и результатах).
У нас Институте ИИ ИТМО открылось несколько вакансий уровня junior и middle, от NSS Lab и AI Industrial Research Lab.
Среди тематики выделали три основных трека: по AI4Science, AI4Industry и по мультиагентным LLM.
В ходе работы можно будет и поучаствовать в разработке наших многочисленных open-source решений, и поресерчить на уровне A* / Q1.
Так что если ищете позицию с уклоном в разработку ПО - такие тоже есть.
Все подробности и форма для откликов - тут (по ссылке - канал NSS Lab, там периодически пишем о наших достижениях и результатах).
🔥6❤1
Вышел лонгрид от ICT Moscow про отечественные LLM и различные подходы к их созданию: Остаться в седле: кто и как в России обучает модели искусственного интеллекта.
Мне материал показался интересным, достаточно системно рассмотрены релизы ИИ-моделей этого года, опрошены эксперты как из бигтеха и университетов, так и стартапов.
Наверное, в не-бигтеховую часть подборки можно было бы включить мини-модели от "Сибирских нейросетей". Но, вероятно, не вошли по дате релиза.
Мы в ИТМО свои наработки по до-обучению специализированных моделей тоже ещё пока не успели опубликовать.
P.S. Про вчерашние open-source модели от OpenAI все, вероятно, уже прочитали. По метрикам выглядит многообещающе, у себя тоже попробуем поднять GPT-OSS-20B и протестировать в составе наших мультиагентных LLM-инструментов, вместо текущей Gemma 3 27b.
Мне материал показался интересным, достаточно системно рассмотрены релизы ИИ-моделей этого года, опрошены эксперты как из бигтеха и университетов, так и стартапов.
Наверное, в не-бигтеховую часть подборки можно было бы включить мини-модели от "Сибирских нейросетей". Но, вероятно, не вошли по дате релиза.
Мы в ИТМО свои наработки по до-обучению специализированных моделей тоже ещё пока не успели опубликовать.
P.S. Про вчерашние open-source модели от OpenAI все, вероятно, уже прочитали. По метрикам выглядит многообещающе, у себя тоже попробуем поднять GPT-OSS-20B и протестировать в составе наших мультиагентных LLM-инструментов, вместо текущей Gemma 3 27b.
🔥9