Открытый код ФКН ВШЭ
824 subscribers
38 photos
109 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
Download Telegram
🔥Набор стажеров в проекты свободного ПО от программы «Код для всех» до 31 июля — в программе уже 12 проектов!

Новый сезон оплачиваемых стажировок «Код для всех» уже стартовал! Кружковое движение НТИ вместе с партнерами приглашают к участию школьников, студентов и молодых разработчиков, готовых включиться в проекты свободного ПО и помочь в их развитии.

📥 Прием заявок до 31 июля


Стажеров ждут в open source продуктах от CyberOK, ROBBO, Кружкового движения НТИ и платформы Берлога. Теперь в программе 12 проектов — участники могут выбрать одно или несколько направлений. Для подачи заявки нужно заполнить анкету, прикрепить свои достижения и ссылки на уже имеющиеся контрибьюшены.

👨‍💻 Прошедшие отбор разработчики будут в течение 2-4 месяцев писать код в open source проектах под руководством менторов и смогут получать ежемесячную стипендию или итоговое вознаграждение от партнеров.

🌐 подробная информация и регистрация — по
ссылке

Внимательно следите за новостями в чате и канале конкурса! Ждем ваши заявки 🫶
gflownet-tlm

В репозитории представлен код для оптимизации обратной стратегии в GFlowNets методом Trajectory Likelihood Maximization. Идея простая: учим обратную стратегию, максимизируя правдоподобие полных траекторий, сэмплированных текущей прямой стратегией; затем обновляем прямую стратегию в эквивалентной задаче soft-RL (энтропийно-регуляризованный MDP) с вознаграждениями, задаваемыми новой обратной политикой. Такой чередующийся шаг легко встраивается в TB/DB/SubTB и офф-полиси RL и закрывает ограничение теории фиксированного обратного прохода, принятой в недавних связках GFlowNets — soft-RL. Авторы также обсуждают практические трюки для стабильности и дают условие сходимости при стабильных обновлениях PB и регрет-минимизации для PF. Эксперименты на Hypergrid, Bit Sequences, QM9 и sEH показывают более быструю сходимость и лучшее mode discovery в сложных и менее структурированных средах, особенно QM9; на сильно структурированной sEH выигрыш скромнее и сопоставим с фиксированным равномерным обратным проходом. Код и обучающие скрипты — открыты. Работа будет полезна исследователям GFlowNets и RL, а также практикам из областей дизайна биомолекул и материалов, где важно эффективно исследовать пространство дискретных объектов пропорционально награде.

статья | код
🔥72👍2
tabpfn-finetuning

В репозитории представлен код для систематического изучения дообучения табличной фундаментальной модели TabPFNv2. Авторы сравнивают различные стратегии адаптации — полный fine-tuning, частичный — последние слои/LayerNorm/голова/эмбеддинги, параметро-эффективные LoRA, а также добавочные числовые эмбеддинги — и показывают, что при корректном подборе гиперпараметров именно полное дообучение даёт наилучший баланс точности и скорости сходимости. Ключевой вывод: после адаптации скалярные произведения запрос–ключ в последнем слое inter-sample внимания лучше согласуются с близостью объектов по целевой переменной; за счёт этого модель точнее собирает предсказание из релевантных контекстных примеров. Практически авторы демонстрируют дообучение на наборах до 1 млн ячеек и до 50 тыс. объектов: на академических i.i.d.-разбиениях затюненая версия достигает или превосходит современный уровень, тогда как на задачах с временным сдвигом и богатыми признаками стабильность ниже и сильные не фундаментальные DL/GBDT бейзлайны иногда предпочтительнее. Дополнительно отмечено: полный fine-tuning сходится быстрее альтернатив; увеличение числа объектов, участвующих в одном градиентном шаге предсказаний, стабильно улучшает качество; ансамбли из нескольких дообученных копий дают дополнительный прирост. Код и конфигурации доступны в открытом виде. Работа будет полезна практикам табличного DL и AutoML, выбирающим стратегию адаптации под конкретные данные, и исследователям, изучающим механизмы in-context-обучения в табличных моделях.

статья | код
🔥64
FEVERDiagnostics

В репозитории опубликован код для воспроизведения результатов исследования по автоматической проверке фактов с использованием Википедии. Авторы рассматривают задачу в формате корпуса FEVER, где система должна по запросу находить подтверждающие или опровергающие утверждение отрывки текста. Несмотря на высокий прогресс в области, существующие модели часто совершают ошибки, природа которых оставалась недостаточно понятной. Для решения этой проблемы предложена диагностическая таксономия ошибок, включающая десять категорий: синонимы и антонимы, имена собственные, отрицания, квантификаторы, отношения между объектами, числа и арифметика, время, смысловые выводы, география и перегрузка текста лишними деталями. На основе таксономии создан новый диагностический набор данных, позволяющий выявлять слабые места современных систем. Кроме того, авторы разработали генеративный подход к дополнению обучающих данных: часть примеров создаётся автоматически по правилам, а часть — с помощью языковой модели. Эксперименты показывают, что дообучение на таких данных повышает точность распознавания в сложных категориях и улучшает итоговые результаты на тестовом корпусе FEVER. Работа будет полезна исследователям в области обработки естественного языка, специалистам по проверке фактов и разработчикам систем автоматической модерации контента.

статья | код
🔥62
Forwarded from ФКН НИУ ВШЭ
Kotlin-митап: вторая встреча

💻💻💻 совместно с российской группой пользователей Kotlin продолжают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.

В программе:
⤵️ 18:00 — Открытие митапа
🎙️ Александр Нозик, лидер Kotlin-сообщества, Центр научного программирования, МФТИ

⤵️ 18:10 — Доклад «Алгоритмы вычисления солнечных и лунных событий: от теории к практике на Kotlin»
🎙️ Максим Сагациян, Android-разработчик, кандидат технических наук, лектор ЯрГУ

⤵️ 19:10 — Доклад «Пишут ли хорошие программисты быстрый код?»
🎙️ Александр Нозик

📆 Когда: 29 августа в 18:00
🗺️ Где: Покровский бульвар, 11, ауд. R306

Участие бесплатное по регистрации 🐭

#анонсы #разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
tencdm

В репозитории опубликован код для воспроизведения результатов работы по генерации текста с помощью диффузионных моделей. Авторы предлагают новый подход TEncDM, где диффузионная модель обучается не на стандартных векторных представлениях слов (эмбеддингах), а на выходах заранее обученных языковых моделей — так называемых кодировках. В отличие от эмбеддингов, такие кодировки содержат контекст, что облегчает восстановление текста при пошаговом удалении шума. В исследовании подробно анализируются ключевые компоненты диффузионной модели: архитектура декодера, стратегия добавления шума и механизм обуславливания на предыдущий выход - self-conditioning. Авторы показывают, что использование кодировок вместо эмбеддингов существенно повышает качество генерации, а также то, что более сложный декодер, учитывающий контекст, исправляет ошибки и делает текст более связным. Для проверки метода проведены эксперименты на задачах переформулирования вопросов, суммаризации и упрощения текста. Результаты показывают, что TEncDM превосходит существующие неавторегрессионные диффузионные модели и по ряду метрик сравним с классическими авторегрессионными методами. Работа будет полезна исследователям в области обработки текста, специалистам по генеративным моделям и разработчикам систем автоматической генерации контента.

статья | код
🔥105❤‍🔥1😍1
graphland

В репозитории опубликован код и набор данных GraphLand для оценки методов машинного обучения на графах в прикладных промышленных задачах. Авторы отмечают, что большинство существующих бенчмарков ограничены узкой областью, что не отражает реального разнообразия графовых данных. GraphLand включает 14 графовых наборов из разных доменов: веб-графы с задачами предсказания посещаемости сайтов и выявления мошенничества, социальные сети художников и пользователей стриминговых платформ, дорожные сети с прогнозом скорости движения, сервисы отзывов с задачей обнаружения фейковых рецензий, а также данные электронной коммерции и рекламы. Авторы проводят масштабные эксперименты, сравнивая графовые нейронные сети с градиентным бустингом над деревьями решений. Показано, что GNN с механизмом внимания часто превосходят классические архитектуры, однако модели бустинга при расширении признаков за счёт графовой информации становятся сильным бейзлайном, особенно в регрессионных задачах. Также выявлено, что временные сдвиги в распределении данных и динамика графа существенно влияют на качество, что подчёркивает необходимость разработки более устойчивых моделей. Современные универсальные фундаментальные графовые модели продемонстрировали слабые результаты на предложенных наборах данных. Работа будет полезна исследователям в области анализа графов, разработчикам алгоритмов машинного обучения, а также инженерам, работающим с промышленными данными.

статья | код
🔥118👍2🥰1🎉1
Всем привет!

Приглашаем вас на событие, которое организуют наши друзья из Mos.Hub.

13 сентября в 15:00 в павильоне «Цифровые технологии Москвы» (парк Музеон) в рамках фестиваля «Москва 2030» состоится открытая встреча для разработчиков, тестировщиков и ИТ-энтузиастов — Mos.Hub //Парк.Код.

Mos.Hub //Парк.Код — это городское мероприятие с ИТ-атмосферой, челленджами, живым общением и участием разработчиков, студентов, преподавателей, начинающих специалистов. Под открытым небом мы объединяем тех, кто любит кодить, учиться, экспериментировать и вдохновляться.

Участников ждут:
▫️три креативных спринта — мини-хакатоны с заданиями по генерации историй, городских технологий и образов ИТ-героев;
▫️работа внутри платформы Mos.Hub — реальная практика кодинга;
▫️возможность проявить себя, познакомиться с профессиональным комьюнити и выиграть подарки.

🏆Подробнее о соревновании в материале.

Формат отлично подойдёт для студентов ИТ-направлений — особенно junior-разработчиков, студентов 2–4 курсов, магистров, а также для тех, кто хочет сделать первые шаги в open source и городских ИТ-сценариях.

Регистрация обязательна (возраст участников: от 18 лет): https://moscow2030.mos.ru/events/mos_hub_park_kod/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42😍2❤‍🔥1👍1🤔1🤨1
TwoToInfinity

В репозитории опубликован код для воспроизведения результатов работы по оценке специальных матричных норм в режиме без явного хранения матрицы. Авторы рассматривают две нормы операторов — от двух к бесконечности и от единицы к двум, которые позволяют контролировать структуру строк и столбцов матриц и широко применяются в теории обучения и регуляризации. Предложены новые случайные алгоритмы TwINEst и его улучшенная версия TwINEst++, которые используют только операции умножения матрицы на вектор и модифицируют классический метод Хатчинсона. Авторы доказывают сходимость и выводят оценки сложности, показывая, что новые методы точнее и устойчивее стандартных степенных итераций, которые могут расходиться. Эксперименты на синтетических и реальных данных демонстрируют эффективность предложенных алгоритмов. В частности, при обучении сверточных сетей на задачах классификации изображений регуляризация на основе двухк-бесконечности нормы улучшает обобщающую способность и повышает устойчивость к атакам. В области рекомендательных систем показано, что метод повышает надёжность моделей UltraGCN к целенаправленным возмущениям. Работа будет полезна исследователям в области численных методов линейной алгебры, специалистам по глубинному обучению и инженерам, разрабатывающим устойчивые рекомендательные системы.

статья | код
🔥7🥰3😍2
Осенний Scientific Open Source Meetup - в октябре!

Дорогие друзья и единомышленники!
С радостью приглашаем вас на очередной Scientific Open Source Meetup, который пройдет 2 октября 2025 года с 19:00 до 22:00 в Санкт-Петербурге в уютном лофте на Газовой, 10ж. Это отличная возможность встретиться, обсудить актуальные темы и поделиться опытом в мире открытого программного обеспечения.

Что вас ждет на митапе?

• Доклады от экспертов по разработке и применению Open Source
• Демонстрация новых Open Source инструментов;
• Живое общение с коллегами и единомышленниками;
• Возможность задать вопросы и обсудить последние тренды в Open Source
• Дискуссия о развитии научного опенсорса в России с участие экспертов из индустрии

А если у вас есть научный Open Source проект, опыт разработки открытых решений или пет-проект, о котором вы давно хотели рассказать, регистрируйтесь с докладом. Лучшего докладчика ждёт мерч от организаторов.

📩 Для регистрации пишите на почту [email protected] с темой «Митап Научный Open Source».

Мероприятие проходит при поддержке:
GitVerse
Среди разработок GitVerse — не только платформа с возможностью размещать, зеркалировать и импортировать репозитории, запускать CI/CD, но и инструмент для обучения ИТ-специалистов, SmartClass.
Разработчики могут использовать встроенную среду разработки GigaIDE, в том числе в облачном варианте, а также AI-ассистент GigaCode, чтобы избавиться от рутинных задач!

OpenScaler
OpenScaler — сообщества разработчиков ОС с открытым исходным кодом. Они уже несколько лет исследуют китайскую open-source экосистему.


🗓 Дата: 2 октября 2025 года
🕢 Время: 19:00 - 22:00
📍 Место: Лофт на Газовой, 10ж

Участие бесплатное, но количество очных мест ограничено
🔗 Ссылка на регистрацию

Ждем вас на митапе!
🔥6❤‍🔥1👍1
G2T-FM

В репозитории опубликован код G2T-FM, позволяющего строить простую базовую модель для графов на основе TabPFNv2. Идея заключается в превращении каждой графовой задачи в табличную с добавлением к исходным признакам узлов агрегатов по соседям, классических структурных характеристик графа (степень, PageRank, собственные векторы лапласиана) и обучаемых структурных кодировок PEARL; затем на этих представлениях работает TabPFNv2. Такой конвейер позволяет обрабатывать разнородные признаки узлов и таргета, не ограничиваясь только текстовыми графами. В режиме без дообучения G2T-FM даёт сильные результаты и заметно превосходит доступные открытые бейзлайновые графовые модели; после дообучения модель обгоняет хорошо настроенные GNN, обученные с нуля. Авторы проводят оценку на наборах GraphLand с нетекстовыми признаками и на классических датасетах с текстовыми признаками; показано, что выигрыш обеспечивается сочетанием табличного бэкбона и графовых дополнений к признакам. Работа может быть полезна исследователям графового обучения, инженерам, работающим с промышленными графами и смешанными типами признаков, и командам, которым нужна переносимость между разными графовыми доменами.

статья | код
🔥83❤‍🔥1
Forwarded from OpenScaler
🔥 Эта осень богата на события!

8 октября состоится наша ежегодная конференция OpenSourceDay'2025 в городе с самыми красивыми закатами, по мнению местных жителей. В Нижнем Новгороде!

Приглашаем принять участие в одном из главных офлайн событий для российского open source комьюнити!

Что будет на конференции?

Поговорим о том, как open source становится двигателем развития ИИ и цифровых технологий.
Разберем успешные кейсы Китая и России по созданию аналогов мировых open source платформ.
Поговорим с теми, кто уже создает открытые экосистемы и меняет правила игры.
Вы узнаете, куда идти новичку, как "найти своих" и получить оффер.
Разберем, какую роль играет open source и ИИ для студентов.
Нетворкинг и фуршет: знакомимся, общаемся с лидерами open source комьюнити, договариваемся о совместных проектах.

Место встречи:
📍 Б. Покровская, 18, пространство DKRT, 16:30–21:30

Регистрация обязательна, количество мест ограничено!

Присоединяйтесь и станьте частью нашего open source комьюнити!
👍6❤‍🔥32
Forwarded from ФКН НИУ ВШЭ
Митап по системному программированию

Приглашаем студентов от 2 курса и старше, интересующихся низкоуровневым программированием, ОС и компиляторами, принять участие в митапе «Взгляд индустрии vs взгляд науки» от 💻💻💻 и YADRO.

🐦‍⬛️️️️️️️️ Среди спикеров митапа — преподаватели ФКН, а также эксперты и действующие инженеры компании YADRO.

📆 Когда: 2 октября в 18:00
🗺️ Где: Покровский бульвар, 11, ауд. R206

Программа и регистрация на сайте 🐭

#анонсы #студенты
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤‍🔥1😍1
На сайте HighLoad++ 2025 идет голосование за лучший Open Source проект 🏆

На странице можно подробнее познакомиться с каждым проектом и оставить свой голос.

Для участия в голосовании авторизуйтесь через личный кабинет Онтико или социальную сеть. Посмотрите на список участников, выберите лучшее Open-Source-решение и отдайте ему свой голос. Важно — проголосовать можно будет только один раз.

🥇 Презентация лауреавтой произойдет на конференции HighLoad++ 2025, 6-7 ноября в Москве.

Список проектов: https://opensource.highload.ru/vote
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤‍🔥1
multimodal_unlearning

В репозитории опубликован код и данные для воспроизведения результатов работы по удалению информации из мультимодальных моделей — задачам машинного забывания (machine unlearning). Авторы представляют CLEAR: первый открытый бенчмарк для оценки того, насколько модели способны забывать данные одновременно в текстовой и визуальной формах. Набор данных включает сведения о 200 вымышленных авторах, их биографии и 3700 синтетических портретов. Для каждого персонажа предусмотрены пары вопрос–ответ и изображения, что позволяет проверять, как хорошо модель забывает конкретную личность сразу в двух модальностях. Исследование охватывает 11 современных методов разучивания и показывает, что одновременное разучивание обеих модальностей значительно эффективнее, чем по отдельности. Авторы подробно анализируют баланс между удалением лишней информации и сохранением полезных знаний. Показано, что даже лучшие методы (LLMU и DPO) не достигают качества эталонной модели и часто теряют способность к распознаванию или порождению связанного контента. CLEAR также вводит систему показателей для оценки качества забывания, сохранения знаний и устойчивости к утечкам между модальностями. Работа будет полезна исследователям в области защиты данных, разработчикам мультимодальных языковых моделей и специалистам, изучающим этические аспекты ИИ и реализацию права на забвение.

статья | код
4🔥2❤‍🔥1
Forwarded from SourceCraft
Зачем мы занимаемся опенсорсом? А они? А вы?

Опенсорс давно вышел за рамки тусовки бородатых энтузиастов. Сегодня это огромная экосистема и крупнейшая коллаборация на планете. Почему люди тратят своё время на код «для всех», а компании вкладывают миллионы в то, что доступно каждому?

Серёжа Бережной, опенсорс-евангелист и участник команды SourceCraft, покажет опенсорс изнутри — от первых коммитов до миллиардных экономик. Разберёт, почему одни горят идеей, другие выгорают, а третьи превращают открытый код в бизнес.

💬 О чём поговорим:
05:28 — Таймлайн опенсорса (с цифрами и графиками)
10:18 — Кто все эти люди в крупнейшей коллаборации на планете
21:27 — Зачем вообще делать опенсорс
28:28 — Какие в нём проблемы, решения и парадоксы
37:39 — Что делать сегодня

❤️ Доклад, после которого невольно спрашиваешь себя: а что могу сделать я?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3🔥1😍1
non-acyclic-gfn

В репозитории опубликован код для воспроизведения результатов работы по GFlowNets в неациклических средах. Авторы упрощают теорию для дискретного случая и показывают, как корректно определять потоки состояний и рёбер, когда траектории могут иметь произвольную длину, а классические допущения DAG не выполняются. Также уточняются связи с энтропийно-регуляризованным обучением с подкреплением, что расширяет мост между GFlowNets и RL за пределы ациклических задач. Авторами предложена простая конструкция потоков через ожидаемое число посещений, обеспечивающая детальный баланс и совпадение наград, а также показано, что при фиксированной обратной политике устойчивость лосса не влияет на оптимум, а при обучаемой — минимизация ожидаемой длины траектории эквивалентна минимизации суммарного потока, для чего вводится регуляризация по потокам состояний. Работа может быть полезна исследователям в области генеративных моделей и обучения с подкреплением.

статья | код
🔥8👍1
Итоги конкурса open-source проектов ФКН

Рады сообщить, что 23 октября мы подводим итоги первого конкурса открытых проектов для студентов ФКН!

На мероприятии будут объявлены победители конкурса и пройдет торжественное вручение наград. Также у участников будет возможность познакомиться с наиболее интересными работами.

Приходите поддержать финалистов, найти вдохновение для собственных проектов и погрузиться в мир open-source!


📅 Когда: 23 октября
📍 Где: Покровский бульвар 11, R407
Во сколько: 18:00

Ждем всех на церемонии награждения!
🔥10
Mos.Hub //Демо

В этот четверг, 23 октября будет Mos.Hub //Демо

Приглашаем вас послушать о новых инструментах развития платформы Mos.Hub для разработки ПО

📅 Когда: 23 октября
Во сколько: 11:00 - 12:00
📍 Онлайн: https://vkvideo.ru/video-90870698_456240115
🐳2❤‍🔥1🔥1🥰1😍1