Открытый код ФКН ВШЭ
807 subscribers
31 photos
98 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
Download Telegram
Открытый код ФКН ВШЭ pinned «🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉 Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!…»
Forwarded from ФКН НИУ ВШЭ
Kotlin-митапы снова в игре

💻💻💻 совместно с российской группой пользователей Kotlin открывают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.

В программе:
⤵️ 18:00 — Открытие митапа
🎙️ Александр Нозик, лидер Kotlin-сообщества

⤵️ 18:10 — Доклад «Горячие и холодные потоки в Kotlin Flow»
🎙️ Яна Седова, специалист по автоматизации технических процессов в Яндекс Крауд

⤵️ 19:10 — Доклад «Пополнение в семье kotlinx: зачем нам этот ваш kotlinx.fuzz?»
🎙️ Александр Соколинский, Яндекс Go, Android Architect

📆 Когда: 30 мая в 18:00
🗺️ Где: Покровский бульвар, 11

Участие бесплатное по регистрации 🐭

#анонсы #разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥53👍2
Forwarded from Yandex for Developers
HTML-минификатор для .NET и эмулятор DOS в браузере: победители программы грантов от Yandex Open Source

Подводим итоги программы поддержки независимых разработчиков от Yandex Open Source. Нам прислали 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Забавный и поучительный факт: один участник отправил заявку 15 марта в 23:59 — в последнюю минуту подачи. И победил!

➡️ Во всех трёх треках мы выбрали 12 победителей, проекты которых показались нам самыми интересными, полезными и перспективными. Каждый рассказал немного подробностей о своей работе в статье на Хабре. Посмотрите: возможно, откроете для себя новые полезные инструменты.

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤‍🔥2
Forwarded from Научный опенсорс (Nikolay Nikitin)
Мы тут вместе с учебно-научной лабораторией ИТМО LISA организовали мини-семинар по разборке удачных и неудачных реализаций студенческих репозиториев. Заодно обсудим опыт улучшения некоторых из них с помощью нашего ИИ-инструмента OSA (про который недавно писали на Хабре).

С нашей стороны в роли эксперта участвует Андрей Гетманов - исследователь из NSS Lab, руководитель разработки OSA и активный участник соообщества ITMO OpenSource.

Если интересно послушать - подключиться можно тут в зуме, вот как раз начинаем.
🔥74👍2
tencdm

В репозитории содержится код для воспроизведения экспериментов по генерации текста методом TEncDM (Text Encoding Diffusion Model) — диффузионной модели, работающей в пространстве выходных представлений предобученной языковой модели, а не в embedding-пространстве, как в большинстве предыдущих работ. Авторы демонстрируют, что использование таких представлений, содержащих контекстную информацию, существенно упрощает задачу денойзинга и повышает качество генерации. Ключевая особенность TEncDM — декодер, специально обученный восстанавливать текст из зашумленных латентных представлений, что позволяет компенсировать ошибки на этапах диффузии. Также авторы подробно исследуют влияние self-conditioning и scheduler’ов шума на качество модели. Предложен новый scheduler (tan-d), равномерно распределяющий сложность по всем шагам денойзинга. В экспериментах показано, что при использовании таких компонентов модель превосходит существующие SOTA подходы (DiffuSeq, AR-Diffusion и др.) на задачах перефразирования, суммаризации и упрощения текста (QQP, XSum, Wiki-Auto). Репозиторий предоставляет полный пайплайн: тренировка диффузионной модели в пространстве энкодингов, обучение декодера с corrupt-стратегией, настройка self-conditioning и различных схем шумов. Код открытый, реализован на PyTorch и включает запуск на множестве датасетов (ROCStories, Wikipedia и др.), поддерживая генерацию в условиях как с условием (conditional), так и без него. Работа может быть полезна исследователям в области генерации текста, особенно тем, кто занимается развитием диффузионных моделей, а также разработчикам, ищущим более интерпретируемые и мощные альтернативы автокорреляционным языковым моделям.

статья | код
9🔥6👍2😍2
PersonGenSampler

В репозитории представлен код для воспроизведения результатов работы по критическому анализу стратегий семплирования в text-to-image генерации с использованием диффузионных моделей. Авторы подробно рассматривают различные подходы: Mixed, Switching, Multi-stage, Masked sampling, а также сравнивают их с существующими решениями. В частности, предлагается использовать смешение траекторий генерации между концептом и его суперклассом, а также различные способы комбинирования guidance сигналов. В серии экспериментов на датасетах Dreambooth и различных бэкбонах (SD-2, SD-XL, PixArt-alpha) показано, что грамотно выбранная стратегия семплирования может заметно повысить соответствие изображе. Отдельное внимание уделено анализу вычислительных затрат различных методов. Результаты обобщены в виде практического фреймворка для выбора стратегии в зависимости от приоритетов. Работа будет полезна исследователям и инженерам, занимающимся генеративными моделями, а также разработчикам приложений в креативных индустриях и автоматизации контента.

статья | код
4🤔1
Challenges-on-generating-structurally-diverse-graphs

В репозитории опубликован код для воспроизведения результатов работы по генерации структурно разнообразных графов. Авторы впервые формализуют и системно исследуют задачу построения наборов графов с максимальным структурным разнообразием — задача, критически важная для тестирования алгоритмов на графах, оценки нейросетевых приближений и построения бенчмарков. В работе подробно анализируется, как определить меру разнообразия для множества графов и почему задача не сводится к стандартным генераторам случайных графов. Введён показатель diversity на основе агрегирования попарных расстояний между графами (Energy), обладающий важными теоретическими свойствами, как монотонность и уникальность. Экспериментально исследованы и сравниваются различные алгоритмы генерации: жадный отбор из большого пула, генетические алгоритмы, локальная оптимизация и нейросетевые генеративные модели. Показано, что предлагаемые методы существенно превосходят классические случайные модели, например, Erdős–Rényi, GraphWorld, по мере diversity, позволяя получать выборки графов с сильно отличающимися характеристиками. Исследование также даёт новые инсайты о свойствах различных метрик расстояния между графами. Работа будет полезна исследователям в области графов, алгоритмистам, а также разработчикам бенчмарков и тестовых наборов для графовых задач.

статья | код
5🔥2👍1
🗂️Спикер: Иван Рубачёв,
Исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс

Аннотация: В развитие эмпирической науки про глубокое обучение существенную роль играет open-source (в широком смысле - открытый код, данные, идеи и воспроизводимые исследования). В последнее время эту идею разделяют не все. Поговорим про то насколько открытость важна со стороны науки, и что для ее продвижения можно делать. Так как я занимаюсь глубинным обучением на табличных данных – какое-то количество примеров будет из этой области, а не из мира LLM.

📆Дата: 27 июня в 18:00
Место: Zoom

Идентификатор конференции: 884 0765 6151
Код доступа: 655748
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3🐳3🤔1😍1
DVAR

В репозитории опубликован код для воспроизведения результатов работы по ускорению персонализации text-to-image моделей при помощи нового критерия ранней остановки обучения. Авторы анализируют динамику тренировки популярных методов кастомизации, таких как Textual Inversion, DreamBooth и Custom Diffusion, и показывают, что стандартные метрики сходимости не отражают реальный прогресс и часто неинформативны. Ключевой вклад работы — введение критерия Deterministic VARiance Evaluation (DVAR), который позволяет автоматически и гораздо раньше завершать обучение без потери качества результатов. DVAR оценивает стабилизацию детерминированной версии loss на фиксированном наборе данных, что позволяет сократить время обучения до 8 раз. Авторы демонстрируют эффективность подхода на 48 концептах и трёх популярных personalization-методах. Эксперименты показывают, что ранняя остановка по DVAR почти не снижает качество генерации, а также предотвращает переобучение и экономит вычислительные ресурсы. Работа будет полезна исследователям и инженерам, работающим с кастомизацией diffusion-моделей, а также разработчикам инструментов для креативных и промышленных задач генерации изображений.

статья | код
❤‍🔥6😍3🔥21
🔥Набор стажеров в проекты свободного ПО от программы «Код для всех» до 31 июля — в программе уже 12 проектов!

Новый сезон оплачиваемых стажировок «Код для всех» уже стартовал! Кружковое движение НТИ вместе с партнерами приглашают к участию школьников, студентов и молодых разработчиков, готовых включиться в проекты свободного ПО и помочь в их развитии.

📥 Прием заявок до 31 июля


Стажеров ждут в open source продуктах от CyberOK, ROBBO, Кружкового движения НТИ и платформы Берлога. Теперь в программе 12 проектов — участники могут выбрать одно или несколько направлений. Для подачи заявки нужно заполнить анкету, прикрепить свои достижения и ссылки на уже имеющиеся контрибьюшены.

👨‍💻 Прошедшие отбор разработчики будут в течение 2-4 месяцев писать код в open source проектах под руководством менторов и смогут получать ежемесячную стипендию или итоговое вознаграждение от партнеров.

🌐 подробная информация и регистрация — по
ссылке

Внимательно следите за новостями в чате и канале конкурса! Ждем ваши заявки 🫶
gflownet-tlm

В репозитории представлен код для оптимизации обратной стратегии в GFlowNets методом Trajectory Likelihood Maximization. Идея простая: учим обратную стратегию, максимизируя правдоподобие полных траекторий, сэмплированных текущей прямой стратегией; затем обновляем прямую стратегию в эквивалентной задаче soft-RL (энтропийно-регуляризованный MDP) с вознаграждениями, задаваемыми новой обратной политикой. Такой чередующийся шаг легко встраивается в TB/DB/SubTB и офф-полиси RL и закрывает ограничение теории фиксированного обратного прохода, принятой в недавних связках GFlowNets — soft-RL. Авторы также обсуждают практические трюки для стабильности и дают условие сходимости при стабильных обновлениях PB и регрет-минимизации для PF. Эксперименты на Hypergrid, Bit Sequences, QM9 и sEH показывают более быструю сходимость и лучшее mode discovery в сложных и менее структурированных средах, особенно QM9; на сильно структурированной sEH выигрыш скромнее и сопоставим с фиксированным равномерным обратным проходом. Код и обучающие скрипты — открыты. Работа будет полезна исследователям GFlowNets и RL, а также практикам из областей дизайна биомолекул и материалов, где важно эффективно исследовать пространство дискретных объектов пропорционально награде.

статья | код
🔥62👍2
tabpfn-finetuning

В репозитории представлен код для систематического изучения дообучения табличной фундаментальной модели TabPFNv2. Авторы сравнивают различные стратегии адаптации — полный fine-tuning, частичный — последние слои/LayerNorm/голова/эмбеддинги, параметро-эффективные LoRA, а также добавочные числовые эмбеддинги — и показывают, что при корректном подборе гиперпараметров именно полное дообучение даёт наилучший баланс точности и скорости сходимости. Ключевой вывод: после адаптации скалярные произведения запрос–ключ в последнем слое inter-sample внимания лучше согласуются с близостью объектов по целевой переменной; за счёт этого модель точнее собирает предсказание из релевантных контекстных примеров. Практически авторы демонстрируют дообучение на наборах до 1 млн ячеек и до 50 тыс. объектов: на академических i.i.d.-разбиениях затюненая версия достигает или превосходит современный уровень, тогда как на задачах с временным сдвигом и богатыми признаками стабильность ниже и сильные не фундаментальные DL/GBDT бейзлайны иногда предпочтительнее. Дополнительно отмечено: полный fine-tuning сходится быстрее альтернатив; увеличение числа объектов, участвующих в одном градиентном шаге предсказаний, стабильно улучшает качество; ансамбли из нескольких дообученных копий дают дополнительный прирост. Код и конфигурации доступны в открытом виде. Работа будет полезна практикам табличного DL и AutoML, выбирающим стратегию адаптации под конкретные данные, и исследователям, изучающим механизмы in-context-обучения в табличных моделях.

статья | код
🔥64
FEVERDiagnostics

В репозитории опубликован код для воспроизведения результатов исследования по автоматической проверке фактов с использованием Википедии. Авторы рассматривают задачу в формате корпуса FEVER, где система должна по запросу находить подтверждающие или опровергающие утверждение отрывки текста. Несмотря на высокий прогресс в области, существующие модели часто совершают ошибки, природа которых оставалась недостаточно понятной. Для решения этой проблемы предложена диагностическая таксономия ошибок, включающая десять категорий: синонимы и антонимы, имена собственные, отрицания, квантификаторы, отношения между объектами, числа и арифметика, время, смысловые выводы, география и перегрузка текста лишними деталями. На основе таксономии создан новый диагностический набор данных, позволяющий выявлять слабые места современных систем. Кроме того, авторы разработали генеративный подход к дополнению обучающих данных: часть примеров создаётся автоматически по правилам, а часть — с помощью языковой модели. Эксперименты показывают, что дообучение на таких данных повышает точность распознавания в сложных категориях и улучшает итоговые результаты на тестовом корпусе FEVER. Работа будет полезна исследователям в области обработки естественного языка, специалистам по проверке фактов и разработчикам систем автоматической модерации контента.

статья | код
🔥62
Forwarded from ФКН НИУ ВШЭ
Kotlin-митап: вторая встреча

💻💻💻 совместно с российской группой пользователей Kotlin продолжают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.

В программе:
⤵️ 18:00 — Открытие митапа
🎙️ Александр Нозик, лидер Kotlin-сообщества, Центр научного программирования, МФТИ

⤵️ 18:10 — Доклад «Алгоритмы вычисления солнечных и лунных событий: от теории к практике на Kotlin»
🎙️ Максим Сагациян, Android-разработчик, кандидат технических наук, лектор ЯрГУ

⤵️ 19:10 — Доклад «Пишут ли хорошие программисты быстрый код?»
🎙️ Александр Нозик

📆 Когда: 29 августа в 18:00
🗺️ Где: Покровский бульвар, 11, ауд. R306

Участие бесплатное по регистрации 🐭

#анонсы #разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
tencdm

В репозитории опубликован код для воспроизведения результатов работы по генерации текста с помощью диффузионных моделей. Авторы предлагают новый подход TEncDM, где диффузионная модель обучается не на стандартных векторных представлениях слов (эмбеддингах), а на выходах заранее обученных языковых моделей — так называемых кодировках. В отличие от эмбеддингов, такие кодировки содержат контекст, что облегчает восстановление текста при пошаговом удалении шума. В исследовании подробно анализируются ключевые компоненты диффузионной модели: архитектура декодера, стратегия добавления шума и механизм обуславливания на предыдущий выход - self-conditioning. Авторы показывают, что использование кодировок вместо эмбеддингов существенно повышает качество генерации, а также то, что более сложный декодер, учитывающий контекст, исправляет ошибки и делает текст более связным. Для проверки метода проведены эксперименты на задачах переформулирования вопросов, суммаризации и упрощения текста. Результаты показывают, что TEncDM превосходит существующие неавторегрессионные диффузионные модели и по ряду метрик сравним с классическими авторегрессионными методами. Работа будет полезна исследователям в области обработки текста, специалистам по генеративным моделям и разработчикам систем автоматической генерации контента.

статья | код
🔥105❤‍🔥1😍1
graphland

В репозитории опубликован код и набор данных GraphLand для оценки методов машинного обучения на графах в прикладных промышленных задачах. Авторы отмечают, что большинство существующих бенчмарков ограничены узкой областью, что не отражает реального разнообразия графовых данных. GraphLand включает 14 графовых наборов из разных доменов: веб-графы с задачами предсказания посещаемости сайтов и выявления мошенничества, социальные сети художников и пользователей стриминговых платформ, дорожные сети с прогнозом скорости движения, сервисы отзывов с задачей обнаружения фейковых рецензий, а также данные электронной коммерции и рекламы. Авторы проводят масштабные эксперименты, сравнивая графовые нейронные сети с градиентным бустингом над деревьями решений. Показано, что GNN с механизмом внимания часто превосходят классические архитектуры, однако модели бустинга при расширении признаков за счёт графовой информации становятся сильным бейзлайном, особенно в регрессионных задачах. Также выявлено, что временные сдвиги в распределении данных и динамика графа существенно влияют на качество, что подчёркивает необходимость разработки более устойчивых моделей. Современные универсальные фундаментальные графовые модели продемонстрировали слабые результаты на предложенных наборах данных. Работа будет полезна исследователям в области анализа графов, разработчикам алгоритмов машинного обучения, а также инженерам, работающим с промышленными данными.

статья | код
🔥118👍2🥰1🎉1
Всем привет!

Приглашаем вас на событие, которое организуют наши друзья из Mos.Hub.

13 сентября в 15:00 в павильоне «Цифровые технологии Москвы» (парк Музеон) в рамках фестиваля «Москва 2030» состоится открытая встреча для разработчиков, тестировщиков и ИТ-энтузиастов — Mos.Hub //Парк.Код.

Mos.Hub //Парк.Код — это городское мероприятие с ИТ-атмосферой, челленджами, живым общением и участием разработчиков, студентов, преподавателей, начинающих специалистов. Под открытым небом мы объединяем тех, кто любит кодить, учиться, экспериментировать и вдохновляться.

Участников ждут:
▫️три креативных спринта — мини-хакатоны с заданиями по генерации историй, городских технологий и образов ИТ-героев;
▫️работа внутри платформы Mos.Hub — реальная практика кодинга;
▫️возможность проявить себя, познакомиться с профессиональным комьюнити и выиграть подарки.

🏆Подробнее о соревновании в материале.

Формат отлично подойдёт для студентов ИТ-направлений — особенно junior-разработчиков, студентов 2–4 курсов, магистров, а также для тех, кто хочет сделать первые шаги в open source и городских ИТ-сценариях.

Регистрация обязательна (возраст участников: от 18 лет): https://moscow2030.mos.ru/events/mos_hub_park_kod/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42😍2❤‍🔥1👍1🤔1🤨1
TwoToInfinity

В репозитории опубликован код для воспроизведения результатов работы по оценке специальных матричных норм в режиме без явного хранения матрицы. Авторы рассматривают две нормы операторов — от двух к бесконечности и от единицы к двум, которые позволяют контролировать структуру строк и столбцов матриц и широко применяются в теории обучения и регуляризации. Предложены новые случайные алгоритмы TwINEst и его улучшенная версия TwINEst++, которые используют только операции умножения матрицы на вектор и модифицируют классический метод Хатчинсона. Авторы доказывают сходимость и выводят оценки сложности, показывая, что новые методы точнее и устойчивее стандартных степенных итераций, которые могут расходиться. Эксперименты на синтетических и реальных данных демонстрируют эффективность предложенных алгоритмов. В частности, при обучении сверточных сетей на задачах классификации изображений регуляризация на основе двухк-бесконечности нормы улучшает обобщающую способность и повышает устойчивость к атакам. В области рекомендательных систем показано, что метод повышает надёжность моделей UltraGCN к целенаправленным возмущениям. Работа будет полезна исследователям в области численных методов линейной алгебры, специалистам по глубинному обучению и инженерам, разрабатывающим устойчивые рекомендательные системы.

статья | код
🔥6🥰2😍1
Осенний Scientific Open Source Meetup - в октябре!

Дорогие друзья и единомышленники!
С радостью приглашаем вас на очередной Scientific Open Source Meetup, который пройдет 2 октября 2025 года с 19:00 до 22:00 в Санкт-Петербурге в уютном лофте на Газовой, 10ж. Это отличная возможность встретиться, обсудить актуальные темы и поделиться опытом в мире открытого программного обеспечения.

Что вас ждет на митапе?

• Доклады от экспертов по разработке и применению Open Source
• Демонстрация новых Open Source инструментов;
• Живое общение с коллегами и единомышленниками;
• Возможность задать вопросы и обсудить последние тренды в Open Source
• Дискуссия о развитии научного опенсорса в России с участие экспертов из индустрии

А если у вас есть научный Open Source проект, опыт разработки открытых решений или пет-проект, о котором вы давно хотели рассказать, регистрируйтесь с докладом. Лучшего докладчика ждёт мерч от организаторов.

📩 Для регистрации пишите на почту [email protected] с темой «Митап Научный Open Source».

Мероприятие проходит при поддержке:
GitVerse
Среди разработок GitVerse — не только платформа с возможностью размещать, зеркалировать и импортировать репозитории, запускать CI/CD, но и инструмент для обучения ИТ-специалистов, SmartClass.
Разработчики могут использовать встроенную среду разработки GigaIDE, в том числе в облачном варианте, а также AI-ассистент GigaCode, чтобы избавиться от рутинных задач!

OpenScaler
OpenScaler — сообщества разработчиков ОС с открытым исходным кодом. Они уже несколько лет исследуют китайскую open-source экосистему.


🗓 Дата: 2 октября 2025 года
🕢 Время: 19:00 - 22:00
📍 Место: Лофт на Газовой, 10ж

Участие бесплатное, но количество очных мест ограничено
🔗 Ссылка на регистрацию

Ждем вас на митапе!
🔥4
G2T-FM

В репозитории опубликован код G2T-FM, позволяющего строить простую базовую модель для графов на основе TabPFNv2. Идея заключается в превращении каждой графовой задачи в табличную с добавлением к исходным признакам узлов агрегатов по соседям, классических структурных характеристик графа (степень, PageRank, собственные векторы лапласиана) и обучаемых структурных кодировок PEARL; затем на этих представлениях работает TabPFNv2. Такой конвейер позволяет обрабатывать разнородные признаки узлов и таргета, не ограничиваясь только текстовыми графами. В режиме без дообучения G2T-FM даёт сильные результаты и заметно превосходит доступные открытые бейзлайновые графовые модели; после дообучения модель обгоняет хорошо настроенные GNN, обученные с нуля. Авторы проводят оценку на наборах GraphLand с нетекстовыми признаками и на классических датасетах с текстовыми признаками; показано, что выигрыш обеспечивается сочетанием табличного бэкбона и графовых дополнений к признакам. Работа может быть полезна исследователям графового обучения, инженерам, работающим с промышленными графами и смешанными типами признаков, и командам, которым нужна переносимость между разными графовыми доменами.

статья | код
🔥62