Forwarded from Научный опенсорс
Осенний Scientific Open Source Meetup - в октябре!
Дорогие друзья и единомышленники!
С радостью приглашаем вас на очередной Scientific Open Source Meetup, который пройдет 2 октября 2025 года с 19:00 до 22:00 в Санкт-Петербурге в уютном лофте на Газовой, 10ж. Это отличная возможность встретиться, обсудить актуальные темы и поделиться опытом в мире открытого программного обеспечения.
Что вас ждет на митапе?
• Доклады от экспертов по разработке и применению Open Source
• Демонстрация новых Open Source инструментов;
• Живое общение с коллегами и единомышленниками;
• Возможность задать вопросы и обсудить последние тренды в Open Source
• Дискуссия о развитии научного опенсорса в России с участие экспертов из индустрии
А если у вас есть научный Open Source проект, опыт разработки открытых решений или пет-проект, о котором вы давно хотели рассказать, регистрируйтесь с докладом. Лучшего докладчика ждёт мерч от организаторов.
📩 Для регистрации пишите на почту [email protected] с темой «Митап Научный Open Source».
Мероприятие проходит при поддержке:
GitVerse
Среди разработок GitVerse — не только платформа с возможностью размещать, зеркалировать и импортировать репозитории, запускать CI/CD, но и инструмент для обучения ИТ-специалистов, SmartClass.
Разработчики могут использовать встроенную среду разработки GigaIDE, в том числе в облачном варианте, а также AI-ассистент GigaCode, чтобы избавиться от рутинных задач!
OpenScaler
OpenScaler — сообщества разработчиков ОС с открытым исходным кодом. Они уже несколько лет исследуют китайскую open-source экосистему.
🗓 Дата: 2 октября 2025 года
🕢 Время: 19:00 - 22:00
📍 Место: Лофт на Газовой, 10ж
Участие бесплатное, но количество очных мест ограничено
🔗 Ссылка на регистрацию
Ждем вас на митапе!
Дорогие друзья и единомышленники!
С радостью приглашаем вас на очередной Scientific Open Source Meetup, который пройдет 2 октября 2025 года с 19:00 до 22:00 в Санкт-Петербурге в уютном лофте на Газовой, 10ж. Это отличная возможность встретиться, обсудить актуальные темы и поделиться опытом в мире открытого программного обеспечения.
Что вас ждет на митапе?
• Доклады от экспертов по разработке и применению Open Source
• Демонстрация новых Open Source инструментов;
• Живое общение с коллегами и единомышленниками;
• Возможность задать вопросы и обсудить последние тренды в Open Source
• Дискуссия о развитии научного опенсорса в России с участие экспертов из индустрии
А если у вас есть научный Open Source проект, опыт разработки открытых решений или пет-проект, о котором вы давно хотели рассказать, регистрируйтесь с докладом. Лучшего докладчика ждёт мерч от организаторов.
📩 Для регистрации пишите на почту [email protected] с темой «Митап Научный Open Source».
Мероприятие проходит при поддержке:
GitVerse
Среди разработок GitVerse — не только платформа с возможностью размещать, зеркалировать и импортировать репозитории, запускать CI/CD, но и инструмент для обучения ИТ-специалистов, SmartClass.
Разработчики могут использовать встроенную среду разработки GigaIDE, в том числе в облачном варианте, а также AI-ассистент GigaCode, чтобы избавиться от рутинных задач!
OpenScaler
OpenScaler — сообщества разработчиков ОС с открытым исходным кодом. Они уже несколько лет исследуют китайскую open-source экосистему.
🗓 Дата: 2 октября 2025 года
🕢 Время: 19:00 - 22:00
📍 Место: Лофт на Газовой, 10ж
Участие бесплатное, но количество очных мест ограничено
🔗 Ссылка на регистрацию
Ждем вас на митапе!
🔥6❤🔥1👍1
G2T-FM
В репозитории опубликован код G2T-FM, позволяющего строить простую базовую модель для графов на основе TabPFNv2. Идея заключается в превращении каждой графовой задачи в табличную с добавлением к исходным признакам узлов агрегатов по соседям, классических структурных характеристик графа (степень, PageRank, собственные векторы лапласиана) и обучаемых структурных кодировок PEARL; затем на этих представлениях работает TabPFNv2. Такой конвейер позволяет обрабатывать разнородные признаки узлов и таргета, не ограничиваясь только текстовыми графами. В режиме без дообучения G2T-FM даёт сильные результаты и заметно превосходит доступные открытые бейзлайновые графовые модели; после дообучения модель обгоняет хорошо настроенные GNN, обученные с нуля. Авторы проводят оценку на наборах GraphLand с нетекстовыми признаками и на классических датасетах с текстовыми признаками; показано, что выигрыш обеспечивается сочетанием табличного бэкбона и графовых дополнений к признакам. Работа может быть полезна исследователям графового обучения, инженерам, работающим с промышленными графами и смешанными типами признаков, и командам, которым нужна переносимость между разными графовыми доменами.
статья | код
В репозитории опубликован код G2T-FM, позволяющего строить простую базовую модель для графов на основе TabPFNv2. Идея заключается в превращении каждой графовой задачи в табличную с добавлением к исходным признакам узлов агрегатов по соседям, классических структурных характеристик графа (степень, PageRank, собственные векторы лапласиана) и обучаемых структурных кодировок PEARL; затем на этих представлениях работает TabPFNv2. Такой конвейер позволяет обрабатывать разнородные признаки узлов и таргета, не ограничиваясь только текстовыми графами. В режиме без дообучения G2T-FM даёт сильные результаты и заметно превосходит доступные открытые бейзлайновые графовые модели; после дообучения модель обгоняет хорошо настроенные GNN, обученные с нуля. Авторы проводят оценку на наборах GraphLand с нетекстовыми признаками и на классических датасетах с текстовыми признаками; показано, что выигрыш обеспечивается сочетанием табличного бэкбона и графовых дополнений к признакам. Работа может быть полезна исследователям графового обучения, инженерам, работающим с промышленными графами и смешанными типами признаков, и командам, которым нужна переносимость между разными графовыми доменами.
статья | код
GitHub
GitHub - yandex-research/G2T-FM: Turning Tabular Foundation Models into Graph Foundation Models
Turning Tabular Foundation Models into Graph Foundation Models - yandex-research/G2T-FM
🔥8❤3❤🔥1
Forwarded from OpenScaler
🔥 Эта осень богата на события!
⭐ 8 октября состоится наша ежегодная конференция OpenSourceDay'2025 в городе с самыми красивыми закатами,по мнению местных жителей. В Нижнем Новгороде!
Приглашаем принять участие в одном из главных офлайн событий для российского open source комьюнити!
Что будет на конференции?
✔ Поговорим о том, как open source становится двигателем развития ИИ и цифровых технологий.
✔ Разберем успешные кейсы Китая и России по созданию аналогов мировых open source платформ.
✔ Поговорим с теми, кто уже создает открытые экосистемы и меняет правила игры.
✔ Вы узнаете, куда идти новичку, как "найти своих" и получить оффер.
✔ Разберем, какую роль играет open source и ИИ для студентов.
✔ Нетворкинг и фуршет: знакомимся, общаемся с лидерами open source комьюнити, договариваемся о совместных проектах.
Место встречи:
📍 Б. Покровская, 18, пространство DKRT, 16:30–21:30
‼ Регистрация обязательна, количество мест ограничено!
Присоединяйтесь и станьте частью нашего open source комьюнити!
⭐ 8 октября состоится наша ежегодная конференция OpenSourceDay'2025 в городе с самыми красивыми закатами,
Приглашаем принять участие в одном из главных офлайн событий для российского open source комьюнити!
Что будет на конференции?
✔ Поговорим о том, как open source становится двигателем развития ИИ и цифровых технологий.
✔ Разберем успешные кейсы Китая и России по созданию аналогов мировых open source платформ.
✔ Поговорим с теми, кто уже создает открытые экосистемы и меняет правила игры.
✔ Вы узнаете, куда идти новичку, как "найти своих" и получить оффер.
✔ Разберем, какую роль играет open source и ИИ для студентов.
✔ Нетворкинг и фуршет: знакомимся, общаемся с лидерами open source комьюнити, договариваемся о совместных проектах.
Место встречи:
📍 Б. Покровская, 18, пространство DKRT, 16:30–21:30
‼ Регистрация обязательна, количество мест ограничено!
Присоединяйтесь и станьте частью нашего open source комьюнити!
👍6❤🔥3❤2
Forwarded from ФКН НИУ ВШЭ
Митап по системному программированию
Приглашаем студентов от 2 курса и старше, интересующихся низкоуровневым программированием, ОС и компиляторами, принять участие в митапе «Взгляд индустрии vs взгляд науки» от💻 💻 💻 и YADRO.
🐦⬛️ ️️️️️️️ Среди спикеров митапа — преподаватели ФКН, а также эксперты и действующие инженеры компании YADRO.
📆 Когда: 2 октября в 18:00
🗺️ Где: Покровский бульвар, 11, ауд. R206
Программа и регистрация на сайте🐭
#анонсы #студенты
Приглашаем студентов от 2 курса и старше, интересующихся низкоуровневым программированием, ОС и компиляторами, принять участие в митапе «Взгляд индустрии vs взгляд науки» от
Программа и регистрация на сайте
#анонсы #студенты
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤🔥1😍1
На сайте HighLoad++ 2025 идет голосование за лучший Open Source проект 🏆
На странице можно подробнее познакомиться с каждым проектом и оставить свой голос.
Для участия в голосовании авторизуйтесь через личный кабинет Онтико или социальную сеть. Посмотрите на список участников, выберите лучшее Open-Source-решение и отдайте ему свой голос. Важно — проголосовать можно будет только один раз.
🥇 Презентация лауреавтой произойдет на конференции HighLoad++ 2025, 6-7 ноября в Москве.
Список проектов: https://opensource.highload.ru/vote
На странице можно подробнее познакомиться с каждым проектом и оставить свой голос.
Для участия в голосовании авторизуйтесь через личный кабинет Онтико или социальную сеть. Посмотрите на список участников, выберите лучшее Open-Source-решение и отдайте ему свой голос. Важно — проголосовать можно будет только один раз.
Список проектов: https://opensource.highload.ru/vote
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤🔥1
multimodal_unlearning
В репозитории опубликован код и данные для воспроизведения результатов работы по удалению информации из мультимодальных моделей — задачам машинного забывания (machine unlearning). Авторы представляют CLEAR: первый открытый бенчмарк для оценки того, насколько модели способны забывать данные одновременно в текстовой и визуальной формах. Набор данных включает сведения о 200 вымышленных авторах, их биографии и 3700 синтетических портретов. Для каждого персонажа предусмотрены пары вопрос–ответ и изображения, что позволяет проверять, как хорошо модель забывает конкретную личность сразу в двух модальностях. Исследование охватывает 11 современных методов разучивания и показывает, что одновременное разучивание обеих модальностей значительно эффективнее, чем по отдельности. Авторы подробно анализируют баланс между удалением лишней информации и сохранением полезных знаний. Показано, что даже лучшие методы (LLMU и DPO) не достигают качества эталонной модели и часто теряют способность к распознаванию или порождению связанного контента. CLEAR также вводит систему показателей для оценки качества забывания, сохранения знаний и устойчивости к утечкам между модальностями. Работа будет полезна исследователям в области защиты данных, разработчикам мультимодальных языковых моделей и специалистам, изучающим этические аспекты ИИ и реализацию права на забвение.
статья | код
В репозитории опубликован код и данные для воспроизведения результатов работы по удалению информации из мультимодальных моделей — задачам машинного забывания (machine unlearning). Авторы представляют CLEAR: первый открытый бенчмарк для оценки того, насколько модели способны забывать данные одновременно в текстовой и визуальной формах. Набор данных включает сведения о 200 вымышленных авторах, их биографии и 3700 синтетических портретов. Для каждого персонажа предусмотрены пары вопрос–ответ и изображения, что позволяет проверять, как хорошо модель забывает конкретную личность сразу в двух модальностях. Исследование охватывает 11 современных методов разучивания и показывает, что одновременное разучивание обеих модальностей значительно эффективнее, чем по отдельности. Авторы подробно анализируют баланс между удалением лишней информации и сохранением полезных знаний. Показано, что даже лучшие методы (LLMU и DPO) не достигают качества эталонной модели и часто теряют способность к распознаванию или порождению связанного контента. CLEAR также вводит систему показателей для оценки качества забывания, сохранения знаний и устойчивости к утечкам между модальностями. Работа будет полезна исследователям в области защиты данных, разработчикам мультимодальных языковых моделей и специалистам, изучающим этические аспекты ИИ и реализацию права на забвение.
статья | код
GitHub
GitHub - somvy/multimodal_unlearning: Experiments for our CLEAR benchmark of unlearning methods in a multimodal setup
Experiments for our CLEAR benchmark of unlearning methods in a multimodal setup - somvy/multimodal_unlearning
❤4🔥3❤🔥1
Forwarded from SourceCraft
Зачем мы занимаемся опенсорсом? А они? А вы?
Опенсорс давно вышел за рамки тусовки бородатых энтузиастов. Сегодня это огромная экосистема и крупнейшая коллаборация на планете. Почему люди тратят своё время на код «для всех», а компании вкладывают миллионы в то, что доступно каждому?
Серёжа Бережной, опенсорс-евангелист и участник команды SourceCraft, покажет опенсорс изнутри — от первых коммитов до миллиардных экономик. Разберёт, почему одни горят идеей, другие выгорают, а третьи превращают открытый код в бизнес.
💬 О чём поговорим:
05:28 — Таймлайн опенсорса (с цифрами и графиками)
10:18 — Кто все эти люди в крупнейшей коллаборации на планете
21:27 — Зачем вообще делать опенсорс
28:28 — Какие в нём проблемы, решения и парадоксы
37:39 — Что делать сегодня
❤️ Доклад, после которого невольно спрашиваешь себя: а что могу сделать я?
Опенсорс давно вышел за рамки тусовки бородатых энтузиастов. Сегодня это огромная экосистема и крупнейшая коллаборация на планете. Почему люди тратят своё время на код «для всех», а компании вкладывают миллионы в то, что доступно каждому?
Серёжа Бережной, опенсорс-евангелист и участник команды SourceCraft, покажет опенсорс изнутри — от первых коммитов до миллиардных экономик. Разберёт, почему одни горят идеей, другие выгорают, а третьи превращают открытый код в бизнес.
05:28 — Таймлайн опенсорса (с цифрами и графиками)
10:18 — Кто все эти люди в крупнейшей коллаборации на планете
21:27 — Зачем вообще делать опенсорс
28:28 — Какие в нём проблемы, решения и парадоксы
37:39 — Что делать сегодня
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥4🔥1😍1
non-acyclic-gfn
В репозитории опубликован код для воспроизведения результатов работы по GFlowNets в неациклических средах. Авторы упрощают теорию для дискретного случая и показывают, как корректно определять потоки состояний и рёбер, когда траектории могут иметь произвольную длину, а классические допущения DAG не выполняются. Также уточняются связи с энтропийно-регуляризованным обучением с подкреплением, что расширяет мост между GFlowNets и RL за пределы ациклических задач. Авторами предложена простая конструкция потоков через ожидаемое число посещений, обеспечивающая детальный баланс и совпадение наград, а также показано, что при фиксированной обратной политике устойчивость лосса не влияет на оптимум, а при обучаемой — минимизация ожидаемой длины траектории эквивалентна минимизации суммарного потока, для чего вводится регуляризация по потокам состояний. Работа может быть полезна исследователям в области генеративных моделей и обучения с подкреплением.
статья | код
В репозитории опубликован код для воспроизведения результатов работы по GFlowNets в неациклических средах. Авторы упрощают теорию для дискретного случая и показывают, как корректно определять потоки состояний и рёбер, когда траектории могут иметь произвольную длину, а классические допущения DAG не выполняются. Также уточняются связи с энтропийно-регуляризованным обучением с подкреплением, что расширяет мост между GFlowNets и RL за пределы ациклических задач. Авторами предложена простая конструкция потоков через ожидаемое число посещений, обеспечивающая детальный баланс и совпадение наград, а также показано, что при фиксированной обратной политике устойчивость лосса не влияет на оптимум, а при обучаемой — минимизация ожидаемой длины траектории эквивалентна минимизации суммарного потока, для чего вводится регуляризация по потокам состояний. Работа может быть полезна исследователям в области генеративных моделей и обучения с подкреплением.
статья | код
GitHub
GitHub - GreatDrake/non-acyclic-gfn: Repository for "Revisiting Non-Acyclic GFlowNets in Discrete Environments" (ICML 2025)
Repository for "Revisiting Non-Acyclic GFlowNets in Discrete Environments" (ICML 2025) - GreatDrake/non-acyclic-gfn
🔥9👍1
Итоги конкурса open-source проектов ФКН
Рады сообщить, что 23 октября мы подводим итоги первого конкурса открытых проектов для студентов ФКН!
На мероприятии будут объявлены победители конкурса и пройдет торжественное вручение наград. Также у участников будет возможность познакомиться с наиболее интересными работами.
Приходите поддержать финалистов, найти вдохновение для собственных проектов и погрузиться в мир open-source!
📅 Когда: 23 октября
📍 Где: Покровский бульвар 11, R407
⏰ Во сколько: 18:00
Ждем всех на церемонии награждения!
Рады сообщить, что 23 октября мы подводим итоги первого конкурса открытых проектов для студентов ФКН!
На мероприятии будут объявлены победители конкурса и пройдет торжественное вручение наград. Также у участников будет возможность познакомиться с наиболее интересными работами.
Приходите поддержать финалистов, найти вдохновение для собственных проектов и погрузиться в мир open-source!
📅 Когда: 23 октября
📍 Где: Покровский бульвар 11, R407
⏰ Во сколько: 18:00
Ждем всех на церемонии награждения!
🔥10
Mos.Hub //Демо
В этот четверг, 23 октября будет Mos.Hub //Демо
Приглашаем вас послушать о новых инструментах развития платформы Mos.Hub для разработки ПО
📅 Когда: 23 октября
⏰ Во сколько: 11:00 - 12:00
📍 Онлайн: https://vkvideo.ru/video-90870698_456240115
В этот четверг, 23 октября будет Mos.Hub //Демо
Приглашаем вас послушать о новых инструментах развития платформы Mos.Hub для разработки ПО
📅 Когда: 23 октября
⏰ Во сколько: 11:00 - 12:00
📍 Онлайн: https://vkvideo.ru/video-90870698_456240115
❤🔥2🐳2🔥1🥰1😍1
Открытый код ФКН ВШЭ
Итоги конкурса open-source проектов ФКН Рады сообщить, что 23 октября мы подводим итоги первого конкурса открытых проектов для студентов ФКН! На мероприятии будут объявлены победители конкурса и пройдет торжественное вручение наград. Также у участников будет…
Мы начинаем через 15 минут. Приходите!
glgenn
В репозитории опубликован код GLGENN — новой эквивариантной архитектуры нейросетей на основе геометрических алгебр. Модель сохраняет эквивариантность ко всем псевдоортогональным преобразованиям пространства, включая повороты и отражения, и при этом использует заметно меньше обучаемых параметров благодаря продуманному разделению и совместному использованию весов, согласованному со структурой геометрических алгебр. Ключевая идея — обобщённые группы Липшица и построение слоёв, которые действуют сразу на четыре фундаментальные подпространства алгебры, задаваемые инволюцией по разряду и ревёрсией. Это даёт лёгкую по параметрам реализацию без потери выразительности и автоматически гарантирует нужную эквивариантность. Предложены слои проекций, геометрического произведения и нормализации, а также слой конъюгаций с дискретными коэффициентами, что упрощает обучение и повышает устойчивость. В экспериментах на эталонных задачах архитектура либо превосходит, либо не уступает существующим эквивариантным моделям при существенно меньшем числе параметров. Показаны результаты на регрессии с симметрией O(5), оценке объёма выпуклой оболочки в пространствах O(5) и O(7), а также на задаче взаимодействия N-тел. По сравнению с CGENN достигается сопоставимое или лучшее качество, при этом число параметров и время обучения ниже; отмечена меньшая склонность к переобучению на малых выборках. Работа может быть полезна исследователям эквивариантных архитектур, специалистам по моделированию физических систем и робототехнике, а также командам, которым важны строгие симметрии при ограниченных данных и ресурсах.
статья | код
В репозитории опубликован код GLGENN — новой эквивариантной архитектуры нейросетей на основе геометрических алгебр. Модель сохраняет эквивариантность ко всем псевдоортогональным преобразованиям пространства, включая повороты и отражения, и при этом использует заметно меньше обучаемых параметров благодаря продуманному разделению и совместному использованию весов, согласованному со структурой геометрических алгебр. Ключевая идея — обобщённые группы Липшица и построение слоёв, которые действуют сразу на четыре фундаментальные подпространства алгебры, задаваемые инволюцией по разряду и ревёрсией. Это даёт лёгкую по параметрам реализацию без потери выразительности и автоматически гарантирует нужную эквивариантность. Предложены слои проекций, геометрического произведения и нормализации, а также слой конъюгаций с дискретными коэффициентами, что упрощает обучение и повышает устойчивость. В экспериментах на эталонных задачах архитектура либо превосходит, либо не уступает существующим эквивариантным моделям при существенно меньшем числе параметров. Показаны результаты на регрессии с симметрией O(5), оценке объёма выпуклой оболочки в пространствах O(5) и O(7), а также на задаче взаимодействия N-тел. По сравнению с CGENN достигается сопоставимое или лучшее качество, при этом число параметров и время обучения ниже; отмечена меньшая склонность к переобучению на малых выборках. Работа может быть полезна исследователям эквивариантных архитектур, специалистам по моделированию физических систем и робототехнике, а также командам, которым важны строгие симметрии при ограниченных данных и ресурсах.
статья | код
GitHub
GitHub - katyafilimoshina/glgenn: Generalized Lipschitz Group Equivariant Neural Networks (GLGENN) [ICML 2025]
Generalized Lipschitz Group Equivariant Neural Networks (GLGENN) [ICML 2025] - katyafilimoshina/glgenn
🔥6❤3👍1
Forwarded from Yandex Open Source Jam /chat
Псс 👀 еще не забыли про нас?
Yandex Open Source Jam возвращается!
Уже 24 ноября мы будем ждать вас в Москве и онлайн на нашем третьем опенсорс-джеме. В этот раз мероприятие проходит при поддержке платформы для разработчиков SourceCraft: ребята подготовили для вас много интересных активностей и приятные призы.
Что еще вас ждет на джеме — смотрите на сайте. И регистрируйтесь по ссылке ❤️
До встречи!
Yandex Open Source Jam возвращается!
Уже 24 ноября мы будем ждать вас в Москве и онлайн на нашем третьем опенсорс-джеме. В этот раз мероприятие проходит при поддержке платформы для разработчиков SourceCraft: ребята подготовили для вас много интересных активностей и приятные призы.
Что еще вас ждет на джеме — смотрите на сайте. И регистрируйтесь по ссылке ❤️
До встречи!
❤4
when-punctuation-matters
В репозитории опубликован код и протокол масштабного сравнения методов повышения устойчивости моделей к формату запроса. Авторы берут 8 открытых LLM из семейств Llama, Qwen и Gemma, 52 задачи из набора Natural Instructions и системно оценивают пять подходов: калибровку батча, ансамбли шаблонов, чувствительное к возмущениям декодирование, дообучение LoRA с форматными аугментациями и LoRA с согласующим штрафом. Результаты дополнены проверкой на GPT-4.1 и DeepSeek V3, чтобы понять, как ведут себя «флагманские» модели при изменении пробелов, пунктуации и разметки вариантов ответа. Авторы выяснили, что калибровка батча одновременно повышает точность и снижает разброс качества между разными форматами, оставаясь почти бесплатной по вычислениям; однако при сильном перекосе классов её преимущество исчезает. Исследователи также проверяют переносимость под сдвигами распределения: при композиционном сдвиге по форматам влияние невелико, а при переносе между наборами данных точность LoRA зависит от домена исходного обучения. Работа может быть полезна практикам, которым нужна стабильность LLM в продакшене; исследователям оценки и калибровки; командам, внедряющим ботов и ассистентов в чувствительных сценариях, где изменение шаблона промпта недопустимо.
статья | код
В репозитории опубликован код и протокол масштабного сравнения методов повышения устойчивости моделей к формату запроса. Авторы берут 8 открытых LLM из семейств Llama, Qwen и Gemma, 52 задачи из набора Natural Instructions и системно оценивают пять подходов: калибровку батча, ансамбли шаблонов, чувствительное к возмущениям декодирование, дообучение LoRA с форматными аугментациями и LoRA с согласующим штрафом. Результаты дополнены проверкой на GPT-4.1 и DeepSeek V3, чтобы понять, как ведут себя «флагманские» модели при изменении пробелов, пунктуации и разметки вариантов ответа. Авторы выяснили, что калибровка батча одновременно повышает точность и снижает разброс качества между разными форматами, оставаясь почти бесплатной по вычислениям; однако при сильном перекосе классов её преимущество исчезает. Исследователи также проверяют переносимость под сдвигами распределения: при композиционном сдвиге по форматам влияние невелико, а при переносе между наборами данных точность LoRA зависит от домена исходного обучения. Работа может быть полезна практикам, которым нужна стабильность LLM в продакшене; исследователям оценки и калибровки; командам, внедряющим ботов и ассистентов в чувствительных сценариях, где изменение шаблона промпта недопустимо.
статья | код
GitHub
GitHub - AIRI-Institute/when-punctuation-matters
Contribute to AIRI-Institute/when-punctuation-matters development by creating an account on GitHub.
❤5🔥3
ProcrustesGPT
В репозитории опубликован код ProcrustesGPT — подхода к сжатию больших языковых моделей, который опирается на структурированные матрицы и ортогональные преобразования весов. Авторы используют тот факт, что выход трансформера не меняется, если внутри слоя повернуть скрытое пространство ортогональной матрицей и соответствующим образом скорректировать скип-соединения. Рассматриваются два семейства представлений: суммы произведений Кронекера и так называемые GS-матрицы, обобщающие известные Monarch-структуры. Эксперименты на моделях OPT и Llama2 показывают, что при сжатии порядка 14–36 % по числу параметров ProcrustesGPT даёт меньшую потерю качества, чем SliceGPT и другие методы без дообучения, как по перплексии на WikiText2, так и по нулевому обучению на задачах ARC, HellaSwag, PIQA и WinoGrande. Особенно заметен выигрыш на моделях Llama2, где средняя точность после сжатия остаётся близкой к исходной и существенно превосходит альтернативы. Работа демонстрирует, что грамотно подобранные ортогональные преобразования могут сделать структурированные разложения практичным инструментом сжатия LLM без дополнительного обучения. Код может быть полезен исследователям сжатия нейросетей, инженерам, внедряющим LLM в ресурсно-ограниченные среды, и разработчикам, работающим со структурированными матричными разложениями.
статья | код
В репозитории опубликован код ProcrustesGPT — подхода к сжатию больших языковых моделей, который опирается на структурированные матрицы и ортогональные преобразования весов. Авторы используют тот факт, что выход трансформера не меняется, если внутри слоя повернуть скрытое пространство ортогональной матрицей и соответствующим образом скорректировать скип-соединения. Рассматриваются два семейства представлений: суммы произведений Кронекера и так называемые GS-матрицы, обобщающие известные Monarch-структуры. Эксперименты на моделях OPT и Llama2 показывают, что при сжатии порядка 14–36 % по числу параметров ProcrustesGPT даёт меньшую потерю качества, чем SliceGPT и другие методы без дообучения, как по перплексии на WikiText2, так и по нулевому обучению на задачах ARC, HellaSwag, PIQA и WinoGrande. Особенно заметен выигрыш на моделях Llama2, где средняя точность после сжатия остаётся близкой к исходной и существенно превосходит альтернативы. Работа демонстрирует, что грамотно подобранные ортогональные преобразования могут сделать структурированные разложения практичным инструментом сжатия LLM без дополнительного обучения. Код может быть полезен исследователям сжатия нейросетей, инженерам, внедряющим LLM в ресурсно-ограниченные среды, и разработчикам, работающим со структурированными матричными разложениями.
статья | код
GitHub
GitHub - GrishKate/ProcrustesGPT
Contribute to GrishKate/ProcrustesGPT development by creating an account on GitHub.
🔥15❤2
Tight Bounds for Schrödinger Potential Estimation
В репозитории опубликован код для воспроизведения результатов работы по оценке потенциала Шрёдингера в задачах генеративного моделирования и переноса распределений без парных данных. Авторы рассматривают постановку моста Шрёдингера, где по выборкам из начального и целевого распределений нужно построить наиболее близкую к опорной динамике стохастическую связь между ними. В качестве опорного процесса вместо классического броуновского движения берётся процесс Орнштейна–Уленбека с экспоненциальным смешением, что позволяет лучше учитывать структуру данных и уменьшить нежелательную долгую зависимость между начальным и конечным состояниями. Для проверки теории авторы модифицируют практический алгоритм Light Schrödinger Bridge, заменяя в нём опорную динамику на процесс Орнштейна–Уленбека. Новый вариант, обозначаемый как LightSB-OU, демонстрирует более точное восстановление целевого распределения в задачах на смесях нормальных распределений, даёт улучшения по расстоянию Васерштейна и MMD и лучше покрывает моды. На биологических данных по динамике клеток метод показывает качество на уровне лучших современных подходов и улучшает базовый LightSB. В задаче непарного переноса изображений взрослый–ребёнок и мужчина–женщина в латентном пространстве автоэнкодера модель на основе процесса Орнштейна–Уленбека лучше сохраняет важные визуальные признаки, такие как оттенок кожи и форма лица. Работа будет интересна исследователям стохастического оптимального управления и моста Шрёдингера, специалистам по генеративным моделям, а также практикам, которым требуется строгий контроль обобщающей ошибки при обучении по непарным данным.
статья | код
В репозитории опубликован код для воспроизведения результатов работы по оценке потенциала Шрёдингера в задачах генеративного моделирования и переноса распределений без парных данных. Авторы рассматривают постановку моста Шрёдингера, где по выборкам из начального и целевого распределений нужно построить наиболее близкую к опорной динамике стохастическую связь между ними. В качестве опорного процесса вместо классического броуновского движения берётся процесс Орнштейна–Уленбека с экспоненциальным смешением, что позволяет лучше учитывать структуру данных и уменьшить нежелательную долгую зависимость между начальным и конечным состояниями. Для проверки теории авторы модифицируют практический алгоритм Light Schrödinger Bridge, заменяя в нём опорную динамику на процесс Орнштейна–Уленбека. Новый вариант, обозначаемый как LightSB-OU, демонстрирует более точное восстановление целевого распределения в задачах на смесях нормальных распределений, даёт улучшения по расстоянию Васерштейна и MMD и лучше покрывает моды. На биологических данных по динамике клеток метод показывает качество на уровне лучших современных подходов и улучшает базовый LightSB. В задаче непарного переноса изображений взрослый–ребёнок и мужчина–женщина в латентном пространстве автоэнкодера модель на основе процесса Орнштейна–Уленбека лучше сохраняет важные визуальные признаки, такие как оттенок кожи и форма лица. Работа будет интересна исследователям стохастического оптимального управления и моста Шрёдингера, специалистам по генеративным моделям, а также практикам, которым требуется строгий контроль обобщающей ошибки при обучении по непарным данным.
статья | код
GitHub
GitHub - denvar15/Tight-Bounds-for-Schrodinger-Potential-Estimation: Official implementation of "Tight Bounds for Schrödinger Potential…
Official implementation of "Tight Bounds for Schrödinger Potential Estimation in Unpaired Image-to-Image Translation Problems" - denvar15/Tight-Bounds-for-Schrodinger-Potential-Estimation
🔥4❤2
autojudge
В репозитории опубликован код AutoJudge — метода ускорения вывода больших языковых моделей за счёт приближённого семплирования вместо точного повторения вывода исходной модели. Вместо того чтобы строго отклонять все расхождения между черновой и целевой моделью, AutoJudge автоматически определяет, какие различающиеся токены действительно важны для качества ответа, а какие можно сгенерировать быстрее упрощённой моделью без заметной потери точности. Важность токена определяется не по форме, а по влиянию на конечный результат задачи. Авторы предлагают поисковый алгоритм, который последовательно подменяет токены ответа целевой модели на варианты черновой модели и заново достраивает продолжение. Метод не требует ручной разметки и легко встраивается в существующие фреймворки вывода. В экспериментах на задачах математического рассуждения (GSM8K) и программирования (LiveCodeBench) с моделями семейств Llama 3 и Qwen2.5 AutoJudge позволяет принимать в среднем 20–45 токенов за один шаг проверки целевой моделью и даёт ускорение до ~2 раз по сравнению со стандартным speculative decoding при падении точности не более чем на 1–2 процентных пункта. Отдельные эксперименты с vLLM показывают прирост скорости до 1.5–2 раз для связок 8B→70B и даже 8B→405B параметров. Работа будет полезна исследователям, занимающимся ускорением вывода и тест-тайм вычислениями в LLM, инженерам, внедряющим большие модели, а также разработчикам инфраструктуры вывода и фреймворков для генерации.
статья | код
В репозитории опубликован код AutoJudge — метода ускорения вывода больших языковых моделей за счёт приближённого семплирования вместо точного повторения вывода исходной модели. Вместо того чтобы строго отклонять все расхождения между черновой и целевой моделью, AutoJudge автоматически определяет, какие различающиеся токены действительно важны для качества ответа, а какие можно сгенерировать быстрее упрощённой моделью без заметной потери точности. Важность токена определяется не по форме, а по влиянию на конечный результат задачи. Авторы предлагают поисковый алгоритм, который последовательно подменяет токены ответа целевой модели на варианты черновой модели и заново достраивает продолжение. Метод не требует ручной разметки и легко встраивается в существующие фреймворки вывода. В экспериментах на задачах математического рассуждения (GSM8K) и программирования (LiveCodeBench) с моделями семейств Llama 3 и Qwen2.5 AutoJudge позволяет принимать в среднем 20–45 токенов за один шаг проверки целевой моделью и даёт ускорение до ~2 раз по сравнению со стандартным speculative decoding при падении точности не более чем на 1–2 процентных пункта. Отдельные эксперименты с vLLM показывают прирост скорости до 1.5–2 раз для связок 8B→70B и даже 8B→405B параметров. Работа будет полезна исследователям, занимающимся ускорением вывода и тест-тайм вычислениями в LLM, инженерам, внедряющим большие модели, а также разработчикам инфраструктуры вывода и фреймворков для генерации.
статья | код
GitHub
GitHub - garipovroma/autojudge: Official PyTorch implementation for the paper AutoJudge: Judge Decoding Without Manual Annotation
Official PyTorch implementation for the paper AutoJudge: Judge Decoding Without Manual Annotation - garipovroma/autojudge
❤5❤🔥1👎1🔥1🤨1
QuAP
В репозитории представлен код для воспроизведения результатов работы по теории и оцениванию долей смешения в популяционной геномике. Авторы обращают внимание, что такие величины, как admixture fractions, давно стали стандартным инструментом в анализе данных (например, в программах Structure и ADMIXTURE), но их статистические свойства в рамках строгих моделей изучены недостаточно. В работе получены теоретические выражения, позволяющие предсказывать средние значения и дисперсии долей смешения внутри популяции с учётом рекомбинации и генетического дрейфа. На основе этих результатов предложен практический метод оценивания параметров потока генов по уже рассчитанным долям смешения. Авторы показывают, как корректировать оценки моментов с учётом ошибок, возникающих при вычислении admixture fractions, и как работать с неполными данными генотипов. Предложенная процедура, реализованная в пакете QuAP, использует регрессию наблюдаемых статистик по хромосомам разной длины на теоретические кривые и позволяет восстанавливать время начала, длительность и интенсивность миграции. Работа будет полезна исследователям в области популяционной генетики и вычислительной геномики.
статья | код
В репозитории представлен код для воспроизведения результатов работы по теории и оцениванию долей смешения в популяционной геномике. Авторы обращают внимание, что такие величины, как admixture fractions, давно стали стандартным инструментом в анализе данных (например, в программах Structure и ADMIXTURE), но их статистические свойства в рамках строгих моделей изучены недостаточно. В работе получены теоретические выражения, позволяющие предсказывать средние значения и дисперсии долей смешения внутри популяции с учётом рекомбинации и генетического дрейфа. На основе этих результатов предложен практический метод оценивания параметров потока генов по уже рассчитанным долям смешения. Авторы показывают, как корректировать оценки моментов с учётом ошибок, возникающих при вычислении admixture fractions, и как работать с неполными данными генотипов. Предложенная процедура, реализованная в пакете QuAP, использует регрессию наблюдаемых статистик по хромосомам разной длины на теоретические кривые и позволяет восстанавливать время начала, длительность и интенсивность миграции. Работа будет полезна исследователям в области популяционной генетики и вычислительной геномики.
статья | код
GitHub
GitHub - Genomics-HSE/QuAP: The method for estimating of parameters of a constant migration.
The method for estimating of parameters of a constant migration. - Genomics-HSE/QuAP
❤4👍1🔥1