glgenn
В репозитории опубликован код GLGENN — новой эквивариантной архитектуры нейросетей на основе геометрических алгебр. Модель сохраняет эквивариантность ко всем псевдоортогональным преобразованиям пространства, включая повороты и отражения, и при этом использует заметно меньше обучаемых параметров благодаря продуманному разделению и совместному использованию весов, согласованному со структурой геометрических алгебр. Ключевая идея — обобщённые группы Липшица и построение слоёв, которые действуют сразу на четыре фундаментальные подпространства алгебры, задаваемые инволюцией по разряду и ревёрсией. Это даёт лёгкую по параметрам реализацию без потери выразительности и автоматически гарантирует нужную эквивариантность. Предложены слои проекций, геометрического произведения и нормализации, а также слой конъюгаций с дискретными коэффициентами, что упрощает обучение и повышает устойчивость. В экспериментах на эталонных задачах архитектура либо превосходит, либо не уступает существующим эквивариантным моделям при существенно меньшем числе параметров. Показаны результаты на регрессии с симметрией O(5), оценке объёма выпуклой оболочки в пространствах O(5) и O(7), а также на задаче взаимодействия N-тел. По сравнению с CGENN достигается сопоставимое или лучшее качество, при этом число параметров и время обучения ниже; отмечена меньшая склонность к переобучению на малых выборках. Работа может быть полезна исследователям эквивариантных архитектур, специалистам по моделированию физических систем и робототехнике, а также командам, которым важны строгие симметрии при ограниченных данных и ресурсах.
статья | код
В репозитории опубликован код GLGENN — новой эквивариантной архитектуры нейросетей на основе геометрических алгебр. Модель сохраняет эквивариантность ко всем псевдоортогональным преобразованиям пространства, включая повороты и отражения, и при этом использует заметно меньше обучаемых параметров благодаря продуманному разделению и совместному использованию весов, согласованному со структурой геометрических алгебр. Ключевая идея — обобщённые группы Липшица и построение слоёв, которые действуют сразу на четыре фундаментальные подпространства алгебры, задаваемые инволюцией по разряду и ревёрсией. Это даёт лёгкую по параметрам реализацию без потери выразительности и автоматически гарантирует нужную эквивариантность. Предложены слои проекций, геометрического произведения и нормализации, а также слой конъюгаций с дискретными коэффициентами, что упрощает обучение и повышает устойчивость. В экспериментах на эталонных задачах архитектура либо превосходит, либо не уступает существующим эквивариантным моделям при существенно меньшем числе параметров. Показаны результаты на регрессии с симметрией O(5), оценке объёма выпуклой оболочки в пространствах O(5) и O(7), а также на задаче взаимодействия N-тел. По сравнению с CGENN достигается сопоставимое или лучшее качество, при этом число параметров и время обучения ниже; отмечена меньшая склонность к переобучению на малых выборках. Работа может быть полезна исследователям эквивариантных архитектур, специалистам по моделированию физических систем и робототехнике, а также командам, которым важны строгие симметрии при ограниченных данных и ресурсах.
статья | код
GitHub
GitHub - katyafilimoshina/glgenn: Generalized Lipschitz Group Equivariant Neural Networks (GLGENN) [ICML 2025]
Generalized Lipschitz Group Equivariant Neural Networks (GLGENN) [ICML 2025] - katyafilimoshina/glgenn
🔥4❤3
Forwarded from Yandex Open Source Jam /chat
Псс 👀 еще не забыли про нас?
Yandex Open Source Jam возвращается!
Уже 24 ноября мы будем ждать вас в Москве и онлайн на нашем третьем опенсорс-джеме. В этот раз мероприятие проходит при поддержке платформы для разработчиков SourceCraft: ребята подготовили для вас много интересных активностей и приятные призы.
Что еще вас ждет на джеме — смотрите на сайте. И регистрируйтесь по ссылке ❤️
До встречи!
Yandex Open Source Jam возвращается!
Уже 24 ноября мы будем ждать вас в Москве и онлайн на нашем третьем опенсорс-джеме. В этот раз мероприятие проходит при поддержке платформы для разработчиков SourceCraft: ребята подготовили для вас много интересных активностей и приятные призы.
Что еще вас ждет на джеме — смотрите на сайте. И регистрируйтесь по ссылке ❤️
До встречи!
❤2
when-punctuation-matters
В репозитории опубликован код и протокол масштабного сравнения методов повышения устойчивости моделей к формату запроса. Авторы берут 8 открытых LLM из семейств Llama, Qwen и Gemma, 52 задачи из набора Natural Instructions и системно оценивают пять подходов: калибровку батча, ансамбли шаблонов, чувствительное к возмущениям декодирование, дообучение LoRA с форматными аугментациями и LoRA с согласующим штрафом. Результаты дополнены проверкой на GPT-4.1 и DeepSeek V3, чтобы понять, как ведут себя «флагманские» модели при изменении пробелов, пунктуации и разметки вариантов ответа. Авторы выяснили, что калибровка батча одновременно повышает точность и снижает разброс качества между разными форматами, оставаясь почти бесплатной по вычислениям; однако при сильном перекосе классов её преимущество исчезает. Исследователи также проверяют переносимость под сдвигами распределения: при композиционном сдвиге по форматам влияние невелико, а при переносе между наборами данных точность LoRA зависит от домена исходного обучения. Работа может быть полезна практикам, которым нужна стабильность LLM в продакшене; исследователям оценки и калибровки; командам, внедряющим ботов и ассистентов в чувствительных сценариях, где изменение шаблона промпта недопустимо.
статья | код
В репозитории опубликован код и протокол масштабного сравнения методов повышения устойчивости моделей к формату запроса. Авторы берут 8 открытых LLM из семейств Llama, Qwen и Gemma, 52 задачи из набора Natural Instructions и системно оценивают пять подходов: калибровку батча, ансамбли шаблонов, чувствительное к возмущениям декодирование, дообучение LoRA с форматными аугментациями и LoRA с согласующим штрафом. Результаты дополнены проверкой на GPT-4.1 и DeepSeek V3, чтобы понять, как ведут себя «флагманские» модели при изменении пробелов, пунктуации и разметки вариантов ответа. Авторы выяснили, что калибровка батча одновременно повышает точность и снижает разброс качества между разными форматами, оставаясь почти бесплатной по вычислениям; однако при сильном перекосе классов её преимущество исчезает. Исследователи также проверяют переносимость под сдвигами распределения: при композиционном сдвиге по форматам влияние невелико, а при переносе между наборами данных точность LoRA зависит от домена исходного обучения. Работа может быть полезна практикам, которым нужна стабильность LLM в продакшене; исследователям оценки и калибровки; командам, внедряющим ботов и ассистентов в чувствительных сценариях, где изменение шаблона промпта недопустимо.
статья | код
GitHub
GitHub - AIRI-Institute/when-punctuation-matters
Contribute to AIRI-Institute/when-punctuation-matters development by creating an account on GitHub.
❤5🔥1
ProcrustesGPT
В репозитории опубликован код ProcrustesGPT — подхода к сжатию больших языковых моделей, который опирается на структурированные матрицы и ортогональные преобразования весов. Авторы используют тот факт, что выход трансформера не меняется, если внутри слоя повернуть скрытое пространство ортогональной матрицей и соответствующим образом скорректировать скип-соединения. Рассматриваются два семейства представлений: суммы произведений Кронекера и так называемые GS-матрицы, обобщающие известные Monarch-структуры. Эксперименты на моделях OPT и Llama2 показывают, что при сжатии порядка 14–36 % по числу параметров ProcrustesGPT даёт меньшую потерю качества, чем SliceGPT и другие методы без дообучения, как по перплексии на WikiText2, так и по нулевому обучению на задачах ARC, HellaSwag, PIQA и WinoGrande. Особенно заметен выигрыш на моделях Llama2, где средняя точность после сжатия остаётся близкой к исходной и существенно превосходит альтернативы. Работа демонстрирует, что грамотно подобранные ортогональные преобразования могут сделать структурированные разложения практичным инструментом сжатия LLM без дополнительного обучения. Код может быть полезен исследователям сжатия нейросетей, инженерам, внедряющим LLM в ресурсно-ограниченные среды, и разработчикам, работающим со структурированными матричными разложениями.
статья | код
В репозитории опубликован код ProcrustesGPT — подхода к сжатию больших языковых моделей, который опирается на структурированные матрицы и ортогональные преобразования весов. Авторы используют тот факт, что выход трансформера не меняется, если внутри слоя повернуть скрытое пространство ортогональной матрицей и соответствующим образом скорректировать скип-соединения. Рассматриваются два семейства представлений: суммы произведений Кронекера и так называемые GS-матрицы, обобщающие известные Monarch-структуры. Эксперименты на моделях OPT и Llama2 показывают, что при сжатии порядка 14–36 % по числу параметров ProcrustesGPT даёт меньшую потерю качества, чем SliceGPT и другие методы без дообучения, как по перплексии на WikiText2, так и по нулевому обучению на задачах ARC, HellaSwag, PIQA и WinoGrande. Особенно заметен выигрыш на моделях Llama2, где средняя точность после сжатия остаётся близкой к исходной и существенно превосходит альтернативы. Работа демонстрирует, что грамотно подобранные ортогональные преобразования могут сделать структурированные разложения практичным инструментом сжатия LLM без дополнительного обучения. Код может быть полезен исследователям сжатия нейросетей, инженерам, внедряющим LLM в ресурсно-ограниченные среды, и разработчикам, работающим со структурированными матричными разложениями.
статья | код
GitHub
GitHub - GrishKate/ProcrustesGPT
Contribute to GrishKate/ProcrustesGPT development by creating an account on GitHub.
🔥7❤1