when-punctuation-matters
В репозитории опубликован код и протокол масштабного сравнения методов повышения устойчивости моделей к формату запроса. Авторы берут 8 открытых LLM из семейств Llama, Qwen и Gemma, 52 задачи из набора Natural Instructions и системно оценивают пять подходов: калибровку батча, ансамбли шаблонов, чувствительное к возмущениям декодирование, дообучение LoRA с форматными аугментациями и LoRA с согласующим штрафом. Результаты дополнены проверкой на GPT-4.1 и DeepSeek V3, чтобы понять, как ведут себя «флагманские» модели при изменении пробелов, пунктуации и разметки вариантов ответа. Авторы выяснили, что калибровка батча одновременно повышает точность и снижает разброс качества между разными форматами, оставаясь почти бесплатной по вычислениям; однако при сильном перекосе классов её преимущество исчезает. Исследователи также проверяют переносимость под сдвигами распределения: при композиционном сдвиге по форматам влияние невелико, а при переносе между наборами данных точность LoRA зависит от домена исходного обучения. Работа может быть полезна практикам, которым нужна стабильность LLM в продакшене; исследователям оценки и калибровки; командам, внедряющим ботов и ассистентов в чувствительных сценариях, где изменение шаблона промпта недопустимо.
статья | код
В репозитории опубликован код и протокол масштабного сравнения методов повышения устойчивости моделей к формату запроса. Авторы берут 8 открытых LLM из семейств Llama, Qwen и Gemma, 52 задачи из набора Natural Instructions и системно оценивают пять подходов: калибровку батча, ансамбли шаблонов, чувствительное к возмущениям декодирование, дообучение LoRA с форматными аугментациями и LoRA с согласующим штрафом. Результаты дополнены проверкой на GPT-4.1 и DeepSeek V3, чтобы понять, как ведут себя «флагманские» модели при изменении пробелов, пунктуации и разметки вариантов ответа. Авторы выяснили, что калибровка батча одновременно повышает точность и снижает разброс качества между разными форматами, оставаясь почти бесплатной по вычислениям; однако при сильном перекосе классов её преимущество исчезает. Исследователи также проверяют переносимость под сдвигами распределения: при композиционном сдвиге по форматам влияние невелико, а при переносе между наборами данных точность LoRA зависит от домена исходного обучения. Работа может быть полезна практикам, которым нужна стабильность LLM в продакшене; исследователям оценки и калибровки; командам, внедряющим ботов и ассистентов в чувствительных сценариях, где изменение шаблона промпта недопустимо.
статья | код
GitHub
GitHub - AIRI-Institute/when-punctuation-matters
Contribute to AIRI-Institute/when-punctuation-matters development by creating an account on GitHub.
❤5🔥1
ProcrustesGPT
В репозитории опубликован код ProcrustesGPT — подхода к сжатию больших языковых моделей, который опирается на структурированные матрицы и ортогональные преобразования весов. Авторы используют тот факт, что выход трансформера не меняется, если внутри слоя повернуть скрытое пространство ортогональной матрицей и соответствующим образом скорректировать скип-соединения. Рассматриваются два семейства представлений: суммы произведений Кронекера и так называемые GS-матрицы, обобщающие известные Monarch-структуры. Эксперименты на моделях OPT и Llama2 показывают, что при сжатии порядка 14–36 % по числу параметров ProcrustesGPT даёт меньшую потерю качества, чем SliceGPT и другие методы без дообучения, как по перплексии на WikiText2, так и по нулевому обучению на задачах ARC, HellaSwag, PIQA и WinoGrande. Особенно заметен выигрыш на моделях Llama2, где средняя точность после сжатия остаётся близкой к исходной и существенно превосходит альтернативы. Работа демонстрирует, что грамотно подобранные ортогональные преобразования могут сделать структурированные разложения практичным инструментом сжатия LLM без дополнительного обучения. Код может быть полезен исследователям сжатия нейросетей, инженерам, внедряющим LLM в ресурсно-ограниченные среды, и разработчикам, работающим со структурированными матричными разложениями.
статья | код
В репозитории опубликован код ProcrustesGPT — подхода к сжатию больших языковых моделей, который опирается на структурированные матрицы и ортогональные преобразования весов. Авторы используют тот факт, что выход трансформера не меняется, если внутри слоя повернуть скрытое пространство ортогональной матрицей и соответствующим образом скорректировать скип-соединения. Рассматриваются два семейства представлений: суммы произведений Кронекера и так называемые GS-матрицы, обобщающие известные Monarch-структуры. Эксперименты на моделях OPT и Llama2 показывают, что при сжатии порядка 14–36 % по числу параметров ProcrustesGPT даёт меньшую потерю качества, чем SliceGPT и другие методы без дообучения, как по перплексии на WikiText2, так и по нулевому обучению на задачах ARC, HellaSwag, PIQA и WinoGrande. Особенно заметен выигрыш на моделях Llama2, где средняя точность после сжатия остаётся близкой к исходной и существенно превосходит альтернативы. Работа демонстрирует, что грамотно подобранные ортогональные преобразования могут сделать структурированные разложения практичным инструментом сжатия LLM без дополнительного обучения. Код может быть полезен исследователям сжатия нейросетей, инженерам, внедряющим LLM в ресурсно-ограниченные среды, и разработчикам, работающим со структурированными матричными разложениями.
статья | код
GitHub
GitHub - GrishKate/ProcrustesGPT
Contribute to GrishKate/ProcrustesGPT development by creating an account on GitHub.
🔥7❤1