я обучала одну модель

Reinforcement Learning for Reasoning in Large Language Models with One Training Example
https://arxiv.org/pdf/2504.20571

Очень интересная статья, не только своим основным клеймом, который и так сам по себе довольно удивителььный и неинтуитивный, но и такими же неожиданными выводами в аблейшенах.

Как понятно из заголовка, модель тренируют с помощью обычного GRPO всего на одном примере. И качество на тесте действительно растет, при чем со временем оно сходится к качеству модели, которую обучали на датасете обычного размера в 7.5k наблюдений. К чести авторов, помимо просто качества на тесте они репортят еще и среднюю accuracy на 6 разных математических бенчмарках – там оно тоже растет.

При этом по графику видно, что изначально модель очевидно осуществляет reward hacking – то есть просто учится отвечать в правильном формате (здесь это ответ, заключенный в \boxed{}) – после этого точность значительно падает, и только где-то на 300-ом шаге начинает расти обратно, видимо, засчет реально выросших способностей к ризонингу

Как выбирать один единственный пример для обучения? Вообще можно взять рандомно и увидеть какой-то нетривиальный прирост качества (в статье 30+% для рандомного выбора). Но самый оптимальный в статье выбирали по historical accuracy. Модель тренировали несколько эпох на полном датасете и для каждого примера замеряли, может ли модель его решить в конце эпохи. Лучший пример в этом плане тот, где вариация accuracy во время тренировки самая большая. Мотивировано это тем, что для RL обучения очень важна вариация сигнала от реворда, и тут мы можем ожидать, что тренируясь на таком примере, реворд не будет константным (не будет ситуации, что пример каждую эпоху либо идеально решен, либо не решен вообще никогда).

Интересно, что в итоге лучший пример, который использовали авторы, 1) не сложный – модель без тернировки как правило может его решить вплоть до последнего шага, 2) имеет неправильный ground truth ответ – верным является решение 12.7, а в датасете стоит 12.8

Самый неожиданный клейм статья – феномен, который авторы назвали post-saturation generalization. Accuracy на тренировке как правило достигает 100% за первые 100 шагов обучения, но качество на тесте продолжает расти дальше, даже после 1500-ого шага. При этом, на тренировочном примере происходит полный оверфит: модель в какой-то момент начинает выдавать бессмысленную мешанину из токенов на смеси языков, посреди этого все равно выдает правильный ответ в \boxed{}, но на тестовых данных при этом продолжает отвечать нормальных связным текстом (!). Для SFT моделей я никогда ничего похожего не видела, и если этот феномен воспроизводится на других данных, то это очевидно огромное преимущество RL. Если оверфит на тренировочных данных не транслируется в плохое качество на тесте, то теоретически можно тренироваться на одном и том же датасете огромное количество раз, и модель продолжит учиться чему-то новому дальше. На этом фоне мне вспомнились заголовки из ноября 2023 о том, что алгроитм q*, который по слухам разрабатыл Суцкевер до ухода из OpenAI, должен был решить проблему заканчивающихся данных для обучения моделей. Получается, RL-ем действительно ее можно решить не только в том смысле, что это более эффективно, чем SFT, но и в том понимании, что здесь гораздо сложнее упереться в лимит по данным.

При чем, автооры отдельно показывают, что это не похоже на гроккинг, который может происходить при SFT-обучении. Там это являетcя эффектом регуляризации, а в этой статье эффект воспроизводится, если вообще никакую регуляризацию (weight decay) не включать в формулу лосса. И в целом можно добиться практически того же качества, если оставить только policy loss (который зависит от ревордов), и убрать и weight decay, и KL-дивергенцию, и entropy loss, которые дефолтно используются в GRPO.

🔥22❤6👍4

9.76K viewsedited 16:35

Параллельно с этим, в статье выдвигается гипотеза, что post-saturation generalization происходит во много благодаря тому, что повышается разнообразие ответов, которое семплируется в процессе обучения (так выше вероятность, что хотя бы какие-то способы решения будут правильные, и они будут поощряться RL-алгоритмом). Например, если обучаться с низкой температурой (t=0.6) и без entropy loss, то дальше 150-ого шага никаких улучшений не наблюдается. В связи с этим в статье есть еще очень интересный эксперимент, когда модель обучали только с entropy loss, то есть не уделяя никакого внимания реворду, просто повышали энтропию и тем самым поощряли более разнообразные ответы. На удивление, такая модель тоже показывала рост качества на тесте, хотя конечно не такой сильный (+8% в среднем для 6 бенчмарков). Из этого всего авторы заключают, что в GRPO главным образом доминриует эффект policy loss, который одновременно заставляет модель придерживаться эмпирически выигрышных стратегий при решении ответа, но при этом имплицитно осуществляет регуляризацию за счет того, что модели все равно нужно продолжать корректно решать тренировочный пример. При этом, очень важно параллельно повышать энтропию, за счет температуры и/или entropy loss.

Также в аблейшенах авторы показывают, что обучение на примере из определенного раздела математики бустит качество и на других разделах (я предполагаю, и на коде тоже бы оно поднялось). При этом, задачка из, например, геометрии может больше всего поднять скоры на теории чисел, а не на самой геометрии. Из чего можно предположить, что здесь происходит не переобучение под какой-то домен. Еще один интересный факт – если в ground truth ответе есть небольшая погрешность (например, 12.7 вместо правильных 12.8), то это почти не мешает модели обучаться. Но если там какая-то существенная ошибка, то это даже хуже, чем обучаться просто на бессмысленном ответе

🔥23

4.98K views16:35

я обучала одну модель

Ну и пожалуй самый нетривиальный скрин из статьи 🤨

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳15🤡10🔥2

12.2K views16:39

я обучала одну модель

было.....

😱45🎉41❤19😁19🔥9

9.04K views23:23

я обучала одну модель

До ACL еще две недели, но у меня уже есть любимая статья

https://arxiv.org/abs/2412.17533

🥰41😁27❤9🔥4🤡2🤩1

4.59K views19:06

я обучала одну модель

Очень конспирологическая статья Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
https://arxiv.org/abs/2507.14805

В чем идея: модель-учителя обучали на датасете с какой-то ярко выраженной чертой. Например, прививая ей особенно сильную любовь к совам. Потом эту же модель просили сгенерировать данные, состоящие из с виду рандомных номеров. Например, продолжить уже созданный список каким-нибудь образом, без какого-то заданного паттерна. На этом числовом датасете потом учат student model

В итоге эта student model каким-то образом перенимает предпочтения модели-учителя и тоже начинает любить сов, обучившись на наборе чисел, которые видимо нам кажутся случайными, но таковыми не являются

Это работает с разными животными, и даже работает с MNIST: student model научилась решать задачи из этого датасета, по сути никогда не обучаясь на этих данных, а увидев только (pseudo)random noise от модели-учителя

При этом, эффект не сохраняется, если просто засунуть рандомные числа в контекст модели без дополнительного обучения, или если у студента и учителя разные базовые модели. Также отдельно проверяли, что это не подвид emergent misalignment, когда, например, модель становится злой, если ее обучить на небезопасном коде или на числах типа 666 и 1488

Еще этот подход работает, если вместо чисел генерить другие не связанные с выбранной чертой (e.g. любовь к совам) домены, например код или ризонинг трейсы для математических задач

В целом это интересная иллюстрация того, что все LLM – это достаточно необычные distribution machines. Но боюсь представить сколько шизо-теорий на этом теперь можно построить

🤩47🤯22❤9👍7🔥6

25.6K views23:17

я обучала одну модель

Пока что лучшее что я видела в чатике с ACL

🔥42❤22😁8👍7🤔3🤡3🐳3👌1

3.72K views19:56

я обучала одну модель

Самые интересные, на мой взгляд, статьи с ACL'25 🙃:

- Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning: авторы замечают, что у моделей разного размера на разных этапах обучения происходит loss deceleration – то есть момент, когда лосс резко перестает быстро падать и продолжает снижаться гораздо медленнее. В статье они показывают, что это происходит из-за zero-sum learning: научившись решать какие-то задачи, модель не может научиться чему-то новому, не пожертвовав качеством на уже приобретенных навыках. Чем больше модель, тем больше типов задач она может "поддерживать" параллельно -> тем позже в обучении у нее замедляется падение лосса, и тем большая скорость падения сохраняется после этого перелома

- Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases: показывают, что претрен модели на формальных языках (например, Dyck, который состоит из последовательности корректно открытых и закрытых скобок) позволяет ей дальше более эффективно обучаться естественным языкам. Например, модели, предварительно обученной на формальных языках, нужно на 33% меньше токенов на естественном языке, чтобы добиться такого же лосса, как при обычной тренировке только на тексте. Еще показывают, что веса аттеншн-хедов, выученные при тренировке на формальных языках, потом переиспользуются дальше, то есть модели получается выучить что-то о структуре и логике языка из скобочек. Кстати у моего друга Миши есть статья на ту же тему, где он еще находит язык, который лучше всего в итоге транслируется в понимание английского

- Byte Latent Transformer: Patches Scale Better Than Tokens: кажется все кроме меня уже ее прочитали, но главная идея в том, что хочется избавиться от токенизации, но при этом разбивать текст на отдельные байты получается слишком неэффективно. Поэтому байты можно сгруппировать по энтропии. Например, в предложении "Daenerys Targeryen is in Game of Thrones, a fantasy epic by George R.R. Martin." легко угадать, что после "Daene" идет "rys", но сложно угадать "is" после "Targeryen", поэтому энтропия там будет высокая, и там можно разбить на два патча

- A Little Human Data Goes A Long Way: можно повышать процент синтететических данных в обучающем датасете до 90% без изменения в качестве итоговой модели, но дальше 90% все резко становится хуже. Еще в статье пробовали добавлять человеческие данные в чисто синтетические датасеты: чтобы побить выигрыш от 200 человеческих ответов, надо было докинуть 16к синтетических датапоинтов

- Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?: показывают, что очень большое число токенов в long cot довольно бесполезное - 67.8% токенов в среднем не несут пользы, так как не ведут к корректному решению, а 27% шагов, которые LLM перечисляют в решении, по сути являются повторениями одного и того же. Находить ошибки в своих и чужих решениях у моделей на удивление плохо получается, и лучшим критиком в этом плане оказалась GPT-4-turbo, которая заметно впереди более сильных о1-preview и r1

- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs: помимо бенчмарка там показывают, что модели, которые хорошо умеют решать математику, часто при этом плохо оценивают чужие решения, и наоборот. При этом, у семейств моделей обычно есть свои внутренние баесы: например, Qwen часто признают неправильные ответы правильными, а Claude оценивает горадо строже

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Between Circuits and Chomsky: Pre-pretraining on Formal Languages...

Pretraining language models on formal language can improve their acquisition of natural language. Which features of the formal language impart an inductive bias that leads to effective transfer?...

❤31🔥9👍7

3.96K viewsedited 12:49

я обучала одну модель

Еще одна вещь, которая мне запомнилась с ACL: в своем keynote Luke Zettlemoyer упоминал умопомрачительные успехи RL, которые были обнаружены в некоторых недавних статьях. Например, в Spurious Rewards: Rethinking Training Signals in RLVR показывали, что в принципе Qwen может учиться на рандомных ревордах, или даже на заведомо неправильных (когда модель поощряют за некорректный ответ). Это не единственная в своем роде такая статья, но видимо наиболее всем запомнившаяся. В своей речи Люк сказал, что пока не понятно, с чем связан чудодейственный эффект RL, но мне кажется за пару последних месяцев объяснения уже смогли найти:

1. Банально плохие эвалы, где изначальный перфоманс модели оказывается сильно занижен просто из-за того, что ее ответы не соответствуют ожидаемому формату. Вот в этом репорте можно увидеть разборы многих последних популярных статей по RL, где продвигается обучение с очень странными ревордами, или без ревордов в явном виде (как правило это обучение, где минимизируется или максимизируется энтропия), и практически во всех случаях выводы статьи оказываются несостоятельны, потому что авторы некорректно посчитали изначальные скоры

2. В самих алгоритмах PPO и GRPO уже есть байес. Даже с рандомным ревордом, у этих алгоритмов всегда есть предрасположенность еще чаще выбирать действия, которые уже являются вероятными. Происходит это из-за clipping factor, который ограничивает то, насколько большой может быть апдейт за один шаг, но при этом он не позволяет этому апдейту быть совсем нулевым. Хотя по-хорошему, с рандомными ревордами градиент должен как раз должен быть около 0 и никаких изменений в полиси модели происходить не должно (алгоритмы вроде REINFORCE это обеспечивают)

В целом, сами авторы Spurious Rewards развивают эту мысль в статье (но видимо до этого момента мало кто дошел): они говорят, что Qwen модели изначально имеют некоторую предрасположенность решать математические задачи с помощью вспомогательных кусков кода. После обучения с GRPO они все чаще начинают генерировать код, и это помогает им решать задачи лучше. В то время как в LLaMA-моделях склонности к коду изначально нет, и поэтому такой магический RL на них не работает

Оба этих пункта, как мне кажется, очень важно учитывать при дизайне своих исследований; на ACL было достаточно работ и с очень плохими эвалами, и с очень странными RLем, так что проблема актуальная..........😫

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤12🔥4🥴1

3.81K viewsedited 23:40

я обучала одну модель

😁69❤4👍2

3.82K views15:28

я обучала одну модель

The Platonic Representation Hypothesis https://arxiv.org/abs/2405.07987 Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными…

Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко, ее суть была в том, что разные модели, в том числе модели разных модальностей, сходятся к +- похожим латентным представлениям реальности, при чем эти представления отражают то, насколько близкими те или иные концепты являются в рамках человеческого восприятия. И вот наконец вышла пачка статей, которые подтверждают и развивают эту гипотезу дальше:

1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)

Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию

2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно

3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.

Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта

Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:

- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели

- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)

❤25👍18🔥8🤯7

4.22K viewsedited 17:30

я обучала одну модель

Я в целом согласна с оценкой, что Суцкевер в своем интервью выдал примерно 3 бита информации, но что-то интересное оттуда все же хочется отметить:

Первую половину интервью очень много говорится про генерализацию, и что модели гораздо лучше сейчас себя показывают на бенчмарках, чем действительно способны решать задачи в реальной жизни. Илья это отсутствие генерализации через RL описывает очень удачной метафорой: допустим, есть один студент, который решает стать лучшим в спортивном программировании, он несколько лет решает все существующие задачи, тренируется, выучивает стратегии решений, и в конце действительно становится в этом хорош. Другой студент решает по приколу пройти один курс по спортивному программированию и сразу же становится чемпионом. Если спросить, какой из студентов в дальнейшем будет успешен в карьере (или даже – кто из студентов умнее), скорее всего вы ответите, что второй. Но модели сейчас учат скорее по первому принципу, закидывая в них вообще все существующие задачи в одной области, пока не побьется скор на каком-нибудь бенчмарке

Суцкевер такую разницу между моделями описывает как "it factor" – модель либо умная (и, следовательно, генерализуется), либо не очень. Но потом в интервью подозрительно много времени говорят про value functions, и мне показалось, что ключ к тому, как сделать модели умнее и научить из генерализировать свои навыки, Илья видит в них

Value function по-хорошему должна нам подсказывать, насколько хорошее или адекватное действие мы сейчас пытаемся предпринять в текущей ситуации. Value functions людей скорее всего очень сложные. Здесь Илья приводит пример одного клинического случая, когда из-за поражения мозга у мужчины отключились все эмоции, и одновременно с этим он стал гораздо хуже принимать любые решения: от того, что надеть сегодня, до финансового поведения – хотя эти вещи казалось бы не сильно связанные. При этом, в нормальном состоянии наши value functions работают очень хорошо, люди довольно быстро выучивают, как водить машину или как делить столбиком. То есть в большом количестве новых ситуаций мы достаточно быстро становимся способны угадать, какие действия выигрышные, а какие лучше не совершать

Возвращаясь к примеру со студентами: кажется, что разница между ними в том, что второй умеет учиться, а первый умеет зубрить. Тогда можно ли создать такую value function, которая будет толкать модель выучивать более общие эвристики и глобальные паттерны, а не только ориентироваться в задаче, которую она решает непосредственно сейчас? I.e., научить правильно подходить к решению задач, а не к решению конкретной задачи? Такую всеобъемющую value function, чтобы она могла достаточно хорошо угадывать в большом числе разрозненных доменов, экспраполируя опыт даже из, казалось, не очень связанных областей?

Как сам Суцкевер сказал в интервью, there is nothing deep learning cannot do ✏️ И мне кажется нечто подобное они пытаются сварить, хотя понятно, что о конкретных планах SSI он не может особо распространяться

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Ilya Sutskever – We're moving from the age of scaling to the age of research

Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.

𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…

🔥15👍11❤5🤔4😁3🥱3

1.73K viewsedited 09:33

About

Blog

Apps

Platform