RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем.
Всех с началом нового рабочего года.
Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.
На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:
1. STaR концепт для просеивания/фильтрации лучших рассуждений. Упоминается Дядей тут.
2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.
3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.
4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.
В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.
Всех с началом нового рабочего года.
Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.
На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:
1. STaR концепт для просеивания/фильтрации лучших рассуждений. Упоминается Дядей тут.
2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.
3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.
4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.
В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.
huggingface.co
Paper page - rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
Thinking
Join the discussion on this paper page
Dealer.AI
RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем. Всех с началом нового рабочего года. Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов. На самом деле, собрали…
А теперь взгляните. У нас есть StAR, есть Q-values с MCTS на основе self-rewarding в состоянии ветки S, есть самоэволюция и все это не тот ли самый магический и легендарный Q-star? 🤔🤔🤔
OpenAI Developer Community
OpenAI Rumors: Q* is Now a Reasoning Engine Called 'Project Strawberry'
According to leaks reported by Bloomberg and Reuters, OpenAI is making progress in enabling AI models to plan ahead before providing answers. On Tuesday at an internal all-hands meeting, OpenAI showed a demo of a research project that it claimed had new…
This media is not supported in your browser
VIEW IN TELEGRAM
Юмор выходного дня.
Жиза.🚶♂️
Жиза.
Please open Telegram to view this post
VIEW IN TELEGRAM
Dealer.AI
Юмор выходного дня. Жиза. 🚶♂️
Если что, это "Бегущий по лезвию" про роботов/ии и расследование. Только смотрите 1982 потом уже 2049)
Forwarded from Data Secrets
Внезапно: OpenAI спонсировали EpochAI в создании бенчмарка FrontierMath и имели доступ к данным
Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).
А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.
EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения"🤦
Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).
А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.
EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения"
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Dealer.AI
Photo
Ну че вы, Сама и Ко дали "слово пацана" (если это применимо офк). Нет там fit on the test 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSeek поделились интересным примером, того как их модель R1-Zero после обучения через rl "сама научилась останавливаться" и перепроверять свои решения. Причем ее этому не учили. Вот такой вот трансфер.
А что думаете Вы? Черипик или нет, верим?
Пишите в комментариях свое мнение.
https://github.com/deepseek-ai/DeepSeek-R1
А что думаете Вы? Черипик или нет, верим?
Пишите в комментариях свое мнение.
https://github.com/deepseek-ai/DeepSeek-R1
100 ярдов $ в OpenAI⚡️?)
До AGI оталось 6.9T $💳
https://www.cbsnews.com/news/trump-announces-private-sector-ai-infrastructure-investment/
Upd. Этот чел с какой-то части "Один дома" стал президентом и тут же решил сделать свой новый срок запоминающимся, по крайней мере для AI индустрии.
До AGI оталось 6.9T $
https://www.cbsnews.com/news/trump-announces-private-sector-ai-infrastructure-investment/
Upd. Этот чел с какой-то части "Один дома" стал президентом и тут же решил сделать свой новый срок запоминающимся, по крайней мере для AI индустрии.
Please open Telegram to view this post
VIEW IN TELEGRAM
CBS News
Trump announces up to $500 billion in private sector AI infrastructure investment
President Trump announced billions in private sector investment by OpenAI, Softbank and Oracle to build AI infrastructure in the U.S.