Machinelearning

🚀rStar-Math от Microsoft - техника, которая позволяет улучшать небольшие модели, такие как Qwen-7B и Phi3-mini, позволяя им работать на уровне OpenAI o1 и выше в решении математических задач.

Ключевые моменты:

🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.

Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.

Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.

Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.

📊 Результаты:

🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.

🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.

🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.

Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.

◾️GitHub

@ai_machinelearning_big_data

#rstar #microsoft #mah

❤29👍25🔥15🐳2😁1

15K viewsedited 16:07

About

Blog

Apps

Platform