🚀rStar-Math от Microsoft - техника, которая позволяет улучшать небольшие модели, такие как Qwen-7B и Phi3-mini, позволяя им работать на уровне OpenAI o1 и выше в решении математических задач.
Ключевые моменты:
🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.
Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.
Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.
📊 Результаты:
🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.
🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.
🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.
Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.
◾️GitHub
@ai_machinelearning_big_data
#rstar #microsoft #mah
Ключевые моменты:
🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.
Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.
Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.
📊 Результаты:
🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.
🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.
🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.
Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.
◾️GitHub
@ai_machinelearning_big_data
#rstar #microsoft #mah
❤29👍25🔥15🐳2😁1