Forwarded from Machinelearning
Fundan University совместно с Shanghai AI Laboratory составили дорожную карту, как повторить возможности модели o1 от OpenAI.
Главное – обучение с подкреплением, есть 4 важных условия, которые нужно сделать, чтобы добиться такого же уровня, как у o1:
Инициализация политики начинается с предварительного обучения LLM на больших текстовых датасетах. Они должны быть из разных областей и включать помимо классических задач NLP, примеры логического рассуждения, знаний о мире и демонстрировать паттерны навыка сравнения. Это позволит модели освоить базовое понимание языка и навыки рассуждения.
Последующая тонкая настройка на инструкциях преобразует модель из "предсказателя следующего токена" в полноценного агента, который может выполнять задачи. Тут важно добавить в процесс человекоподобных рассуждений через SFT или подсказки, чтобы научить модель исследовать пространство решений. Например, самооценке и самокоррекции, как это происходит у OpenAI o1.
Разработка вознаграждения дает модели четкую и понятную обратную связь не только в конце решения задачи, но и на промежуточных этапах. Правильно спроектированная система с использованием внутренних и внешних функций крайне важна, с ней модель учится лучше.
Поиск - решающий навык для генерации качественных решений на этапах обучения и тестирования. Использование методов Best-of-N, Beam Search, MCTS позволяет получить лучшие из возможных результатов. Например, MCTS подходит для более широкого исследования пространства решений.
Обучение использует данные, полученные в процессе поиска для улучшения политики модели. Чем больше параметров и объем поисковых данных - тем лучше производительность в итоге. По сути, обучение и поиск работают как "суперсила", способствуя развитию модели.
Выводы, сделанные в процессе исследования авторами сводятся к тому, что существующие открытые проекты, которые пытаются воспроизвести o1 - вариации такого метода обучения. Обучение с подкреплением - ключ к созданию "рассуждающей модели".
@ai_machinelearning_big_data
#AI #ML #LLM #Paper #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥6❤3🤔2💘1