Forwarded from Machinelearning
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
@ai_machinelearning_big_data
#DeepSeek #deepseekr1 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст
Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM