Если МФТИ попал в хит-парад вузов, куда ты планируешь подавать документы, предлагаем пройти опрос абитуриентов. Право на анонимность строго соблюдено
Зачем заполнять анкету? Это поможет сделать МФТИ ещё более открытым и комфортным для будущих студентов, понять твои ожидания от учёбы. И мы наконец узнаем то, что об
Опрос займет максимум 20 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥1
Нашумевшие модели R1 и R1-zero построены на базе DeepSeek-V3, крупной Mixture-of-Experts модели:
По сути, R1 и R1-Zero — это небольшое дообучение поверх DeepSeek-V3.
Главное отличие моделей R1 и R1-Zero в том, что версия R1-Zero вообще не использует supervised fine-tuning. R1 же обучается в многоэтапном, более классическом режиме для получения «читабельных» цепочек рассуждений и более высоких метрик.
В качестве алгоритма RL применяется GRPO (Group Relative Policy Optimization). В отличие от классического PPO от OpenAI, здесь не нужна reward-модель того же размера, что и обучаемая LLM, а оценка реворда берётся по «группе» сгенерированных ответов. Это серьёзно экономит вычисления и, по словам разработчиков, модель сходится очень быстро: около 4000 (всего 4000!) RL-итераций — уже заметный скачок.
Суть GRPO на пальцах:
Тот, у кого r_i выше среднего, получает положительный advantage (усиливаем генерацию). У кого ниже — наоборот, штраф.
Теперь вообще не нужна reward-модель. Каждая группа ответов сама формирует baseline (среднюю планку), а модель видит, насколько "этот ответ" лучше/хуже других.
В итоге:
DeepSeek-R1 использует классический путь «SFT + RL + дообучение»: небольшой блок SFT и многоэтапное обучение для улучшения читаемости и метрик.
Все этапы обучения R1 довольно понятно изображены на последней картинке поста. Происходит постоянное чередование RL и SFT + генерация синтетики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🔥1🤡1
66 лет назад была запатентована первая интегральная микросхема
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥7👍4🤡2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5🔥1