RuCode Festival

🙂 Твой понедельник тоже не из лёгких, как и у Райана Гослинга? Давай немного упростим друг другу жизнь.
Если МФТИ попал в хит-парад вузов, куда ты планируешь подавать документы, предлагаем пройти опрос абитуриентов. Право на анонимность строго соблюдено 😧

Зачем заполнять анкету? Это поможет сделать МФТИ ещё более открытым и комфортным для будущих студентов, понять твои ожидания от учёбы. И мы наконец узнаем то, что об 🏰 думают, но бояться произнести вслух 🫠
Опрос займет максимум 20 минут.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥1

950 viewsedited 16:30

RuCode Festival

😧 Мозголомные формулы DeepSeek на пальцах.

Нашумевшие модели R1 и R1-zero построены на базе DeepSeek-V3, крупной Mixture-of-Experts модели:
🟣 архитектура: типичный трансформер-декодер, но с многоголовым latent attention (MLA) + DeepSeekMoE, и MTP (Multi-Token Prediction) — техника, позволяющая предсказывать сразу несколько будущих токенов
🟣 размер: 671 миллиард параметров, но только 37B одновременно активированы для каждого отдельного токена.

По сути, R1 и R1-Zero — это небольшое дообучение поверх DeepSeek-V3.

Главное отличие моделей R1 и R1-Zero в том, что версия R1-Zero вообще не использует supervised fine-tuning. R1 же обучается в многоэтапном, более классическом режиме для получения «читабельных» цепочек рассуждений и более высоких метрик.

В качестве алгоритма RL применяется GRPO (Group Relative Policy Optimization). В отличие от классического PPO от OpenAI, здесь не нужна reward-модель того же размера, что и обучаемая LLM, а оценка реворда берётся по «группе» сгенерированных ответов. Это серьёзно экономит вычисления и, по словам разработчиков, модель сходится очень быстро: около 4000 (всего 4000!) RL-итераций — уже заметный скачок.

😭 Пугающие формулы GRPO найдёшь на картинках 2, 3, 4 этого поста.

Суть GRPO на пальцах:
✍️ Формируем группу. Для каждого вопроса (prompt) старая политика (модель) генерирует не один ответ, а целую группу G ответов

✍️ Считаем reward для каждого ответа (скажем, проверяем код автотестами или сравниваем числовой результат в задаче по математике).

✍️ Вычисляем "относительные" преимущества (advantage). Пусть r_i — reward для i-го ответа.
Тот, у кого r_i выше среднего, получает положительный advantage (усиливаем генерацию). У кого ниже — наоборот, штраф.

✍️ Обновляем политику. Применяем знакомую механику PPO (ratio =\frac{ \pi_{\theta}}{ \pi_{\theta_{old}}}), клипируем апдейты (чтобы не улететь), добавляем KL-штраф, чтобы модель не слишком расходилась с изначальным чекпоинтом.

Теперь вообще не нужна reward-модель. Каждая группа ответов сама формирует baseline (среднюю планку), а модель видит, насколько "этот ответ" лучше/хуже других.

В итоге:
👍 Экономим кучу GPU-памяти: громоздкая reward-модель (иногда размером с саму LLM) больше не нужна.

👍 Меньше "reward-hacking": модель не пытается «обмануть» модель критика, так как baseline вычисляется прямо из сэмплов.

👍 Удобнее масштабировать: Авторов DeepSeekMath и DeepSeek-R1 это особо выручило при обучении на сотнях тысяч примеров (математика, код), где проверка "правильности" ответа легко автоматизируется.

DeepSeek-R1 использует классический путь «SFT + RL + дообучение»: небольшой блок SFT и многоэтапное обучение для улучшения читаемости и метрик.

Все этапы обучения R1 довольно понятно изображены на последней картинке поста. Происходит постоянное чередование RL и SFT + генерация синтетики.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3🔥1

1.12K views16:32

RuCode Festival

🕺 Сколько задачек с LeetCode ты порешал сегодня?

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1🔥1🤡1

993 views16:57

RuCode Festival

🧠 Без этого чипы Neuralink, мозговой имплант с интерфейсом «мозг-компьютер» и квантовые компьютеры попали бы в категорию «невозможное».

66 лет назад была запатентована первая интегральная микросхема 🥳 Кто и как произвёл очередную технологическую революцию, кратко рассказали в карточках.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🔥3

1.13K views19:59

RuCode Festival

👍 Всем драйвовых выходных!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🔥7👍4🤡2

1.29K views14:56