RuCode Festival
3.31K subscribers
2.03K photos
137 videos
9 files
818 links
Всероссийский чемпионат по алгоритмическому программированию и искусственному интеллекту RuCode 🏆

Бесплатные интенсивы по Data Science, NLP и ML от лучших экспертов Сбера и Яндекса 🔝 Лекции об AI от учёных с мировым именем 🎓
https://rucode.net
Download Telegram
🙂 Твой понедельник тоже не из лёгких, как и у Райана Гослинга? Давай немного упростим друг другу жизнь.
Если МФТИ попал в хит-парад вузов, куда ты планируешь подавать документы, предлагаем пройти опрос абитуриентов. Право на анонимность строго соблюдено 😧

Зачем заполнять анкету? Это поможет сделать МФТИ ещё более открытым и комфортным для будущих студентов, понять твои ожидания от учёбы. И мы наконец узнаем то, что об 🏰 думают, но бояться произнести вслух 🫠
Опрос займет максимум 20 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥1
😧 Мозголомные формулы DeepSeek на пальцах.

Нашумевшие модели R1 и R1-zero построены на базе DeepSeek-V3, крупной Mixture-of-Experts модели:
🟣 архитектура: типичный трансформер-декодер, но с многоголовым latent attention (MLA) + DeepSeekMoE, и MTP (Multi-Token Prediction) — техника, позволяющая предсказывать сразу несколько будущих токенов
🟣 размер: 671 миллиард параметров, но только 37B одновременно активированы для каждого отдельного токена.

По сути, R1 и R1-Zero — это небольшое дообучение поверх DeepSeek-V3.

Главное отличие моделей R1 и R1-Zero в том, что версия R1-Zero вообще не использует supervised fine-tuning. R1 же обучается в многоэтапном, более классическом режиме для получения «читабельных» цепочек рассуждений и более высоких метрик.

В качестве алгоритма RL применяется GRPO (Group Relative Policy Optimization). В отличие от классического PPO от OpenAI, здесь не нужна reward-модель того же размера, что и обучаемая LLM, а оценка реворда берётся по «группе» сгенерированных ответов. Это серьёзно экономит вычисления и, по словам разработчиков, модель сходится очень быстро: около 4000 (всего 4000!) RL-итераций — уже заметный скачок.

😭 Пугающие формулы GRPO найдёшь на картинках 2, 3, 4 этого поста.

Суть GRPO на пальцах:
✍️ Формируем группу. Для каждого вопроса (prompt) старая политика (модель) генерирует не один ответ, а целую группу G ответов

✍️ Считаем reward для каждого ответа (скажем, проверяем код автотестами или сравниваем числовой результат в задаче по математике).

✍️ Вычисляем "относительные" преимущества (advantage). Пусть r_i — reward для i-го ответа.
Тот, у кого r_i выше среднего, получает положительный advantage (усиливаем генерацию). У кого ниже — наоборот, штраф.

✍️ Обновляем политику. Применяем знакомую механику PPO (ratio =\frac{ \pi_{\theta}}{ \pi_{\theta_{old}}}), клипируем апдейты (чтобы не улететь), добавляем KL-штраф, чтобы модель не слишком расходилась с изначальным чекпоинтом.

Теперь вообще не нужна reward-модель. Каждая группа ответов сама формирует baseline (среднюю планку), а модель видит, насколько "этот ответ" лучше/хуже других.

В итоге:
👍 Экономим кучу GPU-памяти: громоздкая reward-модель (иногда размером с саму LLM) больше не нужна.

👍 Меньше "reward-hacking": модель не пытается «обмануть» модель критика, так как baseline вычисляется прямо из сэмплов.

👍 Удобнее масштабировать: Авторов DeepSeekMath и DeepSeek-R1 это особо выручило при обучении на сотнях тысяч примеров (математика, код), где проверка "правильности" ответа легко автоматизируется.

DeepSeek-R1 использует классический путь «SFT + RL + дообучение»: небольшой блок SFT и многоэтапное обучение для улучшения читаемости и метрик.

Все этапы обучения R1 довольно понятно изображены на последней картинке поста. Происходит постоянное чередование RL и SFT + генерация синтетики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
🕺 Сколько задачек с LeetCode ты порешал сегодня?
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1🔥1🤡1
🧠 Без этого чипы Neuralink, мозговой имплант с интерфейсом «мозг-компьютер» и квантовые компьютеры попали бы в категорию «невозможное».

66 лет назад была запатентована первая интегральная микросхема 🥳 Кто и как произвёл очередную технологическую революцию, кратко рассказали в карточках.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥3
👍 Всем драйвовых выходных!
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥7👍4🤡2
🎓 В день российской науки предлагаем устроить познавательный вечер и пробежаться по главным IT-изобретениям последнего столетия.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥1