RuCode Festival
3.3K subscribers
2.03K photos
137 videos
9 files
818 links
Всероссийский чемпионат по алгоритмическому программированию и искусственному интеллекту RuCode 🏆

Бесплатные интенсивы по Data Science, NLP и ML от лучших экспертов Сбера и Яндекса 🔝 Лекции об AI от учёных с мировым именем 🎓
https://rucode.net
Download Telegram
🤩 День рождения передового ИТ-факультета в вузе мечты – праздник вдвойне! Сегодня исполнилось 3 года с даты основания Высшей школы программной инженерии – совместного факультета МФТИ (соорганизатора Всероссийского ИТ-фестиваля RuCode), Яндекса, Сбера и БФ «Система». Давай отмечать и поздравлять именинника вместе 🎉

Первым партнёром ВШПИ стала компания Яндекс, а в первый набор вошло всего тридцать шесть студентов.

Сейчас ВШПИ – это состоявшийся факультет Физтеха:

🟣больше 170 студентов
🟣три индустриальных партнёра: Яндекс, МТС и Сбер
🟣три учебных направления:
искусственный интеллект, высоконагруженные системы, мобильная разработка и фронтенд

И это не предел!

В 2025 году количество бюджетных мест на ВШПИ увеличено до 63, кроме того, расширится возможность платного обучения: теперь в ВШПИ 61 контрактное место.

🕺 Поздравляем всех, кто причастен к школе: студентов, преподавателей и партнёров. Мы будем рады видеть Рукодовцев в числе студентов ВШПИ!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12🎉3👏2
☺️ Возможно, после этих мемов тебе станет казаться, что жизнь напоминает бесконечный день сурка. Это не так. Твоя жизнь напоминает день программиста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥1😍1
🙂 Твой понедельник тоже не из лёгких, как и у Райана Гослинга? Давай немного упростим друг другу жизнь.
Если МФТИ попал в хит-парад вузов, куда ты планируешь подавать документы, предлагаем пройти опрос абитуриентов. Право на анонимность строго соблюдено 😧

Зачем заполнять анкету? Это поможет сделать МФТИ ещё более открытым и комфортным для будущих студентов, понять твои ожидания от учёбы. И мы наконец узнаем то, что об 🏰 думают, но бояться произнести вслух 🫠
Опрос займет максимум 20 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥1
😧 Мозголомные формулы DeepSeek на пальцах.

Нашумевшие модели R1 и R1-zero построены на базе DeepSeek-V3, крупной Mixture-of-Experts модели:
🟣 архитектура: типичный трансформер-декодер, но с многоголовым latent attention (MLA) + DeepSeekMoE, и MTP (Multi-Token Prediction) — техника, позволяющая предсказывать сразу несколько будущих токенов
🟣 размер: 671 миллиард параметров, но только 37B одновременно активированы для каждого отдельного токена.

По сути, R1 и R1-Zero — это небольшое дообучение поверх DeepSeek-V3.

Главное отличие моделей R1 и R1-Zero в том, что версия R1-Zero вообще не использует supervised fine-tuning. R1 же обучается в многоэтапном, более классическом режиме для получения «читабельных» цепочек рассуждений и более высоких метрик.

В качестве алгоритма RL применяется GRPO (Group Relative Policy Optimization). В отличие от классического PPO от OpenAI, здесь не нужна reward-модель того же размера, что и обучаемая LLM, а оценка реворда берётся по «группе» сгенерированных ответов. Это серьёзно экономит вычисления и, по словам разработчиков, модель сходится очень быстро: около 4000 (всего 4000!) RL-итераций — уже заметный скачок.

😭 Пугающие формулы GRPO найдёшь на картинках 2, 3, 4 этого поста.

Суть GRPO на пальцах:
✍️ Формируем группу. Для каждого вопроса (prompt) старая политика (модель) генерирует не один ответ, а целую группу G ответов

✍️ Считаем reward для каждого ответа (скажем, проверяем код автотестами или сравниваем числовой результат в задаче по математике).

✍️ Вычисляем "относительные" преимущества (advantage). Пусть r_i — reward для i-го ответа.
Тот, у кого r_i выше среднего, получает положительный advantage (усиливаем генерацию). У кого ниже — наоборот, штраф.

✍️ Обновляем политику. Применяем знакомую механику PPO (ratio =\frac{ \pi_{\theta}}{ \pi_{\theta_{old}}}), клипируем апдейты (чтобы не улететь), добавляем KL-штраф, чтобы модель не слишком расходилась с изначальным чекпоинтом.

Теперь вообще не нужна reward-модель. Каждая группа ответов сама формирует baseline (среднюю планку), а модель видит, насколько "этот ответ" лучше/хуже других.

В итоге:
👍 Экономим кучу GPU-памяти: громоздкая reward-модель (иногда размером с саму LLM) больше не нужна.

👍 Меньше "reward-hacking": модель не пытается «обмануть» модель критика, так как baseline вычисляется прямо из сэмплов.

👍 Удобнее масштабировать: Авторов DeepSeekMath и DeepSeek-R1 это особо выручило при обучении на сотнях тысяч примеров (математика, код), где проверка "правильности" ответа легко автоматизируется.

DeepSeek-R1 использует классический путь «SFT + RL + дообучение»: небольшой блок SFT и многоэтапное обучение для улучшения читаемости и метрик.

Все этапы обучения R1 довольно понятно изображены на последней картинке поста. Происходит постоянное чередование RL и SFT + генерация синтетики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1