227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

@ai_machinelearning_big_data

#DeepSeek #deepseekr1 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍2816🤔7🤣6😨3
🖤 Open R1

Разработчики с Hugging Face решили повторить полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥

Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.

Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.

Github

@ai_machinelearning_big_data


#opensource #DeepSeekR1 #huggingface #OpenR1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥109👍2614