Анализ данных (Data analysis)

⭐️

Simple GRPO

Вы можете запустить GRPO (Group Relative Policy Optimization - основной алгоритм Deepseek r1), для моделей на 8b параметров на GPU стоимостью 10 долл/ч.

4xH100 достаточно для тренировки Llama 3.1 8b и алгоритм прекрасно работает.

▪ Код: https://github.com/minosvasilias/simple_grpo

@data_analysis_ml

#gpro #deepseek #reasoning

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍6❤2🤔1

6.32K views04:46

About

Blog

Apps

Platform