آموزش LLM و VLM

🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی
(بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی)

در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.

سرفصل‌های این فصل:

    همراستایی مدل‌ها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance) 

مقدمه‌ای بر یادگیری تقویتی: مفاهیم پایه برای مدل‌های زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs) 

جمع‌آوری بازخوردهای انسانی (Collecting human feedback) 

آموزش مدل پاداش (Training the reward model) 

آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF) 

بهینه‌سازی خط‌مشی نزدیک (Proximal Policy Optimization) 

مفهوم Policy Loss در PPO: قلب الگوریتم به‌روزرسانی خط‌مشی (Policy Loss in PPO: The Core of Policy Update) 

درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF) 

وقتی مدل زرنگ‌بازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence) 

آموزش RLHF با FLAN-T5 - بخش اول: آماده‌سازی داده و ساخت دیتاست برای خلاصه‌سازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization) 

آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آماده‌سازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models) 

آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF) 

بهینه‌سازی مستقیم ترجیحات (Direct Preference Optimization (DPO)) 

آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوان‌گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation) 

آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences) 

کد DPO با Phi-3 - آماده‌سازی دیتای ترجیحات برای پاسخ‌های دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses) 

کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering) 

کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference) 

بهینه‌سازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO)) 

انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO) 

درک عمیق الگوریتم GRPO (Understanding GRPO) 

مثال ساده فاین‌تیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length) 

زنجیره افکار (COT) 

فاین‌تیون مدل زبانی بزرگ با LoRA و Unsloth - آماده‌سازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1)) 

آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2)) 

مقیاس‌پذیر کردن بازخورد انسانی (Scaling human feedback)

#مدل_زبانی_بزرگ

👍3❤1

1.18K viewsedited 15:49