آموزش LLM
877 subscribers
4 photos
7 videos
8 files
16 links
آموزش تخصصی LLM و Hugging face

گروه مباحثه:

@llm_group
Download Telegram
🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی
(بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی)

در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.

سرفصل‌های این فصل:

    همراستایی مدل‌ها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance) 

مقدمه‌ای بر یادگیری تقویتی: مفاهیم پایه برای مدل‌های زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs)

جمع‌آوری بازخوردهای انسانی (Collecting human feedback)

آموزش مدل پاداش (Training the reward model)

آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF)

بهینه‌سازی خط‌مشی نزدیک (Proximal Policy Optimization)

مفهوم Policy Loss در PPO: قلب الگوریتم به‌روزرسانی خط‌مشی (Policy Loss in PPO: The Core of Policy Update)

درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF)

وقتی مدل زرنگ‌بازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence)

آموزش RLHF با FLAN-T5 - بخش اول: آماده‌سازی داده و ساخت دیتاست برای خلاصه‌سازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization)

آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آماده‌سازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models)

آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF)

بهینه‌سازی مستقیم ترجیحات (Direct Preference Optimization (DPO))

آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوان‌گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation)

آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences)

کد DPO با Phi-3 - آماده‌سازی دیتای ترجیحات برای پاسخ‌های دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses)

کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering)

کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference)

بهینه‌سازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO))

انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO)

درک عمیق الگوریتم GRPO (Understanding GRPO)

مثال ساده فاین‌تیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length)

زنجیره افکار (COT)

فاین‌تیون مدل زبانی بزرگ با LoRA و Unsloth - آماده‌سازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1))

آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2))

مقیاس‌پذیر کردن بازخورد انسانی (Scaling human feedback)


#مدل_زبانی_بزرگ
👍31
آموزش LLM
🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی (بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی) در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.…
🚀 فصل 6: بهینه‌سازی مدل برای استقرار

مدل باید سبک، سریع و آماده اجرا باشه! تو این فصل تکنیک‌های پیشرفته برای آماده‌سازی مدل جهت استقرار در اپلیکیشن‌های واقعی رو یاد می‌گیریم.
در این فصل، یاد می‌گیرید چگونه مدل‌های زبان بزرگ را برای استقرار بهینه کنید. از تکنیک‌های تقطیر دانش (Knowledge Distillation) گرفته تا کوانتیزیشن و هرس مدل (Model Pruning) برای افزایش بهره‌وری و کاهش منابع مصرفی.

سرفصل‌های این فصل:

    بهینه‌سازی مدل با هدف افزایش بهره‌وری برنامه کاربردی (Model optimizations to improve application performance) 

تقطیر دانش (Knowledge Distillation)

کوانتیزیشن و هرس مدل (Model Quantization & Pruning)

هرس مدل‌های زبان بزرگ در عمل (LLM Pruning in Practice)

پیاده‌سازی تقطیر دانش(Knowledge Distillation) برای LLMها - بخش 1: آماده‌سازی داده و مدل (Implementing Knowledge Distillation for LLMs - Part 1: Data and Model Preparation)

پیاده‌سازی تقطیر دانش(Knowledge Distillation) برای LLMها - بخش 2: حلقه آموزش و ارزیابی (Implementing Knowledge Distillation for LLMs - Part 2: Training Loop and Evaluation)



#مدل_زبانی_بزرگ
👍1
📱 فصل 7: ساخت اپلیکیشن هوشمند با LLM

در این فصل، یاد می‌گیرید چگونه LLM‌ها را در اپلیکیشن‌های هوشمند به کار بگیرید. از تولید متن تقویت‌شده با بازیابی اطلاعات (RAG) گرفته تا کمک به LLM برای استدلال و برنامه‌ریزی با روش‌های پیشرفته.

سرفصل‌های این فصل:

  استفاده از مدل زبانی بزرگ در برنامه‌ها (Using the LLM in applications) 

تولید متن تقویت‌شده از طریق بازیابی اطلاعات (RAG) (Retrieval Augmented Generation (RAG))

آماده‌سازی داده‌ها برای پایگاه برداری در مدل RAG (Data Preparation for RAG-Based Vector Retrieval)

آشنایی با امبدینگ جمله به‌صورت عملی (Hands-on Guide to Sentence Embeddings)

پیاده سازی RAG با LangChain (قسمت 1): آماده‌سازی مدل زبانی و امبدینگ برای پرسش‌وپاسخ از PDF (RAG with LangChain (Part 1): Setting up LLM and Embeddings for PDF-based QA)

پیاده سازی RAG با LangChain (قسمت 2): تکه‌بندی PDF و ساخت اپلیکیشن پرسش‌وپاسخ برداری (RAG with LangChain (Part 2): Chunking PDF and Building a Vector Search QA App)

امکان‌پذیر ساختن تعامل با برنامه‌های خارجی (Enabling interactions with external applications)

کمک به LLM برای استدلال و برنامه‌ریزی با استفاده از روش «زنجیره تفکر» (Helping LLMs reason and plan with Chain-of-Thought Prompting)

مدل‌های زبانی تقویت‌شده با برنامه‌نویسی (Program-aided Language Models)

حل مسائل ریاضی با تولید کد پایتون توسط مدل Mistral (به روش PAL) (Solving Math Word Problems with Mistral LLM by Generating Python Code (PAL Approach))

مفهوم ReAct: ترکیب استدلال و اقدام در مدل‌های زبانی بزرگ (ReAct: Combining reasoning and action in LLMs)

ساخت Agent با LangChain و مدل Qwen2.5 برای جستجوی زنده با DuckDuckGo (Building a LangChain Agent with Qwen2.5 and DuckDuckGo Search)

جمع‌بندی نهایی و ادامه مسیر یادگیری (Final Summary and Continuing Your Learning Journey)


#مدل_زبانی_بزرگ
🤝3👍2
📚 فصل 1: آشنایی با مدل‌های زبانی بزرگ و چرخه عمر پروژه
https://t.iss.one/llm_huggingface/8

🧠 فصل 2: پیش‌آموزش مدل‌های زبانی و قوانین مقیاس‌پذیری

https://t.iss.one/llm_huggingface/9

🎯 فصل 3: Fine-Tuning مدل‌های LLM + ارزیابی آنها
https://t.iss.one/llm_huggingface/10

⚙️ فصل 4: فاین‌تیون کارآمد با PEFT

https://t.iss.one/llm_huggingface/11

🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی

https://t.iss.one/llm_huggingface/13

🚀 فصل 6: بهینه‌سازی مدل برای استقرار
https://t.iss.one/llm_huggingface/14

📱 فصل 7: ساخت اپلیکیشن هوشمند با LLM
https://t.iss.one/llm_huggingface/15
5
Media is too big
VIEW IN TELEGRAM
💡 آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

مدرس: علیرضا اخوان‌پور
📅 زمان انتشار: به زودی…
📍 منتشر می‌شود توسط کلاس‌ویژن در مکتب‌خونه

سرفصلها: https://t.iss.one/llm_huggingface/18

🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه
👌9
آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

📚 فصل 1: آشنایی با مدل‌های زبانی بزرگ و چرخه عمر پروژه
https://t.iss.one/llm_huggingface/8

🧠 فصل 2: پیش‌آموزش مدل‌های زبانی و قوانین مقیاس‌پذیری

https://t.iss.one/llm_huggingface/9

🎯 فصل 3: Fine-Tuning مدل‌های LLM + ارزیابی آنها
https://t.iss.one/llm_huggingface/10

⚙️ فصل 4: فاین‌تیون کارآمد با PEFT

https://t.iss.one/llm_huggingface/11

🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی

https://t.iss.one/llm_huggingface/13

🚀 فصل 6: بهینه‌سازی مدل برای استقرار
https://t.iss.one/llm_huggingface/14

📱 فصل 7: ساخت اپلیکیشن هوشمند با LLM
https://t.iss.one/llm_huggingface/15
22
دوره منتشر شد.🎉
به زودی کدهای تخفیف در کانال قرار میگیرد...
🔥119
📢دوره‌ی "آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)" منتشر شد🎉🎊

https://mktb.me/04dr/

🎁10 کد تخفیف 60 درصدی برای 10 نفر اول
COUPON-a6296


🎁10 کد تخفیف 55 درصدی برای 10 نفر دوم

COUPON-c834a


🎁20 کد تخفیف 50 درصدی برای 20 نفر بعدی
COUPON-14e45

سرفصلهای دوره:
https://t.iss.one/llm_huggingface/18
👎98
Media is too big
VIEW IN TELEGRAM
📢دوره‌ی "آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)" منتشر شد🎉🎊

کد تخفیف 50 درصدی ویژه 100 نفر:


COUPON-091dc

آدرس دوره
https://mktb.me/04dr/

📄سرفصلها: https://t.iss.one/llm_huggingface/18

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه
10👍5👎4
لطف دانشجویان عزیز دوره🙏🌺
🔥13👍9🤣52
Media is too big
VIEW IN TELEGRAM
📢دوره‌ی "آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)" منتشر شد🎉🎊

🔥تعداد محدودی کد تخفیف 50 درصدی جدید🔥

COUPON-bdfd8


🔗 لینک دوره | 📄سرفصلها | 🥇کانال دوره | پیش‌نیاز با کد تخفیف ویژه

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆


#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن
👍2
🎓‌ پیش‌نیاز دوره LLM رو از دست نده!

برای اونایی که تجربه کار با شبکه‌های عصبی ندارن،
۳ فصل اول دوره‌ی "یادگیری عمیق با TensorFlow و Keras" بهترین شروعه.

🔥 الان می‌تونی این دوره رو با کد تخفیف ۶۰٪ و مدت محدود تهیه کنی
تا با خیال راحت وارد دنیای مدل‌های زبانی بزرگ (LLM) بشی.

🎟کد تخفیف: COUPON-30da4
🕒 فرصت محدوده – از دستش نده!

🔗https://mktb.me/2klm/

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@class_vision
👆👆👆
1
🔍 این دوره LLM چی هست و چی نیست؟

📌 قبل از ثبت‌نام، بهتره بدونی این دوره قراره دقیقاً چی بهت بده – و مهم‌تر اینکه چی قرار نیست بده.

این دوره، دوره‌ی تخصصی Transformer از صفر نیست.
ولی پایه‌ی معماری ترنسفورمر، Self-Attention و ساختارهای مهمش رو به‌صورت کاربردی مرور می‌کنیم.

اینجا آموزش کامل و عملی RAG نداریم.
ولی با ایده‌ی Retrieval-Augmented Generation و کاربردش در LLMها آشنا می‌شیم. با یه مثال از روی PDF فارسی سوال میپرسیم...

این دوره درباره Agentic AI نیست.
ولی نمونه‌هایی مثل ReAct و PAL رو می‌بینیم تا بدونیم Agentها چطور عمل می‌کنن. و مثلا نمونه کد پاسخ دادن یه LLM با اجرا کردن پایتون برای محاسباتشو داریم.

این دوره، ادعای جامع‌بودن در کل فضای LLM نداره.
ولی سعی کردیم مباحث بنیادین و ضروری رو انتخاب و عمیق بررسی کنیم — از pretraining و fine-tuning تا RLHF و ساخت اپلیکیشن واقعی. سعی شده متدهای روز feedback انسانی و نکات کاربردی فاین تیونینگ حتما باشه

🎯‌ مخصوص کسایی طراحی شده که:

1️⃣می‌خوان دنیای LLMها رو بفهمن و واردش بشن

2️⃣دنبال پیاده‌سازی هستن، نه فقط تئوری خشک

3️⃣حتی اگه تجربه شبکه عصبی زیادی ندارن، باز بتونن دوره رو دنبال کنن! البته با زحمت بیشتر

🧠 از مقدمات تا ساخت اپلیکیشن با مدل‌های زبانی بزرگ
📦 با رویکرد پروژه‌محور، با مثال‌های واقعی
🗓مثال فارسی هم داشته باشیم

📎 اطلاعات کامل و سرفصل‌ها:
🔗https://mktb.me/04dr/
7🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

🔥کد تخفیف 50 درصدی(محدود)🔥

COUPON-bdfd8

🔗 لینک دوره  |  📄سرفصلها 

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن #علیرضا_اخوان_پور
4
اسلایدهای کورس LLM در مکتب‌خونه:
7👍1