آموزش LLM
858 subscribers
4 photos
7 videos
8 files
17 links
آموزش تخصصی LLM و Hugging face
Download Telegram
اسلایدهای کورس LLM در مکتب‌خونه:
7👍1
برای دوستانی که دوره را فقط محتوا خریداری کردند، سوالات کوییز و تمرین در اینجا قرار گرفته

https://github.com/Alireza-Akhavan/LLM/blob/main/quizzes_and_assignments.md

البته سوالات دوره و تمارین در آینده نزدیک در سایت و در گیت به روز خواهد شد.
👍71
تقسیم‌بندی (Chunking) نادرست، حتی بهترین سیستم‌های RAG را هم ناکارآمد می‌کند
...
1👍1
تقسیم‌بندی (Chunking) نادرست، حتی بهترین سیستم‌های RAG را هم ناکارآمد می‌کند

بیشتر پاسخ‌های نامرتبط در سیستم‌های بازیابی تقویتی (RAG)، به نحوه‌ی تقسیم اسناد یا متون برمی‌گردد. اگر این مرحله را اشتباه انجام دهید، هیچ میزان مهندسی پرامپت یا بازرتبه‌بندی (reranking) نمی‌تواند مشکل را جبران کند. پس سوال اصلی اینجاست: چگونه محتوا را به‌درستی تقسیم کنیم؟ در ادامه، انواع روش‌های رایج chunking را معرفی کرده‌ایم و توضیح داده‌ایم که در چه شرایطی باید از هرکدام استفاده کنید:
تقسیم‌بندی با اندازه‌ی ثابت (Fixed-Size)

تقسیم متن بر اساس تعداد مشخصی از کاراکترها، معمولاً با مقداری هم‌پوشانی
🔹 مناسب برای: بات‌های پرسش‌پاسخ (FAQ)، اسناد یکپارچه، محیط‌های تولیدی
🔸 نامناسب برای: متون روایی پیچیده یا اسناد با ساختار متغیر و غیریکدست
تقسیم‌بندی بازگشتی (Recursive)

تقسیم هوشمندانه؛ ابتدا براساس پاراگراف، سپس جمله، و در نهایت بخش‌های کوچکتر
🔹 مناسب برای: محتوای ترکیبی، کاربردهای عمومی بازیابی اطلاعات
🔸 نامناسب برای: اسنادی که نیاز به حفظ دقیق ساختار دارند
تقسیم‌بندی مبتنی بر ساختار سند (Document-Based)

تقسیم بر اساس ساختار طبیعی سند مانند سرفصل‌ها، بخش‌ها، جدول‌ها
🔹 مناسب برای: اسناد ساختارمند مانند راهنماها، فایل‌های Markdown، مقالات علمی
🔸 نامناسب برای: متون بدون ساختار یا محتوای پرنویز و غیررسمی
تقسیم‌بندی معنایی (Semantic)

گروه‌بندی متن براساس معنا با استفاده از embedding و خوشه‌بندی بر مبنای شباهت
🔹 مناسب برای: مدل‌سازی موضوعی، استخراج مفاهیم، دسته‌بندی محتوای مرتبط
🔸 نامناسب برای: سیستم‌های نیازمند پردازش با سرعت بالا به‌دلیل سربار پردازشی
تقسیم‌بندی مبتنی بر LLM (LLM-Based)

استفاده از مدل‌های زبانی بزرگ برای تشخیص و تقسیم بر اساس ایده‌ها یا گزاره‌های کامل
🔹 مناسب برای: وظایف پیچیده‌ی استدلالی، تحلیل‌های عمیق، محتوای باارزش
🔸 نامناسب برای: پردازش‌های حجیم یا پروژه‌های حساس به هزینه
تقسیم‌بندی تأخیری (Late Chunking)

رویکرد تحول‌ساز؛ ابتدا کل سند را embed می‌کند و سپس با حفظ بافت پیرامونی، تقسیم انجام می‌دهد
🔹 مناسب برای: اسناد چندبخشی پیچیده، محتوای ارجاعی متقابل
🔸 نامناسب برای: وظایف ساده‌ی پرسش‌پاسخ یا پروژه‌های با محدودیت بودجه
پنجره‌ی لغزان (Sliding Window)

ایجاد chunkهایی با مرزهای هم‌پوشان برای جلوگیری از گم شدن بافت معنایی
🔹 مناسب برای: حفظ پیوستگی معنایی، بازیابی مقاوم
🔸 نامناسب برای: محیط‌های دارای محدودیت ذخیره‌سازی یا مقیاس بسیار بالا

راهبرد chunking خود را متناسب با نوع محتوا و سؤالات هدف انتخاب کنید.
شروع با روش‌های ساده‌ای مانند تقسیم‌بندی بازگشتی توصیه می‌شود، سپس بر اساس عملکرد سیستم و نیازهای واقعی، آن را بهینه‌سازی و تنظیم کنید.

https://t.iss.one/llm_huggingface/42
11
Forwarded from آموزش LLM
This media is not supported in your browser
VIEW IN TELEGRAM
📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

🔥کد تخفیف 50 درصدی(محدود)🔥

COUPON-bdfd8

🔗 لینک دوره  |  📄سرفصلها 

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن #علیرضا_اخوان_پور
2👍1🔥1
4
This media is not supported in your browser
VIEW IN TELEGRAM
📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

🔥کد تخفیف 50 درصدی(محدود)🔥

COUPON-bdfd8

🔗 لینک دوره  |  📄سرفصلها 

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن #علیرضا_اخوان_پور
5🤔1🙏1
به زودی یک فصل به دوره اضافه میشود.
این فصل برای کسانی که دوره را تهیه کردند به رایگان در دسترس خواهد بود.
به نظرتون این فصل چه خواهد بود؟
15😱3
قراره یک فصل به نام VLM نیز به این دوره اضافه شود.
منتظر این فصل باشید...
🔥23🥰51