Dev Perfects

the_smol_training_playbook_the_secrets_to_building_world_class_llms.pdf

دیروز Hugging Face یه مسترکلاس ۲۱۴ صفحه‌ای منتشر کرد با عنوان The Smol Training Playbook که همه‌چیز درباره‌ی آموزش LLMها رو قدم‌به‌قدم توضیح می‌ده. این فایل از دلیل آموزش مدل تا نحوه اجرای واقعی اون رو پوشش می‌ده و تجربه‌ی ساخت LLMهای پیشرفته رو به اشتراک می‌ذاره.

از مرحله‌ی pre-training گرفته تا mid-training و post-training، تمام مفاهیم رو به شکل گام‌به‌گام باز می‌کنه. مفاهیمی مثل architecture، tokenization، data strategy و infrastructure به‌جای اینکه فقط یه سری اصطلاح مبهم باشن، به تصمیم‌های واقعی و کاربردی تبدیل شدن. این راهنما حتی به مشکلات دنیای واقعی هم می‌پردازه؛ از بی‌ثباتی‌ها و دردسرهای scaling گرفته تا کابوس‌های debugging، و نکته‌ی جذابش اینه که بر اساس تجربه‌ی ساخت LLMهای واقعی و پیشرفته نوشته شده، نه مدل‌های تمرینی ساده.

در بخش ساختار مدل، همه چیز از tokenization تا attention mechanisms و positional encoding بررسی شده. انواع مکانیزم‌ها، ترفندهای پایداری و روش‌های scaling مثل mixture-of-experts و مدل‌های hybrid (Transformer + SSM) آموزش داده شده تا مدل در عمل پایدار و کارآمد باشه.

بخش داده روی data curation تمرکز داره؛ کیفیت واقعی مدل به ترکیب داده بستگی داره و صرفاً جمع‌آوری داده از وب کافی نیست. روش‌هایی مثل curriculum learning و adaptive data mixes برای بهبود یادگیری معرفی شده و نمونه‌ای مثل SmolLM3 ارائه شده که داده‌های متعادل، چندزبانه، کد باکیفیت و ریاضی رو ترکیب می‌کنه.

در مرحله‌ی آموزش یا training marathon، همه چیز از بررسی زیرساخت و pipeline ارزیابی تا مانیتورینگ GPU metrics توضیح داده شده. مشکلاتی مثل throughput پایین، loss نویزی، باگ‌های parallelism و خطاهای data shuffling تحلیل شده و روش‌های رفعشون ارائه شده. نکته‌ی کلیدی اینه که mid-training اصلاً خودکار نیست و باید دائما داده و استراتژی‌ها بهینه بشن.

در بخش post-training، مدل خام تبدیل به دستیار واقعی می‌شه. اول SFT (supervised fine-tuning) برای پایه‌ی پایدار، بعد بهینه‌سازی برای ترجیحات کاربر با روش‌هایی مثل DPO و نهایتاً on-policy RLHF یا distillation برای رفتار قابل اعتماد. این مرحله تعیین‌کننده‌ی کیفیت، ایمنی و قابلیت هدایت مدل هست.

بخش زیرساخت یا infra مهم‌ترین و پیچیده‌ترین بخشه. داخل GPU واحدهای محاسباتی و سلسله‌مراتب حافظه تعیین‌کننده‌ی سرعت هستن و بیرون از GPU اتصالات PCIe، NVLink، Infiniband و GPUDirect Storage اهمیت دارن. باید parallelism درست انتخاب و زیرساخت مقاوم ساخته بشه تا از توقف آموزش و bottleneck جلوگیری بشه.

در نهایت، همیشه با «چرا» شروع کن، معماری، اندازه مدل، ترکیب داده و نوع دستیار رو مشخص کن، زیرساخت مناسب بساز، برای خطاها آماده باش و از ترفندهای پایداری استفاده کن. کلید موفقیت، آزمایش سیستماتیک، debugging هوشمندانه، تسلط روی نرم‌افزار و سخت‌افزار و کنجکاوی مستمره.

این یه کتاب جامع و کامل هست و اگر تو حوزه GenAI کار می‌کنید حتما بهش یه نگاه بندازید.

🔤

🥇

اهورا اولین اپراتور هوش مصنوعی راهبردی ایران در حوزه ارائه خدمات و سرویس‌های زیرساخت هوش مصنوعی

🌐

لینک ارتباط با اهورا

@reza_jafari_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

8 views18:32