PyTorch Howsam

Persian LLM Leaderboard

https://huggingface.co/spaces/PartAI/persian-llm-leaderboard

2.52K views08:11

این پست از ابعاد مختلف مهم هست...

حدود چهار ماه پیش، آقای Andrej Karpathy پستی در X منتشر کرد که ترجمه خلاصه اون رو به کمک ChatGPT در زیر آوردم:

در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، می‌تونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار و یک نود 8XH100 GPU طی ۲۴ ساعت آموزش بدید. پروژه llm.c که روی اون کار کردم، راهنمای کاملی برای این فرآیند ارائه میده.

پیشرفت‌های سخت‌افزاری (مثل، GPUهای H100)، نرم‌افزاری (CUDA، cuBLAS، FlashAttention) و داده‌های باکیفیت (مثل FineWeb-Edu) هزینه‌ها رو چشم‌گیر کاهش دادن. llm.c مستقیماً با C/CUDA نوشته شده و نیازی به محیط‌های پیچیده Python یا ابزارهایی مانند pip نداره. فقط یک نود GPU ابری رو راه‌اندازی می‌کنید، ملزومات رو نصب می‌کنید و در چند دقیقه آماده اجرا میشه.

این پروژه از علاقه‌ام به بازتولید GPT-2 برای یک ویدیوی آموزشی شروع شد. اما در ادامه مسیر، یادگیری بیشتر CUDA، بازنویسی همه‌چیز از صفر (حدود ۵,۰۰۰ خط کد برای llm.c) و ساخت سیستمی سریع، کوچک و پایدار رو در پی داشت.

هنوز کارهای زیادی باقی مونده، از جمله بهبود پایداری آموزش برای مدل‌های بزرگ‌تر، تست fp8 و اضافه کردن معماری‌های مدرن‌تر.

خب، مثل خیلی از کارهای Karpathy، این کار هم با استقبال قابل توجهی مواجه شد. مثلا، یک پویشی راه افتاد که هزینه آموزش مدل GPT-2 124M رو روی دیتاست FineWeb برای رسیدن به لاس 3.28 کاهش بدن. در واقع، هدف این بود که بیایید یک کاری کنیم، هرچه سریع‌تر به لاس 3.28 روی ولیدیشن دیتاست FineWeb برسیم.

این مدت، من می‌دیدم که افرادی از کاهش زمان آموزش مدل می‌گفتن و مدام پیگیری می‌کردم. مثلا، Keller Jordan خیلی روی این پروژه کار کرد و خیلی پست میذاشت. حالا بعد از چهار ماه، Karpathy یک پستی درباره این ماجرا منتشر کرده:

یادتون میاد با llm.c بازتولید آموزش مدل GPT-2 124M حدود ۴۵ دقیقه روی 8XH100 زمان می‌برد؟ از اون موقع، Keller Jordan (و حالا خیلی‌های دیگه) روی نسخه جدید و اصلاح‌شده NanoGPT کار کردن و این زمان رو به فقط ۵ دقیقه کاهش دادن! عاشق این ریپو هستم؛ 👏 ۶۰۰ خط کد!

لیست کارهای Keller Jordan برای رسیدن به 5 دقیقه رو می‌تونید در تصویر پست بعدی ببینید. سعی کردم لینک‌های مهم رو در متن براتون بذارم.

مدت‌ها بود که می‌خواستم درباره این ماجرا بنویسم، اما نمی‌تونستم به شکل خوبی مطلب رو بیان کنم. برای من این پروژه خیلی آموزنده و الهام‌بخش بود و خیلی پیگیرش بودم و هستم...

@pytorch_howsam

2.85K views12:25