VIRSUN

✴️ متا اولین مقاله خودش رو از لَبِ Superintelligence منتشر کرد:

📌 عنوان: REFRAG: Rethinking RAG based Decoding
هدف: افزایش سرعت RAG تا ۳۳ برابر بدون افت کیفیت! 🚀

🔎 ماجرا از کجاست؟
توی RAG اول یه retriever تیکه‌های مرتبط متن (چانک‌ها) رو پیدا می‌کنه، بعد همه‌ی اونها به LLM داده می‌شه. مشکل اینجاست که مدل فقط از بخشی از این چانک‌ها استفاده می‌کنه ولی ما هزینه پردازش همه‌شونو می‌دیم → مصرف منابع بالا + تأخیر زیاد.

🟢 راهکار REFRAG:
به جای توکن‌ها، امبدینگ فشرده‌ی چانک‌ها مستقیماً وارد دیکودر می‌شن.
➕ کوتاه شدن ورودی مدل
➕ کاهش حجم KV-cache
➕ 6–7 برابر افزایش throughput
➕ باز شدن selective بعضی چانک‌ها برای حفظ جزئیات

⚠️ چالش: آموزش این روش پیچیده‌تره و برای کانتکست‌های کوچیک به‌صرفه نیست.

📊 اما نتیجه مهم: Time To First Token تا ۳۳ برابر سریع‌تر و امکان گسترش پنجره‌ی کانتکست به مقیاس خیلی بزرگ.

📄 مقاله کامل: arxiv.org/pdf/2509.01092

@rss_ai_ir
---

#REFRAG #RAG #Meta #AI #LLM #NeuralNetworks

👍15🔥10👏10❤8🥰8😁8🎉7

388 views03:32

About

Blog

Apps

Platform