✴️ متا اولین مقاله خودش رو از لَبِ Superintelligence منتشر کرد:
📌 عنوان: REFRAG: Rethinking RAG based Decoding
هدف: افزایش سرعت RAG تا ۳۳ برابر بدون افت کیفیت! 🚀
🔎 ماجرا از کجاست؟
توی RAG اول یه retriever تیکههای مرتبط متن (چانکها) رو پیدا میکنه، بعد همهی اونها به LLM داده میشه. مشکل اینجاست که مدل فقط از بخشی از این چانکها استفاده میکنه ولی ما هزینه پردازش همهشونو میدیم → مصرف منابع بالا + تأخیر زیاد.
🟢 راهکار REFRAG:
به جای توکنها، امبدینگ فشردهی چانکها مستقیماً وارد دیکودر میشن.
➕ کوتاه شدن ورودی مدل
➕ کاهش حجم KV-cache
➕ 6–7 برابر افزایش throughput
➕ باز شدن selective بعضی چانکها برای حفظ جزئیات
⚠️ چالش: آموزش این روش پیچیدهتره و برای کانتکستهای کوچیک بهصرفه نیست.
📊 اما نتیجه مهم: Time To First Token تا ۳۳ برابر سریعتر و امکان گسترش پنجرهی کانتکست به مقیاس خیلی بزرگ.
📄 مقاله کامل: arxiv.org/pdf/2509.01092
@rss_ai_ir
---
#REFRAG #RAG #Meta #AI #LLM #NeuralNetworks
📌 عنوان: REFRAG: Rethinking RAG based Decoding
هدف: افزایش سرعت RAG تا ۳۳ برابر بدون افت کیفیت! 🚀
🔎 ماجرا از کجاست؟
توی RAG اول یه retriever تیکههای مرتبط متن (چانکها) رو پیدا میکنه، بعد همهی اونها به LLM داده میشه. مشکل اینجاست که مدل فقط از بخشی از این چانکها استفاده میکنه ولی ما هزینه پردازش همهشونو میدیم → مصرف منابع بالا + تأخیر زیاد.
🟢 راهکار REFRAG:
به جای توکنها، امبدینگ فشردهی چانکها مستقیماً وارد دیکودر میشن.
➕ کوتاه شدن ورودی مدل
➕ کاهش حجم KV-cache
➕ 6–7 برابر افزایش throughput
➕ باز شدن selective بعضی چانکها برای حفظ جزئیات
⚠️ چالش: آموزش این روش پیچیدهتره و برای کانتکستهای کوچیک بهصرفه نیست.
📊 اما نتیجه مهم: Time To First Token تا ۳۳ برابر سریعتر و امکان گسترش پنجرهی کانتکست به مقیاس خیلی بزرگ.
📄 مقاله کامل: arxiv.org/pdf/2509.01092
@rss_ai_ir
---
#REFRAG #RAG #Meta #AI #LLM #NeuralNetworks
👍15🔥10👏10❤8🥰8😁8🎉7