⚡️ Glyph — 
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1