VIRSUN

🚀مدل DeepSeek-OCR؛ رویکردی تازه برای حافظه در مدل‌های هوش مصنوعی

✅تیم DeepSeek نشان داده که مدل‌های OCR (تشخیص متن از تصویر) می‌توانند نه‌فقط برای خواندن اسناد، بلکه برای گسترش حافظه مدل‌های زبانی استفاده شوند 🧠📄

---

💡 ایده‌ی اصلی

به‌جای ذخیره‌ی تاریخچه گفتگو یا داده‌ها به‌صورت توکن‌های متنی، DeepSeek آن‌ها را به‌شکل تصویر صفحات نگه می‌دارد.
وقتی مدل به اطلاعات قدیمی نیاز دارد، فقط بخش مورد نظر را از روی تصویر با OCR می‌خواند.

📸 هر بخش تصویری (visual patch) چندین برابر بیش از یک توکن متنی داده در خود دارد — پس مدل می‌تواند حجم بیشتری از اطلاعات را فشرده‌تر نگه دارد و فقط هنگام نیاز آن را بخواند.

---

⚙️ آنچه در داخل اتفاق می‌افتد

♻️کل سابقه‌ی گفتگو به صفحات تصویری تقسیم و به پچ‌های دوبعدی فشرده می‌شود.

♻️صفحات جدید با کیفیت بالا ذخیره می‌شوند، صفحات قدیمی‌تر فشرده‌تر، اما کاملاً حذف نمی‌شوند.

♻️مدل OCR فقط زمانی فراخوانی می‌شود که مدل به عبارت دقیق یا بخش خاصی نیاز دارد.

📚 نتیجه: به‌جای «حذف سخت» بخش‌های قدیمی، حافظه به‌صورت نرم و تدریجی فراموش می‌شود — در حالی‌که ساختار متن، جداول و کدها همچنان حفظ می‌شوند.

---

🚀 اثر عملی

✅ هزاران توکن متنی با چند صد پچ تصویری جایگزین می‌شوند.
✅ مصرف توکن و هزینه‌ی پردازش به‌شدت کاهش می‌یابد.
✅ ایده‌آل برای سیستم‌های عاملی (AI Agents) که جلسات طولانی دارند و نیاز به مرور تاریخچه‌ی قدیمی دارند.
✅ داده‌های آموزشی را می‌توان با رندر خودکار صفحات و برچسب‌های OCR تولید کرد.

---

💬 این روش، مدل را به حافظه‌ی بی‌نقص نمی‌رساند، اما اجازه می‌دهد مدت‌زمان بیشتری اطلاعات را حفظ کند و بدون RAG خارجی دوباره به آن‌ها دسترسی داشته باشد.

📄 Technology Review — 29 Oct 2025

📡 @rss_ai_ir
#هوش_مصنوعی #DeepSeek #OCR #حافظه #LLM #AI #Memory #Agents #VisualAI

1.44K views04:09

About

Blog

Apps

Platform