This media is not supported in your browser
VIEW IN TELEGRAM
🏭📄➡️💻 از پیکسل تا داده: شاهکار پردازش تصویر در صنعت، یعنی OCR!
تاحالا به این فکر کردید که چطور یک اپلیکیشن موبایل میتونه متن روی یک فاکتور رو بخونه؟ یا چطور گیتهای عوارضی پلاک ماشینها رو ثبت میکنن؟ پاسخ در یک تکنیک قدرتمند و پرکاربرد به نام تشخیص نوری کاراکتر (OCR) نهفته است.
✳️همچنین OCR یک فناوری شگفتانگیزه که متن داخل تصاویر رو استخراج و به دادههای دیجیتال، قابل جستجو و قابل ویرایش تبدیل میکنه. این تکنیک، پلی حیاتی بین دنیای فیزیکی اسناد کاغذی و دنیای دیجیتال دادههاست. 🚀
⚙️ فرآیند OCR چطور کار میکنه؟ (به زبان ساده)
این فرآیند پیچیده رو میشه به چند مرحله کلیدی تقسیم کرد:
1. پیشپردازش تصویر (Image Pre-processing):
اولین قدم، آمادهسازی تصویر برای خواندن متنه. این مرحله شامل:
* صاف کردن (Deskewing): اگر سند کج اسکن شده باشه، صاف میشه.
* حذف نویز (Denoising): لکهها و نقاط اضافی تصویر حذف میشن.
* دو دویی کردن (Binarization): تصویر به یک نسخه سیاه و سفید تبدیل میشه تا مرز کاراکترها واضحتر بشه.
2. بخشبندی (Segmentation):
در این مرحله، الگوریتم قسمتهای مختلف سند رو تشخیص میده. ستونها، پاراگرافها، خطوط، کلمات و در نهایت، تکتک کاراکترها از هم جدا میشن. این کار مثل اینه که یک انسان اول ساختار کلی یک صفحه رو نگاه کنه و بعد روی کلمات تمرکز کنه. 🔍
3. تشخیص کاراکتر (Character Recognition):
اینجا قلب تپنده OCR قرار داره! هر کاراکتر جدا شده به یک مدل یادگیری ماشین داده میشه تا هویتش مشخص بشه. در گذشته از روشهایی مثل تطبیق الگو (Template Matching) استفاده میشد، اما امروزه مدلهای یادگیری عمیق (Deep Learning)، به خصوص شبکههای عصبی پیچشی (CNN) و شبکههای بازگشتی (RNN)، با دقت فوقالعادهای این کار رو انجام میدن. 🧠
4. پسپردازش (Post-processing):
خروجی مدل همیشه بینقص نیست. مثلاً ممکنه حرف 'O' با عدد '0' یا 'S' با '5' اشتباه گرفته بشه. در این مرحله، با استفاده از مدلهای زبانی و دیکشنریها، خطاها شناسایی و اصلاح میشن تا متن نهایی منسجم و صحیح باشه.
📊 کاربردهای صنعتی OCR:
* اتوماسیون اداری: دیجیتالسازی و پردازش خودکار فاکتورها، قراردادها و فرمها.
* بانکداری و مالی 🏦: خواندن اطلاعات چکها (چکخوانی) و فرمهای بانکی.
* حمل و نقل و لجستیک 🚗: سیستمهای پلاکخوان (ANPR) برای کنترل ترافیک و خواندن شماره کانتینرها در بنادر.
* حوزه سلامت 🏥: دیجیتال کردن سوابق پزشکی بیماران و نتایج آزمایشها.
* کتابخانههای دیجیتال 📚: تبدیل کتابهای چاپی قدیمی به نسخههای الکترونیکی قابل جستجو.
👍همچنین OCR فقط یک ابزار نیست؛ بلکه یک توانمندساز برای تحول دیجیتال (Digital Transformation) در صنایع مختلفه.
#پردازش_تصویر #هوش_مصنوعی #یادگیری_عمیق #اتوماسیون #صنعت #کاربردی #دیجیتال_سازی #تحول_دیجیتال
#ImageProcessing #AI #Automation #OCR #DeepLearning #ANPR #DigitalTransformation
@rss_ai_ir
تاحالا به این فکر کردید که چطور یک اپلیکیشن موبایل میتونه متن روی یک فاکتور رو بخونه؟ یا چطور گیتهای عوارضی پلاک ماشینها رو ثبت میکنن؟ پاسخ در یک تکنیک قدرتمند و پرکاربرد به نام تشخیص نوری کاراکتر (OCR) نهفته است.
✳️همچنین OCR یک فناوری شگفتانگیزه که متن داخل تصاویر رو استخراج و به دادههای دیجیتال، قابل جستجو و قابل ویرایش تبدیل میکنه. این تکنیک، پلی حیاتی بین دنیای فیزیکی اسناد کاغذی و دنیای دیجیتال دادههاست. 🚀
⚙️ فرآیند OCR چطور کار میکنه؟ (به زبان ساده)
این فرآیند پیچیده رو میشه به چند مرحله کلیدی تقسیم کرد:
1. پیشپردازش تصویر (Image Pre-processing):
اولین قدم، آمادهسازی تصویر برای خواندن متنه. این مرحله شامل:
* صاف کردن (Deskewing): اگر سند کج اسکن شده باشه، صاف میشه.
* حذف نویز (Denoising): لکهها و نقاط اضافی تصویر حذف میشن.
* دو دویی کردن (Binarization): تصویر به یک نسخه سیاه و سفید تبدیل میشه تا مرز کاراکترها واضحتر بشه.
2. بخشبندی (Segmentation):
در این مرحله، الگوریتم قسمتهای مختلف سند رو تشخیص میده. ستونها، پاراگرافها، خطوط، کلمات و در نهایت، تکتک کاراکترها از هم جدا میشن. این کار مثل اینه که یک انسان اول ساختار کلی یک صفحه رو نگاه کنه و بعد روی کلمات تمرکز کنه. 🔍
3. تشخیص کاراکتر (Character Recognition):
اینجا قلب تپنده OCR قرار داره! هر کاراکتر جدا شده به یک مدل یادگیری ماشین داده میشه تا هویتش مشخص بشه. در گذشته از روشهایی مثل تطبیق الگو (Template Matching) استفاده میشد، اما امروزه مدلهای یادگیری عمیق (Deep Learning)، به خصوص شبکههای عصبی پیچشی (CNN) و شبکههای بازگشتی (RNN)، با دقت فوقالعادهای این کار رو انجام میدن. 🧠
4. پسپردازش (Post-processing):
خروجی مدل همیشه بینقص نیست. مثلاً ممکنه حرف 'O' با عدد '0' یا 'S' با '5' اشتباه گرفته بشه. در این مرحله، با استفاده از مدلهای زبانی و دیکشنریها، خطاها شناسایی و اصلاح میشن تا متن نهایی منسجم و صحیح باشه.
📊 کاربردهای صنعتی OCR:
* اتوماسیون اداری: دیجیتالسازی و پردازش خودکار فاکتورها، قراردادها و فرمها.
* بانکداری و مالی 🏦: خواندن اطلاعات چکها (چکخوانی) و فرمهای بانکی.
* حمل و نقل و لجستیک 🚗: سیستمهای پلاکخوان (ANPR) برای کنترل ترافیک و خواندن شماره کانتینرها در بنادر.
* حوزه سلامت 🏥: دیجیتال کردن سوابق پزشکی بیماران و نتایج آزمایشها.
* کتابخانههای دیجیتال 📚: تبدیل کتابهای چاپی قدیمی به نسخههای الکترونیکی قابل جستجو.
👍همچنین OCR فقط یک ابزار نیست؛ بلکه یک توانمندساز برای تحول دیجیتال (Digital Transformation) در صنایع مختلفه.
#پردازش_تصویر #هوش_مصنوعی #یادگیری_عمیق #اتوماسیون #صنعت #کاربردی #دیجیتال_سازی #تحول_دیجیتال
#ImageProcessing #AI #Automation #OCR #DeepLearning #ANPR #DigitalTransformation
@rss_ai_ir
🔥8👍7😁7❤5🎉5🥰4👏3
🌟 POINTS-Reader
؛ مدل جمعوجور OCR از Tencent
📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.
🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.
🔹 روش یادگیری مدل بر اساس دو مرحله:
1. آموزش اولیه با دادههای مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسبگذاری میکند، بهترین نمونهها دوباره به چرخه آموزش بازمیگردند.
⚠️ محدودیتها:
♻️در صفحهآراییهای پیچیده (مثل روزنامهها) دچار تکرار یا حذف محتوا میشود.
♻️دستنوشتهها (رسید یا یادداشت) همچنان چالشبرانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی میشوند.
▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM بهزودی افزوده خواهد شد.
🟡 [Arxiv]
🟡 [GitHub]
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
؛ مدل جمعوجور OCR از Tencent
📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.
🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.
🔹 روش یادگیری مدل بر اساس دو مرحله:
1. آموزش اولیه با دادههای مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسبگذاری میکند، بهترین نمونهها دوباره به چرخه آموزش بازمیگردند.
⚠️ محدودیتها:
♻️در صفحهآراییهای پیچیده (مثل روزنامهها) دچار تکرار یا حذف محتوا میشود.
♻️دستنوشتهها (رسید یا یادداشت) همچنان چالشبرانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی میشوند.
▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM بهزودی افزوده خواهد شد.
🟡 [Arxiv]
🟡 [GitHub]
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
👍1🔥1👏1🙏1
📄 PaddleOCR-VL (0.9B) —
مدل فشرده Vision-Language نسل جدید از Baidu AI
تیم تحقیقاتی Baidu AI نسخهی جدیدی از مدلهای چندوجهی خود را معرفی کرده است:
🔹 PaddleOCR-VL (0.9B) —
مدلی بسیار سبک که با وجود اندازه کوچک، به دقت SOTA در وظایف بینایی-زبانی دست یافته است:
♻️شناسایی و تشخیص متنها
♻️جدولها و دادههای ساختاریافته
♻️فرمولهای ریاضی
♻️نمودارها و گرافه
ا
💡 درون :
NaViT —
انکودر تصویری پویا (Dynamic Vision Encoder)
ERNIE —
نسخه سبکشدهی مدل زبانی بایدو برای درک متن
⚡️ پشتیبانی از ۱۰۹ زبان مختلف، با تمرکز بر کارایی بالا در دستگاههای لبهای (edge).
🟠 GitHub:
github.com/PaddlePaddle/PaddleOCR
🟠 HuggingFace:
PaddleOCR-VL
🟠 اسناد رسمی:
paddleocr.ai/latest/en/index.html
@rss_ai_ir
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
مدل فشرده Vision-Language نسل جدید از Baidu AI
تیم تحقیقاتی Baidu AI نسخهی جدیدی از مدلهای چندوجهی خود را معرفی کرده است:
🔹 PaddleOCR-VL (0.9B) —
مدلی بسیار سبک که با وجود اندازه کوچک، به دقت SOTA در وظایف بینایی-زبانی دست یافته است:
♻️شناسایی و تشخیص متنها
♻️جدولها و دادههای ساختاریافته
♻️فرمولهای ریاضی
♻️نمودارها و گرافه
ا
💡 درون :
NaViT —
انکودر تصویری پویا (Dynamic Vision Encoder)
ERNIE —
نسخه سبکشدهی مدل زبانی بایدو برای درک متن
⚡️ پشتیبانی از ۱۰۹ زبان مختلف، با تمرکز بر کارایی بالا در دستگاههای لبهای (edge).
🟠 GitHub:
github.com/PaddlePaddle/PaddleOCR
🟠 HuggingFace:
PaddleOCR-VL
🟠 اسناد رسمی:
paddleocr.ai/latest/en/index.html
@rss_ai_ir
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
📄 مدل DeepSeek-OCR — شناسایی متن با دقت بالا 🔍
شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که میتواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.
✨ قابلیتها:
♻️تشخیص متن در تصاویر و فایلهای PDF
♻️پشتیبانی از جداول، نمودارها و قالبهای پیچیدهی اسناد
♻️چهار نسخهی بهینهشده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه
⚡ ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشردهسازی توکنهای تصویری (Visual Tokens Compression)،
به دقت و سرعتی بینظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدلهای OCR موجود سریعتر و کارآمدتر عمل میکند.
🟠 Hugging Face
🟠 GitHub
🟠 Paper
@rss_ai_ir
#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که میتواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.
✨ قابلیتها:
♻️تشخیص متن در تصاویر و فایلهای PDF
♻️پشتیبانی از جداول، نمودارها و قالبهای پیچیدهی اسناد
♻️چهار نسخهی بهینهشده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه
⚡ ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشردهسازی توکنهای تصویری (Visual Tokens Compression)،
به دقت و سرعتی بینظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدلهای OCR موجود سریعتر و کارآمدتر عمل میکند.
🟠 Hugging Face
🟠 GitHub
🟠 Paper
@rss_ai_ir
#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
❤1👍1
🦉 LightOnOCR-1B —
مدل جدید و فوقسریع OCR از LightOn
شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.
🔥 ویژگیهای کلیدی:
♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدولها، فرمها، معادلات و چیدمانهای پیچیده
♻️۶.۵ برابر سریعتر از dots.ocr و ۱.۷ برابر سریعتر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4
📊 دقت (Olmo-Bench):
♻️دقیقتر از DeepSeekOCR
♻️همتراز با dots.ocr (در حالیکه ۳ برابر سبکتر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct
⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژههای مقیاسبالا و سرویسهای ابری OCR.
🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo
@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
مدل جدید و فوقسریع OCR از LightOn
شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.
🔥 ویژگیهای کلیدی:
♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدولها، فرمها، معادلات و چیدمانهای پیچیده
♻️۶.۵ برابر سریعتر از dots.ocr و ۱.۷ برابر سریعتر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4
📊 دقت (Olmo-Bench):
♻️دقیقتر از DeepSeekOCR
♻️همتراز با dots.ocr (در حالیکه ۳ برابر سبکتر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct
⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژههای مقیاسبالا و سرویسهای ابری OCR.
🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo
@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
👍1
🚀مدل DeepSeek-OCR؛ رویکردی تازه برای حافظه در مدلهای هوش مصنوعی
✅تیم DeepSeek نشان داده که مدلهای OCR (تشخیص متن از تصویر) میتوانند نهفقط برای خواندن اسناد، بلکه برای گسترش حافظه مدلهای زبانی استفاده شوند 🧠📄
---
💡 ایدهی اصلی
بهجای ذخیرهی تاریخچه گفتگو یا دادهها بهصورت توکنهای متنی، DeepSeek آنها را بهشکل تصویر صفحات نگه میدارد.
وقتی مدل به اطلاعات قدیمی نیاز دارد، فقط بخش مورد نظر را از روی تصویر با OCR میخواند.
📸 هر بخش تصویری (visual patch) چندین برابر بیش از یک توکن متنی داده در خود دارد — پس مدل میتواند حجم بیشتری از اطلاعات را فشردهتر نگه دارد و فقط هنگام نیاز آن را بخواند.
---
⚙️ آنچه در داخل اتفاق میافتد
♻️کل سابقهی گفتگو به صفحات تصویری تقسیم و به پچهای دوبعدی فشرده میشود.
♻️صفحات جدید با کیفیت بالا ذخیره میشوند، صفحات قدیمیتر فشردهتر، اما کاملاً حذف نمیشوند.
♻️مدل OCR فقط زمانی فراخوانی میشود که مدل به عبارت دقیق یا بخش خاصی نیاز دارد.
📚 نتیجه: بهجای «حذف سخت» بخشهای قدیمی، حافظه بهصورت نرم و تدریجی فراموش میشود — در حالیکه ساختار متن، جداول و کدها همچنان حفظ میشوند.
---
🚀 اثر عملی
✅ هزاران توکن متنی با چند صد پچ تصویری جایگزین میشوند.
✅ مصرف توکن و هزینهی پردازش بهشدت کاهش مییابد.
✅ ایدهآل برای سیستمهای عاملی (AI Agents) که جلسات طولانی دارند و نیاز به مرور تاریخچهی قدیمی دارند.
✅ دادههای آموزشی را میتوان با رندر خودکار صفحات و برچسبهای OCR تولید کرد.
---
💬 این روش، مدل را به حافظهی بینقص نمیرساند، اما اجازه میدهد مدتزمان بیشتری اطلاعات را حفظ کند و بدون RAG خارجی دوباره به آنها دسترسی داشته باشد.
📄 Technology Review — 29 Oct 2025
📡 @rss_ai_ir
#هوش_مصنوعی #DeepSeek #OCR #حافظه #LLM #AI #Memory #Agents #VisualAI
✅تیم DeepSeek نشان داده که مدلهای OCR (تشخیص متن از تصویر) میتوانند نهفقط برای خواندن اسناد، بلکه برای گسترش حافظه مدلهای زبانی استفاده شوند 🧠📄
---
💡 ایدهی اصلی
بهجای ذخیرهی تاریخچه گفتگو یا دادهها بهصورت توکنهای متنی، DeepSeek آنها را بهشکل تصویر صفحات نگه میدارد.
وقتی مدل به اطلاعات قدیمی نیاز دارد، فقط بخش مورد نظر را از روی تصویر با OCR میخواند.
📸 هر بخش تصویری (visual patch) چندین برابر بیش از یک توکن متنی داده در خود دارد — پس مدل میتواند حجم بیشتری از اطلاعات را فشردهتر نگه دارد و فقط هنگام نیاز آن را بخواند.
---
⚙️ آنچه در داخل اتفاق میافتد
♻️کل سابقهی گفتگو به صفحات تصویری تقسیم و به پچهای دوبعدی فشرده میشود.
♻️صفحات جدید با کیفیت بالا ذخیره میشوند، صفحات قدیمیتر فشردهتر، اما کاملاً حذف نمیشوند.
♻️مدل OCR فقط زمانی فراخوانی میشود که مدل به عبارت دقیق یا بخش خاصی نیاز دارد.
📚 نتیجه: بهجای «حذف سخت» بخشهای قدیمی، حافظه بهصورت نرم و تدریجی فراموش میشود — در حالیکه ساختار متن، جداول و کدها همچنان حفظ میشوند.
---
🚀 اثر عملی
✅ هزاران توکن متنی با چند صد پچ تصویری جایگزین میشوند.
✅ مصرف توکن و هزینهی پردازش بهشدت کاهش مییابد.
✅ ایدهآل برای سیستمهای عاملی (AI Agents) که جلسات طولانی دارند و نیاز به مرور تاریخچهی قدیمی دارند.
✅ دادههای آموزشی را میتوان با رندر خودکار صفحات و برچسبهای OCR تولید کرد.
---
💬 این روش، مدل را به حافظهی بینقص نمیرساند، اما اجازه میدهد مدتزمان بیشتری اطلاعات را حفظ کند و بدون RAG خارجی دوباره به آنها دسترسی داشته باشد.
📄 Technology Review — 29 Oct 2025
📡 @rss_ai_ir
#هوش_مصنوعی #DeepSeek #OCR #حافظه #LLM #AI #Memory #Agents #VisualAI
📄 مدل Nanonets-OCR2-3B — نسل جدید OCR هوشمند 🤖📑
مدل جدید Nanonets بر پایهی Qwen2.5-VL-3B عرضه شده و فقط متن را نمیخواند — بلکه کل سند را به Markdown ساختاریافته تبدیل میکند: شامل جدولها، فرمولها، امضاها و حتی نمودارها! 🧠✨
---
🔍 قابلیتها
🧮 تشخیص فرمولها و تبدیل خودکار آنها به LaTeX
📊 درک جدولها و حفظ ساختارشان در Markdown یا HTML
☑️ شناسایی چکباکسها و گزینههای انتخابی (☐ / ☑ / ☒)
🖋 شناسایی امضاها، واترمارکها و تصاویر
🖼 افزودن تگهای تصویری <img> برای تصاویر درون سند
✍️ پشتیبانی از متون دستنویس و چندزبانگی
🧩 برای نمودارها و فلوچارتها، تولید مستقیم کد Mermaid
💬 پاسخگویی به سؤالات دربارهی محتوا (Visual QA)
---
🔗 مدل در Hugging Face:
👉 huggingface.co/nanonets/Nanonets-OCR2-3B
این مدل یک گام بزرگ در جهت درک عمیق اسناد تصویری است — از OCR سنتی تا تبدیل هوشمند به دادههای ساختاریافته و قابل ویرایش 📄💡
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Nanonets #Qwen #LLM #بینایی_ماشین #AI #اسناد #تکنولوژی
مدل جدید Nanonets بر پایهی Qwen2.5-VL-3B عرضه شده و فقط متن را نمیخواند — بلکه کل سند را به Markdown ساختاریافته تبدیل میکند: شامل جدولها، فرمولها، امضاها و حتی نمودارها! 🧠✨
---
🔍 قابلیتها
🧮 تشخیص فرمولها و تبدیل خودکار آنها به LaTeX
📊 درک جدولها و حفظ ساختارشان در Markdown یا HTML
☑️ شناسایی چکباکسها و گزینههای انتخابی (☐ / ☑ / ☒)
🖋 شناسایی امضاها، واترمارکها و تصاویر
🖼 افزودن تگهای تصویری <img> برای تصاویر درون سند
✍️ پشتیبانی از متون دستنویس و چندزبانگی
🧩 برای نمودارها و فلوچارتها، تولید مستقیم کد Mermaid
💬 پاسخگویی به سؤالات دربارهی محتوا (Visual QA)
---
🔗 مدل در Hugging Face:
👉 huggingface.co/nanonets/Nanonets-OCR2-3B
این مدل یک گام بزرگ در جهت درک عمیق اسناد تصویری است — از OCR سنتی تا تبدیل هوشمند به دادههای ساختاریافته و قابل ویرایش 📄💡
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Nanonets #Qwen #LLM #بینایی_ماشین #AI #اسناد #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی