VIRSUN
13.5K subscribers
1.16K photos
693 videos
5 files
768 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🏭📄➡️💻 از پیکسل تا داده: شاهکار پردازش تصویر در صنعت، یعنی OCR!

تاحالا به این فکر کردید که چطور یک اپلیکیشن موبایل می‌تونه متن روی یک فاکتور رو بخونه؟ یا چطور گیت‌های عوارضی پلاک ماشین‌ها رو ثبت می‌کنن؟ پاسخ در یک تکنیک قدرتمند و پرکاربرد به نام تشخیص نوری کاراکتر (OCR) نهفته است.

✳️همچنین OCR یک فناوری شگفت‌انگیزه که متن داخل تصاویر رو استخراج و به داده‌های دیجیتال، قابل جستجو و قابل ویرایش تبدیل می‌کنه. این تکنیک، پلی حیاتی بین دنیای فیزیکی اسناد کاغذی و دنیای دیجیتال داده‌هاست. 🚀

⚙️ فرآیند OCR چطور کار می‌کنه؟ (به زبان ساده)

این فرآیند پیچیده رو میشه به چند مرحله کلیدی تقسیم کرد:

1. پیش‌پردازش تصویر (Image Pre-processing):
اولین قدم، آماده‌سازی تصویر برای خواندن متنه. این مرحله شامل:
* صاف کردن (Deskewing): اگر سند کج اسکن شده باشه، صاف می‌شه.
* حذف نویز (Denoising): لکه‌ها و نقاط اضافی تصویر حذف می‌شن.
* دو دویی کردن (Binarization): تصویر به یک نسخه سیاه و سفید تبدیل می‌شه تا مرز کاراکترها واضح‌تر بشه.

2. بخش‌بندی (Segmentation):
در این مرحله، الگوریتم قسمت‌های مختلف سند رو تشخیص می‌ده. ستون‌ها، پاراگراف‌ها، خطوط، کلمات و در نهایت، تک‌تک کاراکترها از هم جدا می‌شن. این کار مثل اینه که یک انسان اول ساختار کلی یک صفحه رو نگاه کنه و بعد روی کلمات تمرکز کنه. 🔍

3. تشخیص کاراکتر (Character Recognition):
اینجا قلب تپنده OCR قرار داره! هر کاراکتر جدا شده به یک مدل یادگیری ماشین داده می‌شه تا هویتش مشخص بشه. در گذشته از روش‌هایی مثل تطبیق الگو (Template Matching) استفاده می‌شد، اما امروزه مدل‌های یادگیری عمیق (Deep Learning)، به خصوص شبکه‌های عصبی پیچشی (CNN) و شبکه‌های بازگشتی (RNN)، با دقت فوق‌العاده‌ای این کار رو انجام می‌دن. 🧠

4. پس‌پردازش (Post-processing):
خروجی مدل همیشه بی‌نقص نیست. مثلاً ممکنه حرف 'O' با عدد '0' یا 'S' با '5' اشتباه گرفته بشه. در این مرحله، با استفاده از مدل‌های زبانی و دیکشنری‌ها، خطاها شناسایی و اصلاح می‌شن تا متن نهایی منسجم و صحیح باشه.

📊 کاربردهای صنعتی OCR:

* اتوماسیون اداری: دیجیتال‌سازی و پردازش خودکار فاکتورها، قراردادها و فرم‌ها.
* بانکداری و مالی 🏦: خواندن اطلاعات چک‌ها (چک‌خوانی) و فرم‌های بانکی.
* حمل و نقل و لجستیک 🚗: سیستم‌های پلاک‌خوان (ANPR) برای کنترل ترافیک و خواندن شماره کانتینرها در بنادر.
* حوزه سلامت 🏥: دیجیتال کردن سوابق پزشکی بیماران و نتایج آزمایش‌ها.
* کتابخانه‌های دیجیتال 📚: تبدیل کتاب‌های چاپی قدیمی به نسخه‌های الکترونیکی قابل جستجو.

👍همچنین OCR فقط یک ابزار نیست؛ بلکه یک توانمندساز برای تحول دیجیتال (Digital Transformation) در صنایع مختلفه.

#پردازش_تصویر #هوش_مصنوعی #یادگیری_عمیق #اتوماسیون #صنعت #کاربردی #دیجیتال_سازی #تحول_دیجیتال
#ImageProcessing #AI #Automation #OCR #DeepLearning #ANPR #DigitalTransformation

@rss_ai_ir
🔥8👍7😁75🎉5🥰4👏3
🌟 POINTS-Reader
؛ مدل جمع‌وجور OCR از Tencent

📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.

🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.

🔹 روش یادگیری مدل بر اساس دو مرحله:

1. آموزش اولیه با داده‌های مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسب‌گذاری می‌کند، بهترین نمونه‌ها دوباره به چرخه آموزش بازمی‌گردند.





⚠️ محدودیت‌ها:

♻️در صفحه‌آرایی‌های پیچیده (مثل روزنامه‌ها) دچار تکرار یا حذف محتوا می‌شود.
♻️دست‌نوشته‌ها (رسید یا یادداشت) همچنان چالش‌برانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی می‌شوند.

▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM به‌زودی افزوده خواهد شد.

🟡 [Arxiv]
🟡 [GitHub]

@rss_ai_ir

#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
👍1🔥1👏1🙏1
📄 PaddleOCR-VL (0.9B) —
مدل فشرده Vision-Language نسل جدید از Baidu AI


تیم تحقیقاتی Baidu AI نسخه‌ی جدیدی از مدل‌های چندوجهی خود را معرفی کرده است:

🔹 PaddleOCR-VL (0.9B)
مدلی بسیار سبک که با وجود اندازه کوچک، به دقت SOTA در وظایف بینایی-زبانی دست یافته است:

♻️شناسایی و تشخیص متن‌ها
♻️جدول‌ها و داده‌های ساختاریافته
♻️فرمول‌های ریاضی
♻️نمودارها و گراف‌ه
ا
💡 درون :

NaViT
انکودر تصویری پویا (Dynamic Vision Encoder)
ERNIE
نسخه سبک‌شده‌ی مدل زبانی بایدو برای درک متن
⚡️ پشتیبانی از ۱۰۹ زبان مختلف، با تمرکز بر کارایی بالا در دستگاه‌های لبه‌ای (edge).

🟠 GitHub:
github.com/PaddlePaddle/PaddleOCR

🟠 HuggingFace:
PaddleOCR-VL
🟠 اسناد رسمی:

paddleocr.ai/latest/en/index.html

@rss_ai_ir
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧

مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گسترده‌ای از وظایف بینایی را در یک چارچوب واحد ادغام می‌کند:

🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting

همه‌ی این وظایف در قالب یک چارچوب واحد مبتنی بر پیش‌بینی نقطه بعدی (Next-Point Prediction) انجام می‌شوند — رویکردی که باعث شده مدل نتایج چشم‌گیری در دقت و سرعت به دست آورد ⚡️

📘 ویژگی‌ها:

پارامترها: ۳B

یکپارچه‌سازی تمام وظایف ادراکی در یک معماری ساده

مجوز: IDEA License 1.0 💙


🔗 لینک‌ها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo

@rss_ai_ir

#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
📄 مدل DeepSeek-OCR — شناسایی متن با دقت بالا 🔍

شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که می‌تواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.

قابلیت‌ها:

♻️تشخیص متن در تصاویر و فایل‌های PDF
♻️پشتیبانی از جداول، نمودارها و قالب‌های پیچیده‌ی اسناد
♻️چهار نسخه‌ی بهینه‌شده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه


ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشرده‌سازی توکن‌های تصویری (Visual Tokens Compression)،
به دقت و سرعتی بی‌نظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدل‌های OCR موجود سریع‌تر و کارآمدتر عمل می‌کند.

🟠 Hugging Face
🟠 GitHub
🟠 Paper

@rss_ai_ir

#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
1👍1
🦉 LightOnOCR-1B —
مدل جدید و فوق‌سریع OCR از LightOn

شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.

🔥 ویژگی‌های کلیدی:

♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدول‌ها، فرم‌ها، معادلات و چیدمان‌های پیچیده
♻️۶.۵ برابر سریع‌تر از dots.ocr و ۱.۷ برابر سریع‌تر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4


📊 دقت (Olmo-Bench):

♻️دقیق‌تر از DeepSeekOCR
♻️هم‌تراز با dots.ocr (در حالی‌که ۳ برابر سبک‌تر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct


⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژه‌های مقیاس‌بالا و سرویس‌های ابری OCR.

🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo

@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
👍1
🚀مدل DeepSeek-OCR؛ رویکردی تازه برای حافظه در مدل‌های هوش مصنوعی

تیم DeepSeek نشان داده که مدل‌های OCR (تشخیص متن از تصویر) می‌توانند نه‌فقط برای خواندن اسناد، بلکه برای گسترش حافظه مدل‌های زبانی استفاده شوند 🧠📄


---

💡 ایده‌ی اصلی

به‌جای ذخیره‌ی تاریخچه گفتگو یا داده‌ها به‌صورت توکن‌های متنی، DeepSeek آن‌ها را به‌شکل تصویر صفحات نگه می‌دارد.
وقتی مدل به اطلاعات قدیمی نیاز دارد، فقط بخش مورد نظر را از روی تصویر با OCR می‌خواند.

📸 هر بخش تصویری (visual patch) چندین برابر بیش از یک توکن متنی داده در خود دارد — پس مدل می‌تواند حجم بیشتری از اطلاعات را فشرده‌تر نگه دارد و فقط هنگام نیاز آن را بخواند.


---

⚙️ آنچه در داخل اتفاق می‌افتد

♻️کل سابقه‌ی گفتگو به صفحات تصویری تقسیم و به پچ‌های دوبعدی فشرده می‌شود.

♻️صفحات جدید با کیفیت بالا ذخیره می‌شوند، صفحات قدیمی‌تر فشرده‌تر، اما کاملاً حذف نمی‌شوند.

♻️مدل OCR فقط زمانی فراخوانی می‌شود که مدل به عبارت دقیق یا بخش خاصی نیاز دارد.


📚 نتیجه: به‌جای «حذف سخت» بخش‌های قدیمی، حافظه به‌صورت نرم و تدریجی فراموش می‌شود — در حالی‌که ساختار متن، جداول و کدها همچنان حفظ می‌شوند.


---

🚀 اثر عملی

هزاران توکن متنی با چند صد پچ تصویری جایگزین می‌شوند.
مصرف توکن و هزینه‌ی پردازش به‌شدت کاهش می‌یابد.
ایده‌آل برای سیستم‌های عاملی (AI Agents) که جلسات طولانی دارند و نیاز به مرور تاریخچه‌ی قدیمی دارند.
داده‌های آموزشی را می‌توان با رندر خودکار صفحات و برچسب‌های OCR تولید کرد.


---

💬 این روش، مدل را به حافظه‌ی بی‌نقص نمی‌رساند، اما اجازه می‌دهد مدت‌زمان بیشتری اطلاعات را حفظ کند و بدون RAG خارجی دوباره به آن‌ها دسترسی داشته باشد.

📄 Technology Review — 29 Oct 2025

📡 @rss_ai_ir
#هوش_مصنوعی #DeepSeek #OCR #حافظه #LLM #AI #Memory #Agents #VisualAI
📄 مدل Nanonets-OCR2-3B — نسل جدید OCR هوشمند 🤖📑

مدل جدید Nanonets بر پایه‌ی Qwen2.5-VL-3B عرضه شده و فقط متن را نمی‌خواند — بلکه کل سند را به Markdown ساختاریافته تبدیل می‌کند: شامل جدول‌ها، فرمول‌ها، امضاها و حتی نمودارها! 🧠


---

🔍 قابلیت‌ها

🧮 تشخیص فرمول‌ها و تبدیل خودکار آن‌ها به LaTeX

📊 درک جدول‌ها و حفظ ساختارشان در Markdown یا HTML

☑️ شناسایی چک‌باکس‌ها و گزینه‌های انتخابی (☐ / / ☒)

🖋 شناسایی امضاها، واترمارک‌ها و تصاویر

🖼 افزودن تگ‌های تصویری <img> برای تصاویر درون سند

✍️ پشتیبانی از متون دست‌نویس و چندزبانگی

🧩 برای نمودارها و فلوچارت‌ها، تولید مستقیم کد Mermaid

💬 پاسخ‌گویی به سؤالات درباره‌ی محتوا (Visual QA)

---

🔗 مدل در Hugging Face:

👉 huggingface.co/nanonets/Nanonets-OCR2-3B

این مدل یک گام بزرگ در جهت درک عمیق اسناد تصویری است — از OCR سنتی تا تبدیل هوشمند به داده‌های ساختاریافته و قابل ویرایش 📄💡

📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Nanonets #Qwen #LLM #بینایی_ماشین #AI #اسناد #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄

تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانه‌ای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایش‌های مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀


---

⚙️ ویژگی‌های برجسته

پشتیبانی از ۴۰ زبان مختلف 🌍

✳️تشخیص دقیق فرمول‌ها، متون دست‌نویس، و اسناد تاریخی ✍️

✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)

✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشته‌های رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮



---

🎥 دمو آنلاین:
🔗 Datalab Playground

💻 کد منبع:
🔗 GitHub – datalab-to/chandra


---

♻️مدل Chandra با ترکیب OCR کلاسیک، مدل‌های بینایی-زبانی و معماری سبک‌وزن Transformer،
به یکی از دقیق‌ترین ابزارهای دیجیتال‌سازی اسناد تاریخی و دست‌نویس‌های علمی تبدیل شده است.

📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی