VIRSUN
6.15K subscribers
1.03K photos
586 videos
5 files
657 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️یک آموزش گرافیکی ساده و جذاب

🎥 در این ویدئو می‌بینیم که الگوریتم YOLO چطور به صورت لحظه‌ای اشیا را تشخیص می‌دهد.

🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان می‌دهد که چطور شبکه‌های عصبی درک بینایی پیدا می‌کنند.

@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
👍12🎉6🔥54😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی

الگوریتم‌های Face Recognition با استفاده از شبکه‌های عصبی کانولوشنی (CNN) می‌توانند ویژگی‌های منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.

📌 همانطور که در این ویدیو می‌بینید:

تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه می‌شوند.

مدل CNN Encoder ویژگی‌های کلیدی چهره را به بردار عددی تبدیل می‌کند.

در نهایت، این بردارها با هم مقایسه شده و مشخص می‌شود که هر دو تصویر متعلق به یک فرد هستند یا خیر.


این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشی‌های هوشمند و حتی شبکه‌های اجتماعی استفاده می‌شود.

👁‍🗨 آینده سیستم‌های بینایی ماشین بدون شک با چنین الگوریتم‌هایی گره خورده است.

@rss_ai_ir

#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰1211🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀

🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کرده‌اند. این ماژول به‌صورت drop-in عمل می‌کند و باعث:

کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)

بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)


💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.

📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo

@rss_ai_ir

#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏1211👍9🔥8🥰6🎉6🤔1
🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است


👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍86😁5🔥4🎉4🥰3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده

🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار می‌کند که چندین شیء سالینت با اندازه‌های بسیار متفاوت در یک تصویر ظاهر می‌شوند.

چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدل‌های سنتی دچار خطا می‌شوند. SI-SOD با طراحی جدید خود می‌تواند تمرکز را روی همه‌ی اشیاء حفظ کند و ناوردا عمل کند.

📌 منابع:

📄 مقاله

🌐 پروژه

💻 کد روی GitHub



💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار می‌کنند می‌تونه ابزار ارزشمندی باشه.

#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR

@rss_ai_ir
7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 CLOPS:
آواتار مبتنی بر بینایی اول‌شخص 🌀

👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگو‌سنتریک (دید اول‌شخص) محیط اطراف خود را درک کرده و در آن جابجا می‌شود.
این سیستم می‌تواند به‌طور واقع‌گرایانه در صحنه حرکت کند و با چرخه‌ای از ادراک بصری و حرکت هدف خود را بیابد.

🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون داده‌های اضافی، ممکن می‌شود.


📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: به‌زودی

@rss_ai_ir

#AI #Avatar #ComputerVision #Robotics #CLOPS
🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.


📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
1👍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همه‌کاره‌ی تصویر (HKUSTGZ)

⛔️مدل LucidFlux یک فریم‌ورک ترمیم تصویر یونیورسال بر پایه‌ی Diffusion Transformer است که روی عکس‌های واقعی با کیفیت پایین (LQ) خروجی‌های فوتورئالیستی می‌دهد و در انواع خرابی‌ها (نویز، بلور، فشردگی، کم‌نور، آرتیفکت‌ها و …) از مدل‌های SOTA مبتنی بر دیفیوشن بهتر عمل می‌کند.

چرا مهمه؟

یک مدل برای چندین نوع خرابی (به‌جای مدل جدا برای هر سناریو)
سازگاری با تصاویر دنیای واقعی، نه فقط دیتاست‌های تمیز
کیفیت بازسازی بالا بدون ظاهر «بیش‌ازحد صاف/پلاستیکی»

‼️نکات فنی کوتاه

معماری بزرگ‌مقیاس Diffusion Transformer
آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر

لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)


📄 Paper:
https://arxiv.org/pdf/2509.22414

🌐 Project:
https://w2genai-lab.github.io/LucidFlux/

💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux

#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏41👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء

🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحی‌شده برای سریع‌تر، سبک‌تر و سازگارتر با Edge Devices

ویژگی‌های کلیدی:

حذف NMS (Non-Maximum Suppression) → پیش‌بینی مستقیم بدون حذف دابل‌ها

حذف DFL → ساده‌تر شدن خروجی و سازگاری بهتر با سخت‌افزار

🆕 سه تکنیک تازه:

ProgLoss → بالانس تدریجی خطاها

STAL → برتری در تشخیص اشیاء خیلی کوچک

MuSGD → الگوریتم بهینه‌سازی الهام‌گرفته از آموزش LLMها


بهینه‌سازی ویژه برای CPU و دستگاه‌های لبه‌ای با تاخیر کم


⚠️ نکته: هنوز در مرحله پیش‌نمایش است و برخی تست‌ها نشان می‌دهند که دقت آن در بعضی موارد پایین‌تر از YOLO12 است.

📌 با این حال، حذف بخش‌های اضافی و ساده‌تر شدن ساختار، YOLO26 را گزینه‌ای جذاب برای پردازش سریع روی دستگاه‌های صنعتی و قابل حمل می‌کند.
https://docs.ultralytics.com/models/yolo26/

@rss_ai_ir

#YOLO #ComputerVision #AI #YOLO26
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💄 Pixel-Perfect Depth
؛ استاندارد جدید در تخمین عمق تک‌تصویری (SOTA)
💄


🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تک‌چشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده می‌کند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.


🚀 ویژگی‌ها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیره‌کننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگی‌ها)
✳️پشتیبانی از ساختارهای پیچیده و بافت‌های ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشه‌برداری و بینایی رباتیک


📜 لایسنس آزاد: Apache 2.0

🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9

@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 مدل جدید TrackVLA++ برای ردیابی بصری (Visual Tracking)

مدل TrackVLA++ نسل جدیدی از مدل‌های Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانی‌مدت و محیط‌های شلوغ ارائه می‌دهد. 💙

🚀 ویژگی‌های کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای ربات‌ها، سیستم‌های نظارت تصویری و کاربردهای واقعیت افزوده

📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: به‌زودی منتشر می‌شود

@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
👍1
🧩 Segment Anything 3 –
نسل سوم سام از Meta به‌صورت بی‌سر و صدا در ICLR منتشر شد!

📍 اگر SAM 1 فقط اجازه می‌داد با یک کلیک روی تصویر، شیء مورد نظر را بخش‌بندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،

حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی می‌خواهید — مثلاً:

> «اتوبوس زرد مدرسه»، «گربه راه‌راه»، «سیب قرمز» 🍎



مدل خودش همه نمونه‌های آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم می‌کند.
به زبان ساده: بخش‌بندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---

💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسم‌های کوتاه، نمونه‌های تصویری یا ترکیبی از هر دو استفاده کنید.
شما فقط مفهوم را بیان می‌کنید، مدل خودش تشخیص می‌دهد و مرزها را ترسیم می‌کند.
---

🧠 زیرساخت داده‌ای عظیم پشت این مدل:

♻️۴ میلیون مفهوم منحصربه‌فرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسان‌ها و LLMها (که کار یکدیگر را ارزیابی کرده‌اند)
---

⚙️ نتیجه:

✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً هم‌سطح با انسان در آزمون‌های Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)

---

📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw

@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🫙 AnyUp:
افزایش جهانی ویژگی‌ها در بینایی ماشین 🫙

پژوهشگران روش جدیدی با نام AnyUp ارائه کرده‌اند که می‌تواند برای افزایش وضوح ویژگی‌ها (Feature Up-Sampling) در هر مدل بینایی ماشین و در هر رزولوشنی استفاده شود — بدون نیاز به آموزش مجدد شبکه‌ی رمزگذار (Encoder).

💡 ویژگی اصلی:
معماری AnyUp یک معماری feature-agnostic است که تنها در زمان استنتاج (inference) عمل می‌کند و کیفیت بازسازی ویژگی‌ها را در تصاویر به شکل چشمگیری بهبود می‌دهد.

🔹 قابل استفاده برای تمام معماری‌های بینایی (CNN، ViT و غیره)
🔹 بدون نیاز به داده‌ی اضافی یا تنظیم مجدد مدل
🔹 بهبود کیفیت جزئیات و مرزهای دقیق در تصاویر بازسازی‌شده

📘 منابع:
👉 مقاله: arxiv.org/pdf/2510.12764
👉 پروژه: wimmerth.github.io/anyup
👉 کد: github.com/wimmerth/anyup
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #AnyUp #ComputerVision #AI
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧

مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گسترده‌ای از وظایف بینایی را در یک چارچوب واحد ادغام می‌کند:

🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting

همه‌ی این وظایف در قالب یک چارچوب واحد مبتنی بر پیش‌بینی نقطه بعدی (Next-Point Prediction) انجام می‌شوند — رویکردی که باعث شده مدل نتایج چشم‌گیری در دقت و سرعت به دست آورد ⚡️

📘 ویژگی‌ها:

پارامترها: ۳B

یکپارچه‌سازی تمام وظایف ادراکی در یک معماری ساده

مجوز: IDEA License 1.0 💙


🔗 لینک‌ها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo

@rss_ai_ir

#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵

📍 مدل DeepDetect یک مدل نوآورانه است که به‌عنوان یک تشخیص‌دهنده‌ی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:

🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel

را در قالب یک شبکه عصبی واحد ترکیب می‌کند.

💬 نویسندگان می‌گویند: این مدل، بازآفرینی عاشقانه‌ای از تمام تکنیک‌های قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.

💙 مجوز: MIT License

🔗 لینک‌ها:
👉 مقاله (arXiv)
👉 مخزن GitHub

#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SAM 2++:
رهگیری هرچیز در هر سطحی! 🔥

🧠 مدل SAM 2++ نسخه‌ای پیشرفته از سیستم Segment Anything است که به‌صورت یکپارچه می‌تواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢

📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده

@rss_ai_ir

#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖

مدل OmniNWM یک سیستم یکپارچه‌ی جهان‌محور و پانورامیک است که آینده‌ی رانندگی خودکار را متحول می‌کند.
این مدل می‌تواند حالت‌های چندوجهی (multi-modal states) شامل تصویر RGB، نقشه‌های معنایی، عمق و اشغال سه‌بعدی (3D occupancy) را به‌صورت همزمان تولید کند.

ویژگی‌های کلیدی:

♻️تولید هم‌زمان داده‌های تصویری، عمقی و فضایی برای درک کامل محیط؛

♻️کنترل دقیق حرکات و تصمیم‌گیری‌ها در لحظه؛

♻️ارزیابی بسته (closed-loop) با پاداش‌های متراکم مبتنی بر اشغال فضا؛

♻️اجرای سریع و بهینه روی GPU.


📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.

🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp

@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠

محققان دانشگاه Caltech مجموعه‌بنچ‌مارک جدیدی به نام ITTO معرفی کرده‌اند —
سیستمی برای ارزیابی و تحلیل روش‌های ردیابی در حرکات پیچیده و بلندمدت 🔍

💡 ویژگی‌ها:

♻️طراحی‌شده برای حرکات طولانی، پیچیده و غیرخطی

♻️تمرکز بر ارزیابی پایداری در فریم‌های زیاد

♻️مناسب برای آموزش و تست الگوریتم‌های بینایی ماشین در سناریوهای واقعی


📘 مجوز: CC BY-NC 4.0 — استفاده‌ی آزاد برای اهداف پژوهشی

🔗 لینک‌ها:
📄 مقاله
🌐 پروژه
💾 کد منبع

@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
1
🦉 LightOnOCR-1B —
مدل جدید و فوق‌سریع OCR از LightOn

شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.

🔥 ویژگی‌های کلیدی:

♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدول‌ها، فرم‌ها، معادلات و چیدمان‌های پیچیده
♻️۶.۵ برابر سریع‌تر از dots.ocr و ۱.۷ برابر سریع‌تر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4


📊 دقت (Olmo-Bench):

♻️دقیق‌تر از DeepSeekOCR
♻️هم‌تراز با dots.ocr (در حالی‌که ۳ برابر سبک‌تر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct


⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژه‌های مقیاس‌بالا و سرویس‌های ابری OCR.

🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo

@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱

👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرنده‌ی ۱۰۰۰ ویدیو کوتاه‌مدت و ۱۵۰ ویدیو بلندمدت است.

این مجموعه برای آموزش و ارزیابی الگوریتم‌های رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدل‌های بینایی ماشین محسوب می‌شود. 💙

🔗 مرجع‌ها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset

#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین