This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
❤9🎉7🔥4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️یک آموزش گرافیکی ساده و جذاب
🎥 در این ویدئو میبینیم که الگوریتم YOLO چطور به صورت لحظهای اشیا را تشخیص میدهد.
🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان میدهد که چطور شبکههای عصبی درک بینایی پیدا میکنند.
@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
🎥 در این ویدئو میبینیم که الگوریتم YOLO چطور به صورت لحظهای اشیا را تشخیص میدهد.
🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان میدهد که چطور شبکههای عصبی درک بینایی پیدا میکنند.
@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
👍12🎉6🔥5❤4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰12❤11🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏12❤11👍9🔥8🥰6🎉6🤔1
🚀 DeepFaceLab —
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍8❤6😁5🔥4🎉4🥰3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
❤7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 CLOPS:
آواتار مبتنی بر بینایی اولشخص 🌀
👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگوسنتریک (دید اولشخص) محیط اطراف خود را درک کرده و در آن جابجا میشود.
این سیستم میتواند بهطور واقعگرایانه در صحنه حرکت کند و با چرخهای از ادراک بصری و حرکت هدف خود را بیابد.
🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون دادههای اضافی، ممکن میشود.
📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: بهزودی
@rss_ai_ir
#AI #Avatar #ComputerVision #Robotics #CLOPS
آواتار مبتنی بر بینایی اولشخص 🌀
👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگوسنتریک (دید اولشخص) محیط اطراف خود را درک کرده و در آن جابجا میشود.
این سیستم میتواند بهطور واقعگرایانه در صحنه حرکت کند و با چرخهای از ادراک بصری و حرکت هدف خود را بیابد.
🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون دادههای اضافی، ممکن میشود.
📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: بهزودی
@rss_ai_ir
#AI #Avatar #ComputerVision #Robotics #CLOPS
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏4❤1👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💄 Pixel-Perfect Depth
؛ استاندارد جدید در تخمین عمق تکتصویری (SOTA) 💄
🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تکچشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده میکند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.
🚀 ویژگیها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیرهکننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگیها)
✳️پشتیبانی از ساختارهای پیچیده و بافتهای ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشهبرداری و بینایی رباتیک
📜 لایسنس آزاد: Apache 2.0
🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9
@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
؛ استاندارد جدید در تخمین عمق تکتصویری (SOTA) 💄
🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تکچشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده میکند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.
🚀 ویژگیها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیرهکننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگیها)
✳️پشتیبانی از ساختارهای پیچیده و بافتهای ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشهبرداری و بینایی رباتیک
📜 لایسنس آزاد: Apache 2.0
🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9
@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 مدل جدید TrackVLA++ برای ردیابی بصری (Visual Tracking)
مدل TrackVLA++ نسل جدیدی از مدلهای Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانیمدت و محیطهای شلوغ ارائه میدهد. 💙
🚀 ویژگیهای کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای رباتها، سیستمهای نظارت تصویری و کاربردهای واقعیت افزوده
📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: بهزودی منتشر میشود
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
مدل TrackVLA++ نسل جدیدی از مدلهای Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانیمدت و محیطهای شلوغ ارائه میدهد. 💙
🚀 ویژگیهای کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای رباتها، سیستمهای نظارت تصویری و کاربردهای واقعیت افزوده
📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: بهزودی منتشر میشود
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
👍1
🧩 Segment Anything 3 –
نسل سوم سام از Meta بهصورت بیسر و صدا در ICLR منتشر شد!
📍 اگر SAM 1 فقط اجازه میداد با یک کلیک روی تصویر، شیء مورد نظر را بخشبندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،
حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی میخواهید — مثلاً:
> «اتوبوس زرد مدرسه»، «گربه راهراه»، «سیب قرمز» 🍎
مدل خودش همه نمونههای آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم میکند.
به زبان ساده: بخشبندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---
💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسمهای کوتاه، نمونههای تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان میکنید، مدل خودش تشخیص میدهد و مرزها را ترسیم میکند.
---
🧠 زیرساخت دادهای عظیم پشت این مدل:
♻️۴ میلیون مفهوم منحصربهفرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسانها و LLMها (که کار یکدیگر را ارزیابی کردهاند)
---
⚙️ نتیجه:
✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً همسطح با انسان در آزمونهای Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)
---
📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw
@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
نسل سوم سام از Meta بهصورت بیسر و صدا در ICLR منتشر شد!
📍 اگر SAM 1 فقط اجازه میداد با یک کلیک روی تصویر، شیء مورد نظر را بخشبندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،
حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی میخواهید — مثلاً:
> «اتوبوس زرد مدرسه»، «گربه راهراه»، «سیب قرمز» 🍎
مدل خودش همه نمونههای آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم میکند.
به زبان ساده: بخشبندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---
💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسمهای کوتاه، نمونههای تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان میکنید، مدل خودش تشخیص میدهد و مرزها را ترسیم میکند.
---
🧠 زیرساخت دادهای عظیم پشت این مدل:
♻️۴ میلیون مفهوم منحصربهفرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسانها و LLMها (که کار یکدیگر را ارزیابی کردهاند)
---
⚙️ نتیجه:
✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً همسطح با انسان در آزمونهای Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)
---
📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw
@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🫙 AnyUp:
افزایش جهانی ویژگیها در بینایی ماشین 🫙
❌پژوهشگران روش جدیدی با نام AnyUp ارائه کردهاند که میتواند برای افزایش وضوح ویژگیها (Feature Up-Sampling) در هر مدل بینایی ماشین و در هر رزولوشنی استفاده شود — بدون نیاز به آموزش مجدد شبکهی رمزگذار (Encoder).
💡 ویژگی اصلی:
معماری AnyUp یک معماری feature-agnostic است که تنها در زمان استنتاج (inference) عمل میکند و کیفیت بازسازی ویژگیها را در تصاویر به شکل چشمگیری بهبود میدهد.
🔹 قابل استفاده برای تمام معماریهای بینایی (CNN، ViT و غیره)
🔹 بدون نیاز به دادهی اضافی یا تنظیم مجدد مدل
🔹 بهبود کیفیت جزئیات و مرزهای دقیق در تصاویر بازسازیشده
📘 منابع:
👉 مقاله: arxiv.org/pdf/2510.12764
👉 پروژه: wimmerth.github.io/anyup
👉 کد: github.com/wimmerth/anyup
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #AnyUp #ComputerVision #AI
افزایش جهانی ویژگیها در بینایی ماشین 🫙
❌پژوهشگران روش جدیدی با نام AnyUp ارائه کردهاند که میتواند برای افزایش وضوح ویژگیها (Feature Up-Sampling) در هر مدل بینایی ماشین و در هر رزولوشنی استفاده شود — بدون نیاز به آموزش مجدد شبکهی رمزگذار (Encoder).
💡 ویژگی اصلی:
معماری AnyUp یک معماری feature-agnostic است که تنها در زمان استنتاج (inference) عمل میکند و کیفیت بازسازی ویژگیها را در تصاویر به شکل چشمگیری بهبود میدهد.
🔹 قابل استفاده برای تمام معماریهای بینایی (CNN، ViT و غیره)
🔹 بدون نیاز به دادهی اضافی یا تنظیم مجدد مدل
🔹 بهبود کیفیت جزئیات و مرزهای دقیق در تصاویر بازسازیشده
📘 منابع:
👉 مقاله: arxiv.org/pdf/2510.12764
👉 پروژه: wimmerth.github.io/anyup
👉 کد: github.com/wimmerth/anyup
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #AnyUp #ComputerVision #AI
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی