This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏4❤1👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💄 Pixel-Perfect Depth
؛ استاندارد جدید در تخمین عمق تکتصویری (SOTA) 💄
🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تکچشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده میکند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.
🚀 ویژگیها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیرهکننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگیها)
✳️پشتیبانی از ساختارهای پیچیده و بافتهای ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشهبرداری و بینایی رباتیک
📜 لایسنس آزاد: Apache 2.0
🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9
@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
؛ استاندارد جدید در تخمین عمق تکتصویری (SOTA) 💄
🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تکچشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده میکند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.
🚀 ویژگیها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیرهکننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگیها)
✳️پشتیبانی از ساختارهای پیچیده و بافتهای ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشهبرداری و بینایی رباتیک
📜 لایسنس آزاد: Apache 2.0
🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9
@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 مدل جدید TrackVLA++ برای ردیابی بصری (Visual Tracking)
مدل TrackVLA++ نسل جدیدی از مدلهای Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانیمدت و محیطهای شلوغ ارائه میدهد. 💙
🚀 ویژگیهای کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای رباتها، سیستمهای نظارت تصویری و کاربردهای واقعیت افزوده
📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: بهزودی منتشر میشود
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
مدل TrackVLA++ نسل جدیدی از مدلهای Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانیمدت و محیطهای شلوغ ارائه میدهد. 💙
🚀 ویژگیهای کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای رباتها، سیستمهای نظارت تصویری و کاربردهای واقعیت افزوده
📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: بهزودی منتشر میشود
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
👍1
🧩 Segment Anything 3 –
نسل سوم سام از Meta بهصورت بیسر و صدا در ICLR منتشر شد!
📍 اگر SAM 1 فقط اجازه میداد با یک کلیک روی تصویر، شیء مورد نظر را بخشبندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،
حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی میخواهید — مثلاً:
> «اتوبوس زرد مدرسه»، «گربه راهراه»، «سیب قرمز» 🍎
مدل خودش همه نمونههای آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم میکند.
به زبان ساده: بخشبندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---
💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسمهای کوتاه، نمونههای تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان میکنید، مدل خودش تشخیص میدهد و مرزها را ترسیم میکند.
---
🧠 زیرساخت دادهای عظیم پشت این مدل:
♻️۴ میلیون مفهوم منحصربهفرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسانها و LLMها (که کار یکدیگر را ارزیابی کردهاند)
---
⚙️ نتیجه:
✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً همسطح با انسان در آزمونهای Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)
---
📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw
@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
نسل سوم سام از Meta بهصورت بیسر و صدا در ICLR منتشر شد!
📍 اگر SAM 1 فقط اجازه میداد با یک کلیک روی تصویر، شیء مورد نظر را بخشبندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،
حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی میخواهید — مثلاً:
> «اتوبوس زرد مدرسه»، «گربه راهراه»، «سیب قرمز» 🍎
مدل خودش همه نمونههای آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم میکند.
به زبان ساده: بخشبندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---
💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسمهای کوتاه، نمونههای تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان میکنید، مدل خودش تشخیص میدهد و مرزها را ترسیم میکند.
---
🧠 زیرساخت دادهای عظیم پشت این مدل:
♻️۴ میلیون مفهوم منحصربهفرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسانها و LLMها (که کار یکدیگر را ارزیابی کردهاند)
---
⚙️ نتیجه:
✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً همسطح با انسان در آزمونهای Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)
---
📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw
@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🫙 AnyUp:
افزایش جهانی ویژگیها در بینایی ماشین 🫙
❌پژوهشگران روش جدیدی با نام AnyUp ارائه کردهاند که میتواند برای افزایش وضوح ویژگیها (Feature Up-Sampling) در هر مدل بینایی ماشین و در هر رزولوشنی استفاده شود — بدون نیاز به آموزش مجدد شبکهی رمزگذار (Encoder).
💡 ویژگی اصلی:
معماری AnyUp یک معماری feature-agnostic است که تنها در زمان استنتاج (inference) عمل میکند و کیفیت بازسازی ویژگیها را در تصاویر به شکل چشمگیری بهبود میدهد.
🔹 قابل استفاده برای تمام معماریهای بینایی (CNN، ViT و غیره)
🔹 بدون نیاز به دادهی اضافی یا تنظیم مجدد مدل
🔹 بهبود کیفیت جزئیات و مرزهای دقیق در تصاویر بازسازیشده
📘 منابع:
👉 مقاله: arxiv.org/pdf/2510.12764
👉 پروژه: wimmerth.github.io/anyup
👉 کد: github.com/wimmerth/anyup
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #AnyUp #ComputerVision #AI
افزایش جهانی ویژگیها در بینایی ماشین 🫙
❌پژوهشگران روش جدیدی با نام AnyUp ارائه کردهاند که میتواند برای افزایش وضوح ویژگیها (Feature Up-Sampling) در هر مدل بینایی ماشین و در هر رزولوشنی استفاده شود — بدون نیاز به آموزش مجدد شبکهی رمزگذار (Encoder).
💡 ویژگی اصلی:
معماری AnyUp یک معماری feature-agnostic است که تنها در زمان استنتاج (inference) عمل میکند و کیفیت بازسازی ویژگیها را در تصاویر به شکل چشمگیری بهبود میدهد.
🔹 قابل استفاده برای تمام معماریهای بینایی (CNN، ViT و غیره)
🔹 بدون نیاز به دادهی اضافی یا تنظیم مجدد مدل
🔹 بهبود کیفیت جزئیات و مرزهای دقیق در تصاویر بازسازیشده
📘 منابع:
👉 مقاله: arxiv.org/pdf/2510.12764
👉 پروژه: wimmerth.github.io/anyup
👉 کد: github.com/wimmerth/anyup
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #AnyUp #ComputerVision #AI
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SAM 2++:
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
❤1