This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطهای مولد با Flow Matching (GenPT) 🧷
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
🎸 Another BRIXEL in the Wall 🎸
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍14❤13🎉11😁10🔥9🥰8👏7
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir
🔥مدل SAM 3 / SAM 3D رسماً منتشر شد! 🔥
متا خانوادهی SAM 3 را معرفی کرد — یک مدل یکپارچه برای Detection، Segmentation و Tracking اشیاء در تصاویر و ویدیو با استفاده از:
🟦 متن
🟦 نمونه (Exemplar)
🟦 پرامپتهای بصری
این نسخه ادامهی مسیر Segment Anything است، اما اینبار سهبعدی، دقیقتر، سریعتر و چندمنظورهتر.
📌 مدلها و ریپو تحت مجوز اختصاصی SAM منتشر شدهاند.
---
✨ چرا SAM 3 مهم است؟
✳️یک مدل واحد برای تمام وظایف سگمنتیشن
✳️پشتیبانی از ویدیو + دنبالکردن اشیا
✳️ورودیهای چندنوعی (text / exemplar / visual prompt)
✳️نسخهی 3D برای کاربردهای حرفهایتر—رباتیک، AR/VR، مهندسی، پزشکی
---
🔗 لینکهای مهم
📄 Paper: https://t.ly/5tq9N
🌐 Project: https://ai.meta.com/sam3/
🎛 Demo: https://segment-anything.com
💻 Repo: https://github.com/facebookresearch/sam3
---
مدل SAM دوباره استانداردهای سگمنتیشن و درک صحنه را جابهجا کرد.
منتظر کاربردهای انفجاری در رباتیک، ویدیو، مدیا و دیجیتال توین باشید!
#SAM3 #Segmentation #ComputerVision #MetaAI
@rss_ai_ir
🔥مدل SAM 3 / SAM 3D رسماً منتشر شد! 🔥
متا خانوادهی SAM 3 را معرفی کرد — یک مدل یکپارچه برای Detection، Segmentation و Tracking اشیاء در تصاویر و ویدیو با استفاده از:
🟦 متن
🟦 نمونه (Exemplar)
🟦 پرامپتهای بصری
این نسخه ادامهی مسیر Segment Anything است، اما اینبار سهبعدی، دقیقتر، سریعتر و چندمنظورهتر.
📌 مدلها و ریپو تحت مجوز اختصاصی SAM منتشر شدهاند.
---
✨ چرا SAM 3 مهم است؟
✳️یک مدل واحد برای تمام وظایف سگمنتیشن
✳️پشتیبانی از ویدیو + دنبالکردن اشیا
✳️ورودیهای چندنوعی (text / exemplar / visual prompt)
✳️نسخهی 3D برای کاربردهای حرفهایتر—رباتیک، AR/VR، مهندسی، پزشکی
---
🔗 لینکهای مهم
📄 Paper: https://t.ly/5tq9N
🌐 Project: https://ai.meta.com/sam3/
🎛 Demo: https://segment-anything.com
💻 Repo: https://github.com/facebookresearch/sam3
---
مدل SAM دوباره استانداردهای سگمنتیشن و درک صحنه را جابهجا کرد.
منتظر کاربردهای انفجاری در رباتیک، ویدیو، مدیا و دیجیتال توین باشید!
#SAM3 #Segmentation #ComputerVision #MetaAI
@rss_ai_ir
🍕 Upsample Anything —
آپسمپلکننده یونیورسال بدون نیاز به آموزش 🍕
مدل Upsample Anything یک روش جدید و بدون نیاز به آموزش برای بزرگکردن هر نوع تصویر، ویدیو یا داده تصویری است.
این روش با یک بهینهسازی بسیار سبک در زمان اجرا کار میکند و نیاز به مدلهای سنگین یا دیتاستهای بزرگ ندارد.
🔍 برای کسانی که با سوپررزولوشن کار میکنند، این مقاله ارزش دیدن دارد.
📑 Paper:
https://lnkd.in/dsUfdtih
@rss_ai_ir
#Upsample #ImageAI #SuperResolution #ComputerVision #AI
آپسمپلکننده یونیورسال بدون نیاز به آموزش 🍕
مدل Upsample Anything یک روش جدید و بدون نیاز به آموزش برای بزرگکردن هر نوع تصویر، ویدیو یا داده تصویری است.
این روش با یک بهینهسازی بسیار سبک در زمان اجرا کار میکند و نیاز به مدلهای سنگین یا دیتاستهای بزرگ ندارد.
🔍 برای کسانی که با سوپررزولوشن کار میکنند، این مقاله ارزش دیدن دارد.
📑 Paper:
https://lnkd.in/dsUfdtih
@rss_ai_ir
#Upsample #ImageAI #SuperResolution #ComputerVision #AI
❤1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 معرفی EfficientSAM3 – نسل تازه مدلهای سبک و قدرتمند در سگمنتیشن
دانشگاه بریستول خانوادهی EfficientSAM3 را معرفی کرده است؛ مجموعهای از مدلهای سبک و پرسرعت که با روش نوآورانهی Progressive Hierarchical Distillation (PHD) آموزش دیدهاند.
در این روش، تواناییهای مدل بزرگ SAM3 به مدلهای کوچکتر منتقل میشود؛ نتیجهی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاههای کمقدرت و کاربردهای صنعتی
کد پروژه همزمان با انتشار رسمی SAM3 در راه است.
🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3
@rss_ai_ir
---
#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
دانشگاه بریستول خانوادهی EfficientSAM3 را معرفی کرده است؛ مجموعهای از مدلهای سبک و پرسرعت که با روش نوآورانهی Progressive Hierarchical Distillation (PHD) آموزش دیدهاند.
در این روش، تواناییهای مدل بزرگ SAM3 به مدلهای کوچکتر منتقل میشود؛ نتیجهی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاههای کمقدرت و کاربردهای صنعتی
کد پروژه همزمان با انتشار رسمی SAM3 در راه است.
🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3
@rss_ai_ir
---
#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
🙏2❤1🕊1
✨ مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتارشده
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
@rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
❤4👍1🔥1