This media is not supported in your browser
VIEW IN TELEGRAM
✨ NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering ✨
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
❤1👍1🔥1🥰1
🌟 مدل MedSAM-3؛ نسخهی پزشکیشدهی SAM 3 با درک زبان طبیعی
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵
👉 فریمورک InstanceV اولین فریمورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه میدهد هر شیء در ویدئو بهصورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شدهاند 💙
🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: بهزودی
#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👉 فریمورک InstanceV اولین فریمورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه میدهد هر شیء در ویدئو بهصورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شدهاند 💙
🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: بهزودی
#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سهبعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Vision Bridge Transformer at Scale —
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘
👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سهبعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم میکند. ریپازیتوری منتشر شد 💙
👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA
#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سهبعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم میکند. ریپازیتوری منتشر شد 💙
👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA
#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
✨چارچوب H2R-Grounder: تبدیل ویدئوی تعامل انسان به ویدئوی ربات با درک فیزیکی 🤖🎥
📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که میتواند ویدئوهای تعامل انسان–شیء را بدون نیاز به دادههای جفتشده، به ویدئوهای واقعگرایانه از دستکاری رباتها تبدیل کند.
🧠 ایدهی اصلی چیست؟
این روش با استفاده از مدلهای مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکیمحور به رفتار ربات ترجمه میکند؛ یعنی رباتها میتوانند از ویدئوهای انسانی یاد بگیرند، بدون اینکه دادهی دقیق انسان–ربات در اختیار باشد.
🚀 چرا مهم است؟
• کاهش شدید هزینه جمعآوری داده برای آموزش رباتها
• یادگیری مهارتهای دستکاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاسپذیر رباتها با دادههای دنیای واقعی
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder
@rss_ai_ir
#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که میتواند ویدئوهای تعامل انسان–شیء را بدون نیاز به دادههای جفتشده، به ویدئوهای واقعگرایانه از دستکاری رباتها تبدیل کند.
🧠 ایدهی اصلی چیست؟
این روش با استفاده از مدلهای مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکیمحور به رفتار ربات ترجمه میکند؛ یعنی رباتها میتوانند از ویدئوهای انسانی یاد بگیرند، بدون اینکه دادهی دقیق انسان–ربات در اختیار باشد.
🚀 چرا مهم است؟
• کاهش شدید هزینه جمعآوری داده برای آموزش رباتها
• یادگیری مهارتهای دستکاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاسپذیر رباتها با دادههای دنیای واقعی
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder
@rss_ai_ir
#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
❤6🎉6👍4🥰4👏4😁4🔥2
✨ StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠
🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تکتصویری ارائه میدهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.
🧩 ایده اصلی این است که مدل با شرطدهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنههای پیچیده و شلوغ.
🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روشهای کلاسیک
♻️مقیاسپذیر برای کاربردهای AR/VR و نمایش سهبعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0
@rss_ai_ir
#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠
🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تکتصویری ارائه میدهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.
🧩 ایده اصلی این است که مدل با شرطدهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنههای پیچیده و شلوغ.
🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روشهای کلاسیک
♻️مقیاسپذیر برای کاربردهای AR/VR و نمایش سهبعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0
@rss_ai_ir
#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰6❤4👏2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩فریم ورک DragMesh؛ ساخت و ویرایش تعاملی مدلهای سهبعدی، سادهتر از همیشه
یک فریمورک جدید و جذاب معرفی شده که به شما اجازه میدهد مدلهای سهبعدی را بهصورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون اینکه هر بار نیاز به آموزش مجدد مدل داشته باشید.
🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا میکند
🔹 با استفاده از DQ-VAE و شرطیسازی FiLM، حرکات طبیعی و قابلباور تولید میکند
🔹 روی اشیای جدید و ندیدهشده هم بهخوبی جواب میدهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستمهای تعاملی سهبعدی
📅 تاریخ انتشار: ۶ دسامبر
🔗 لینکها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیتهاب:
https://github.com/AIGeeksGroup/DragMesh
📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_ماشین #مدل_سهبعدی #ComputerVision #3D #AI #Research
یک فریمورک جدید و جذاب معرفی شده که به شما اجازه میدهد مدلهای سهبعدی را بهصورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون اینکه هر بار نیاز به آموزش مجدد مدل داشته باشید.
🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا میکند
🔹 با استفاده از DQ-VAE و شرطیسازی FiLM، حرکات طبیعی و قابلباور تولید میکند
🔹 روی اشیای جدید و ندیدهشده هم بهخوبی جواب میدهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستمهای تعاملی سهبعدی
📅 تاریخ انتشار: ۶ دسامبر
🔗 لینکها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیتهاب:
https://github.com/AIGeeksGroup/DragMesh
📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_ماشین #مدل_سهبعدی #ComputerVision #3D #AI #Research
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 فریمورک MatAnyone 2 منتشر شد!
این سیستم پیشرفتهترین چارچوب ویدیو ماتینگ انسان است که جزئیات ظریف تصویر را با جلوگیری از مرزهای مصنوعی در تفکیکبندی حفظ میکند.
همچنین در شرایط سخت دنیای واقعی عملکرد بسیار پایدارتری نشان میدهد.
📌 ویژگیها:
✅ حفظ دقیق جزئیات در مرزهای مو و بدن
✅ مقاوم در برابر نور، حرکت و پسزمینههای پیچیده
✅ عملکرد سریعتر و باکیفیتتر نسبت به نسخه قبل
📄 مقاله:
arxiv.org/pdf/2512.11782
💻 پروژه:
pq-yang.github.io/projects/MatAnyone2
📂 گیتهاب:
github.com/pq-yang/MatAnyone2
✨ توسعهیافته توسط گروه پژوهشی pq-yang
📢 @rss_ai_ir
#AI #ComputerVision #Matting #DeepLearning #Research #ML
این سیستم پیشرفتهترین چارچوب ویدیو ماتینگ انسان است که جزئیات ظریف تصویر را با جلوگیری از مرزهای مصنوعی در تفکیکبندی حفظ میکند.
همچنین در شرایط سخت دنیای واقعی عملکرد بسیار پایدارتری نشان میدهد.
📌 ویژگیها:
✅ حفظ دقیق جزئیات در مرزهای مو و بدن
✅ مقاوم در برابر نور، حرکت و پسزمینههای پیچیده
✅ عملکرد سریعتر و باکیفیتتر نسبت به نسخه قبل
📄 مقاله:
arxiv.org/pdf/2512.11782
💻 پروژه:
pq-yang.github.io/projects/MatAnyone2
📂 گیتهاب:
github.com/pq-yang/MatAnyone2
✨ توسعهیافته توسط گروه پژوهشی pq-yang
📢 @rss_ai_ir
#AI #ComputerVision #Matting #DeepLearning #Research #ML
This media is not supported in your browser
VIEW IN TELEGRAM
💷 SOTA Zero-Shot Stereo Matching 💷
🚀 معماری Fast-FoundationStereo از Nvidia
خانوادهای جدید از معماریها که برای اولین بار تعمیم zero-shot قدرتمند در نرخ فریم بلادرنگ را ممکن میکند. این دستاورد با رویکرد divide-and-conquer acceleration به دست آمده و کد و دادهها نیز منتشر شدهاند. 💙
🔗 لینکها:
👉 مقاله:
https://lnkd.in/d9_YKW2A
👉 پروژه:
https://lnkd.in/dKDxm7EX
👉 ریپو:
https://lnkd.in/dR4-PdsW
#Nvidia #ComputerVision #StereoMatching #ZeroShot #DeepLearning
🚀 معماری Fast-FoundationStereo از Nvidia
خانوادهای جدید از معماریها که برای اولین بار تعمیم zero-shot قدرتمند در نرخ فریم بلادرنگ را ممکن میکند. این دستاورد با رویکرد divide-and-conquer acceleration به دست آمده و کد و دادهها نیز منتشر شدهاند. 💙
🔗 لینکها:
👉 مقاله:
https://lnkd.in/d9_YKW2A
👉 پروژه:
https://lnkd.in/dKDxm7EX
👉 ریپو:
https://lnkd.in/dR4-PdsW
#Nvidia #ComputerVision #StereoMatching #ZeroShot #DeepLearning