VIRSUN
7.06K subscribers
1.46K photos
832 videos
5 files
918 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگی‌ها در مدل‌های پایه بینایی (Vision Foundation Models) است — کاملاً به‌صورت Zero-Shot و بدون هیچ‌گونه بازآموزی.
این روش با یادگیری وزن‌های تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپ‌سمپلرهای سنتی ارائه می‌دهد.

🔹 ویژگی‌های کلیدی:

♻️آپ‌سمپل کردن ویژگی‌های VFM بدون نیاز به فاین‌تیون

♻️عملکرد SOTA در طیف گسترده‌ای از وظایف بینایی

♻️کارایی بالا و مناسب برای استفاده در سیستم‌های real-time

♻️قابل استفاده برای مدل‌های مختلف بدون وابستگی به معماری خاص


🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF

#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
1👍1🔥1🥰1
🌟 مدل MedSAM-3؛ نسخه‌ی پزشکی‌شده‌ی SAM 3 با درک زبان طبیعی

🧠 مدل MedSAM-3 تلاش می‌کند قابلیت‌های قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.

در حالی که SAM 3 در تصاویر روزمره عالی عمل می‌کند، اما روی داده‌های پزشکی مشکلات جدی داشت — از جمله اشتباه‌گرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.

مدل MedSAM-3 دقیقاً همین شکاف را پر می‌کند:
💬 پزشک فقط می‌نویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا می‌کند.


---

🔧 نحوهٔ آموزش مدل

برای دقت بالا در پزشکی، چنین کاری انجام شده:

انکودرهای تصویر و متن منجمد شده‌اند تا توان اصلی SAM 3 حفظ شود

قسمت‌های مربوط به دیتکتور با SFT روی دیتاست‌های پزشکی آموزش دیده‌اند

نتیجه: مدل هویت اصلی SAM 3 را حفظ می‌کند، اما زبان و ساختار پزشکی را هم می‌فهمد



---

📊 نتایج و عملکرد

بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:

جلو بزند از U-Net

جلو بزند از MedSAM نسخه اول

دست‌یابی به:

Dice = 0.7772 روی BUSI

Dice = 0.8064 با کمک Agent و Gemini 3 Pro



این نتایج در پزشکی خیلی قوی محسوب می‌شوند.


---

🤖 مدل Agent هوشمند MedSAM-3

یک ابزار جذاب همراه مدل عرضه شده:

✳️برنامه‌ریز هوشمند با Gemini 3 Pro

✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات

✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیق‌تر

✳️افزایش محسوس دقت (Dice)


✳️این یعنی ورود جدی مدل‌های Vision-Language-Agent به پزشکی.


---

📌 وضعیت انتشار

مدل فعلاً در قالب Tech Report منتشر شده، اما توسعه‌دهندگان قول داده‌اند کد و وزن‌ها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.

https://arxiv.org/pdf/2511.19046

https://github.com/Joey-S-Liu/MedSAM3

---

@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵

👉 فریمورک InstanceV اولین فریم‌ورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه می‌دهد هر شیء در ویدئو به‌صورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شده‌اند 💙


🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: به‌زودی

#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سه‌بعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir

یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطه‌های سه‌بعدی مشخص می‌شود و مدل می‌تواند بر اساس همین مسیر:

حرکت دوربین و سوژه را هم‌زمان کنترل کند
اشیای ناخواسته را حذف کند
حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند

مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سه‌بعدی بدون نیاز به ویرایش پیچیدهٔ فریم‌به‌فریم.


🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/

#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
Vision Bridge Transformer at Scale —
خلاصه و معرفی

📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگ‌مقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژن‌ها که فرآیند چندمرحله‌ای دارند، ورودی را به‌صورت مستقیم به خروجی ترجمه می‌کند و به همین دلیل سریع، پایدار و مقیاس‌پذیر است.

🔍 ویژگی‌های کلیدی:

♻️معماری جدید برای مدل‌سازی «trajectory» بین ورودی و خروجی

♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیل‌های پیچیده

♻️مقیاس‌پذیر تا میلیاردها پارامتر

♻️کیفیت بالا در ویرایش صحنه‌های چندلایه و حفظ یکپارچگی بصری


📄 لینک‌ها:

arXiv: https://arxiv.org/abs/2511.23199

PDF: https://arxiv.org/pdf/2511.23199

Project: https://yuanshi9815.github.io/ViBT_homepage/

GitHub: https://github.com/Yuanshi9815/ViBT

Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT


==============================
@rss_ai_ir

#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘

👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سه‌بعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم می‌کند. ریپازیتوری منتشر شد 💙

👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA

#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
چارچوب H2R-Grounder: تبدیل ویدئوی تعامل انسان به ویدئوی ربات با درک فیزیکی 🤖🎥

📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که می‌تواند ویدئوهای تعامل انسان–شیء را بدون نیاز به داده‌های جفت‌شده، به ویدئوهای واقع‌گرایانه از دست‌کاری ربات‌ها تبدیل کند.

🧠 ایده‌ی اصلی چیست؟
این روش با استفاده از مدل‌های مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکی‌محور به رفتار ربات ترجمه می‌کند؛ یعنی ربات‌ها می‌توانند از ویدئوهای انسانی یاد بگیرند، بدون این‌که داده‌ی دقیق انسان–ربات در اختیار باشد.

🚀 چرا مهم است؟
• کاهش شدید هزینه جمع‌آوری داده برای آموزش ربات‌ها
• یادگیری مهارت‌های دست‌کاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاس‌پذیر ربات‌ها با داده‌های دنیای واقعی

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder

@rss_ai_ir

#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
6🎉6👍4🥰4👏4😁4🔥2
StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠

🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تک‌تصویری ارائه می‌دهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.

🧩 ایده‌ اصلی این است که مدل با شرط‌دهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنه‌های پیچیده و شلوغ.

🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روش‌های کلاسیک
♻️مقیاس‌پذیر برای کاربردهای AR/VR و نمایش سه‌بعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0

@rss_ai_ir

#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰64👏2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩فریم ورک DragMesh؛ ساخت و ویرایش تعاملی مدل‌های سه‌بعدی، ساده‌تر از همیشه

یک فریم‌ورک جدید و جذاب معرفی شده که به شما اجازه می‌دهد مدل‌های سه‌بعدی را به‌صورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون این‌که هر بار نیاز به آموزش مجدد مدل داشته باشید.

🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا می‌کند
🔹 با استفاده از DQ-VAE و شرطی‌سازی FiLM، حرکات طبیعی و قابل‌باور تولید می‌کند
🔹 روی اشیای جدید و ندیده‌شده هم به‌خوبی جواب می‌دهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستم‌های تعاملی سه‌بعدی

📅 تاریخ انتشار: ۶ دسامبر

🔗 لینک‌ها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیت‌هاب:
https://github.com/AIGeeksGroup/DragMesh

📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.

@rss_ai_ir

#هوش_مصنوعی #یادگیری_ماشین #مدل_سه‌بعدی #ComputerVision #3D #AI #Research
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 فریم‌ورک MatAnyone 2 منتشر شد!

این سیستم پیشرفته‌ترین چارچوب ویدیو ماتینگ انسان است که جزئیات ظریف تصویر را با جلوگیری از مرزهای مصنوعی در تفکیک‌بندی حفظ می‌کند.
همچنین در شرایط سخت دنیای واقعی عملکرد بسیار پایدارتری نشان می‌دهد.

📌 ویژگی‌ها:
حفظ دقیق جزئیات در مرزهای مو و بدن
مقاوم در برابر نور، حرکت و پس‌زمینه‌های پیچیده
عملکرد سریع‌تر و باکیفیت‌تر نسبت به نسخه قبل


📄 مقاله:
arxiv.org/pdf/2512.11782
💻 پروژه:
pq-yang.github.io/projects/MatAnyone2
📂 گیت‌هاب:
github.com/pq-yang/MatAnyone2


توسعه‌یافته توسط گروه پژوهشی pq-yang
📢 @rss_ai_ir

#AI #ComputerVision #Matting #DeepLearning #Research #ML
This media is not supported in your browser
VIEW IN TELEGRAM
💷 SOTA Zero-Shot Stereo Matching 💷

🚀 معماری Fast-FoundationStereo از Nvidia
خانواده‌ای جدید از معماری‌ها که برای اولین بار تعمیم zero-shot قدرتمند در نرخ فریم بلادرنگ را ممکن می‌کند. این دستاورد با رویکرد divide-and-conquer acceleration به دست آمده و کد و داده‌ها نیز منتشر شده‌اند. 💙

🔗 لینک‌ها:

👉 مقاله:
https://lnkd.in/d9_YKW2A
👉 پروژه:
https://lnkd.in/dKDxm7EX
👉 ریپو:
https://lnkd.in/dR4-PdsW

#Nvidia #ComputerVision #StereoMatching #ZeroShot #DeepLearning