VIRSUN
7.18K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 معرفی EfficientSAM3 – نسل تازه مدل‌های سبک و قدرتمند در سگمنتیشن

دانشگاه بریستول خانواده‌ی EfficientSAM3 را معرفی کرده است؛ مجموعه‌ای از مدل‌های سبک و پرسرعت که با روش نوآورانه‌ی Progressive Hierarchical Distillation (PHD) آموزش دیده‌اند.
در این روش، توانایی‌های مدل بزرگ SAM3 به مدل‌های کوچک‌تر منتقل می‌شود؛ نتیجه‌ی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاه‌های کم‌قدرت و کاربردهای صنعتی

کد پروژه هم‌زمان با انتشار رسمی SAM3 در راه است.


🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3

@rss_ai_ir
---

#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
🙏21🕊1
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
@rss_ai_ir

تشخیص تصاویر مصنوعی با گرادیان‌فیلدها — یک روش ساده و شگفت‌انگیز! 💡

در دنیایی که مدل‌های دیفیوشن هر روز واقعی‌تر می‌شوند، پیدا کردن یک روش ساده، سبک و قابل‌توضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را می‌کند 👇

🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:

📸 عکس‌های واقعی

🎨 تصاویر ساخته‌شده با دیفیوشن
به‌دست می‌آید.


🧠 چرا جواب می‌دهد؟

تصاویر واقعی، گرادیان‌هایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.

تصاویر دیفیوشن به‌دلیل فرآیند denoising دارای جزئیات ناپایدار و بافت‌های فرکانس‌بالا هستند که ساختگی بودن را لو می‌دهد.


🧮 مراحل کار (فقط چند قدم ساده):

1. تبدیل RGB → luminance


2. محاسبه spatial gradients


3. تبدیل گرادیان‌ها به ماتریس فلت‌شده


4. محاسبه covariance


5. انجام PCA و مشاهده جداسازی واضح در یک تصویر



🎯 نتیجه
بدون مدل طبقه‌بندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیان‌ها می‌توان به‌راحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بینایی‌ماشین و متخصصان امنیت داده.

#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Seeing without Pixels —
دیدن بدون پیکسل‌ها! 🔥
@rss_ai_ir 👁️‍🗨️🤖

⛔️آیا می‌شود محتوای یک ویدئو را بدون دیدن حتی یک پیکسل فقط از مسیر حرکت دوربین حدس زد؟
پژوهش تازهٔ DeepMind و دانشگاه تگزاس برای اولین بار این سؤال غیرممکن‌به‌نظر را به‌صورت علمی بررسی کرده است.
🔗 Paper: arxiv.org/pdf/2511.21681
🔗 Project: sites.google.com/view/seeing-without-pixels

#AI #Deepmind #ComputerVision #Research @rss_ai_ir
1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگی‌ها در مدل‌های پایه بینایی (Vision Foundation Models) است — کاملاً به‌صورت Zero-Shot و بدون هیچ‌گونه بازآموزی.
این روش با یادگیری وزن‌های تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپ‌سمپلرهای سنتی ارائه می‌دهد.

🔹 ویژگی‌های کلیدی:

♻️آپ‌سمپل کردن ویژگی‌های VFM بدون نیاز به فاین‌تیون

♻️عملکرد SOTA در طیف گسترده‌ای از وظایف بینایی

♻️کارایی بالا و مناسب برای استفاده در سیستم‌های real-time

♻️قابل استفاده برای مدل‌های مختلف بدون وابستگی به معماری خاص


🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF

#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
1👍1🔥1🥰1
🌟 مدل MedSAM-3؛ نسخه‌ی پزشکی‌شده‌ی SAM 3 با درک زبان طبیعی

🧠 مدل MedSAM-3 تلاش می‌کند قابلیت‌های قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.

در حالی که SAM 3 در تصاویر روزمره عالی عمل می‌کند، اما روی داده‌های پزشکی مشکلات جدی داشت — از جمله اشتباه‌گرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.

مدل MedSAM-3 دقیقاً همین شکاف را پر می‌کند:
💬 پزشک فقط می‌نویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا می‌کند.


---

🔧 نحوهٔ آموزش مدل

برای دقت بالا در پزشکی، چنین کاری انجام شده:

انکودرهای تصویر و متن منجمد شده‌اند تا توان اصلی SAM 3 حفظ شود

قسمت‌های مربوط به دیتکتور با SFT روی دیتاست‌های پزشکی آموزش دیده‌اند

نتیجه: مدل هویت اصلی SAM 3 را حفظ می‌کند، اما زبان و ساختار پزشکی را هم می‌فهمد



---

📊 نتایج و عملکرد

بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:

جلو بزند از U-Net

جلو بزند از MedSAM نسخه اول

دست‌یابی به:

Dice = 0.7772 روی BUSI

Dice = 0.8064 با کمک Agent و Gemini 3 Pro



این نتایج در پزشکی خیلی قوی محسوب می‌شوند.


---

🤖 مدل Agent هوشمند MedSAM-3

یک ابزار جذاب همراه مدل عرضه شده:

✳️برنامه‌ریز هوشمند با Gemini 3 Pro

✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات

✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیق‌تر

✳️افزایش محسوس دقت (Dice)


✳️این یعنی ورود جدی مدل‌های Vision-Language-Agent به پزشکی.


---

📌 وضعیت انتشار

مدل فعلاً در قالب Tech Report منتشر شده، اما توسعه‌دهندگان قول داده‌اند کد و وزن‌ها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.

https://arxiv.org/pdf/2511.19046

https://github.com/Joey-S-Liu/MedSAM3

---

@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵

👉 فریمورک InstanceV اولین فریم‌ورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه می‌دهد هر شیء در ویدئو به‌صورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شده‌اند 💙


🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: به‌زودی

#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سه‌بعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir

یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطه‌های سه‌بعدی مشخص می‌شود و مدل می‌تواند بر اساس همین مسیر:

حرکت دوربین و سوژه را هم‌زمان کنترل کند
اشیای ناخواسته را حذف کند
حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند

مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سه‌بعدی بدون نیاز به ویرایش پیچیدهٔ فریم‌به‌فریم.


🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/

#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
Vision Bridge Transformer at Scale —
خلاصه و معرفی

📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگ‌مقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژن‌ها که فرآیند چندمرحله‌ای دارند، ورودی را به‌صورت مستقیم به خروجی ترجمه می‌کند و به همین دلیل سریع، پایدار و مقیاس‌پذیر است.

🔍 ویژگی‌های کلیدی:

♻️معماری جدید برای مدل‌سازی «trajectory» بین ورودی و خروجی

♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیل‌های پیچیده

♻️مقیاس‌پذیر تا میلیاردها پارامتر

♻️کیفیت بالا در ویرایش صحنه‌های چندلایه و حفظ یکپارچگی بصری


📄 لینک‌ها:

arXiv: https://arxiv.org/abs/2511.23199

PDF: https://arxiv.org/pdf/2511.23199

Project: https://yuanshi9815.github.io/ViBT_homepage/

GitHub: https://github.com/Yuanshi9815/ViBT

Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT


==============================
@rss_ai_ir

#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘

👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سه‌بعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم می‌کند. ریپازیتوری منتشر شد 💙

👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA

#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
چارچوب H2R-Grounder: تبدیل ویدئوی تعامل انسان به ویدئوی ربات با درک فیزیکی 🤖🎥

📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که می‌تواند ویدئوهای تعامل انسان–شیء را بدون نیاز به داده‌های جفت‌شده، به ویدئوهای واقع‌گرایانه از دست‌کاری ربات‌ها تبدیل کند.

🧠 ایده‌ی اصلی چیست؟
این روش با استفاده از مدل‌های مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکی‌محور به رفتار ربات ترجمه می‌کند؛ یعنی ربات‌ها می‌توانند از ویدئوهای انسانی یاد بگیرند، بدون این‌که داده‌ی دقیق انسان–ربات در اختیار باشد.

🚀 چرا مهم است؟
• کاهش شدید هزینه جمع‌آوری داده برای آموزش ربات‌ها
• یادگیری مهارت‌های دست‌کاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاس‌پذیر ربات‌ها با داده‌های دنیای واقعی

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder

@rss_ai_ir

#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
6🎉6👍4🥰4👏4😁4🔥2
StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠

🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تک‌تصویری ارائه می‌دهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.

🧩 ایده‌ اصلی این است که مدل با شرط‌دهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنه‌های پیچیده و شلوغ.

🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روش‌های کلاسیک
♻️مقیاس‌پذیر برای کاربردهای AR/VR و نمایش سه‌بعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0

@rss_ai_ir

#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰64👏2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩فریم ورک DragMesh؛ ساخت و ویرایش تعاملی مدل‌های سه‌بعدی، ساده‌تر از همیشه

یک فریم‌ورک جدید و جذاب معرفی شده که به شما اجازه می‌دهد مدل‌های سه‌بعدی را به‌صورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون این‌که هر بار نیاز به آموزش مجدد مدل داشته باشید.

🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا می‌کند
🔹 با استفاده از DQ-VAE و شرطی‌سازی FiLM، حرکات طبیعی و قابل‌باور تولید می‌کند
🔹 روی اشیای جدید و ندیده‌شده هم به‌خوبی جواب می‌دهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستم‌های تعاملی سه‌بعدی

📅 تاریخ انتشار: ۶ دسامبر

🔗 لینک‌ها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیت‌هاب:
https://github.com/AIGeeksGroup/DragMesh

📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.

@rss_ai_ir

#هوش_مصنوعی #یادگیری_ماشین #مدل_سه‌بعدی #ComputerVision #3D #AI #Research