VIRSUN
7.17K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سه‌بعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir

یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطه‌های سه‌بعدی مشخص می‌شود و مدل می‌تواند بر اساس همین مسیر:

حرکت دوربین و سوژه را هم‌زمان کنترل کند
اشیای ناخواسته را حذف کند
حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند

مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سه‌بعدی بدون نیاز به ویرایش پیچیدهٔ فریم‌به‌فریم.


🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/

#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
Vision Bridge Transformer at Scale —
خلاصه و معرفی

📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگ‌مقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژن‌ها که فرآیند چندمرحله‌ای دارند، ورودی را به‌صورت مستقیم به خروجی ترجمه می‌کند و به همین دلیل سریع، پایدار و مقیاس‌پذیر است.

🔍 ویژگی‌های کلیدی:

♻️معماری جدید برای مدل‌سازی «trajectory» بین ورودی و خروجی

♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیل‌های پیچیده

♻️مقیاس‌پذیر تا میلیاردها پارامتر

♻️کیفیت بالا در ویرایش صحنه‌های چندلایه و حفظ یکپارچگی بصری


📄 لینک‌ها:

arXiv: https://arxiv.org/abs/2511.23199

PDF: https://arxiv.org/pdf/2511.23199

Project: https://yuanshi9815.github.io/ViBT_homepage/

GitHub: https://github.com/Yuanshi9815/ViBT

Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT


==============================
@rss_ai_ir

#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘

👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سه‌بعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم می‌کند. ریپازیتوری منتشر شد 💙

👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA

#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
چارچوب H2R-Grounder: تبدیل ویدئوی تعامل انسان به ویدئوی ربات با درک فیزیکی 🤖🎥

📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که می‌تواند ویدئوهای تعامل انسان–شیء را بدون نیاز به داده‌های جفت‌شده، به ویدئوهای واقع‌گرایانه از دست‌کاری ربات‌ها تبدیل کند.

🧠 ایده‌ی اصلی چیست؟
این روش با استفاده از مدل‌های مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکی‌محور به رفتار ربات ترجمه می‌کند؛ یعنی ربات‌ها می‌توانند از ویدئوهای انسانی یاد بگیرند، بدون این‌که داده‌ی دقیق انسان–ربات در اختیار باشد.

🚀 چرا مهم است؟
• کاهش شدید هزینه جمع‌آوری داده برای آموزش ربات‌ها
• یادگیری مهارت‌های دست‌کاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاس‌پذیر ربات‌ها با داده‌های دنیای واقعی

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder

@rss_ai_ir

#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
6🎉6👍4🥰4👏4😁4🔥2
StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠

🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تک‌تصویری ارائه می‌دهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.

🧩 ایده‌ اصلی این است که مدل با شرط‌دهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنه‌های پیچیده و شلوغ.

🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روش‌های کلاسیک
♻️مقیاس‌پذیر برای کاربردهای AR/VR و نمایش سه‌بعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0

@rss_ai_ir

#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰64👏2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩فریم ورک DragMesh؛ ساخت و ویرایش تعاملی مدل‌های سه‌بعدی، ساده‌تر از همیشه

یک فریم‌ورک جدید و جذاب معرفی شده که به شما اجازه می‌دهد مدل‌های سه‌بعدی را به‌صورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون این‌که هر بار نیاز به آموزش مجدد مدل داشته باشید.

🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا می‌کند
🔹 با استفاده از DQ-VAE و شرطی‌سازی FiLM، حرکات طبیعی و قابل‌باور تولید می‌کند
🔹 روی اشیای جدید و ندیده‌شده هم به‌خوبی جواب می‌دهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستم‌های تعاملی سه‌بعدی

📅 تاریخ انتشار: ۶ دسامبر

🔗 لینک‌ها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیت‌هاب:
https://github.com/AIGeeksGroup/DragMesh

📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.

@rss_ai_ir

#هوش_مصنوعی #یادگیری_ماشین #مدل_سه‌بعدی #ComputerVision #3D #AI #Research