This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سهبعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Vision Bridge Transformer at Scale —
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘
👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سهبعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم میکند. ریپازیتوری منتشر شد 💙
👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA
#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سهبعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم میکند. ریپازیتوری منتشر شد 💙
👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA
#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
✨چارچوب H2R-Grounder: تبدیل ویدئوی تعامل انسان به ویدئوی ربات با درک فیزیکی 🤖🎥
📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که میتواند ویدئوهای تعامل انسان–شیء را بدون نیاز به دادههای جفتشده، به ویدئوهای واقعگرایانه از دستکاری رباتها تبدیل کند.
🧠 ایدهی اصلی چیست؟
این روش با استفاده از مدلهای مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکیمحور به رفتار ربات ترجمه میکند؛ یعنی رباتها میتوانند از ویدئوهای انسانی یاد بگیرند، بدون اینکه دادهی دقیق انسان–ربات در اختیار باشد.
🚀 چرا مهم است؟
• کاهش شدید هزینه جمعآوری داده برای آموزش رباتها
• یادگیری مهارتهای دستکاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاسپذیر رباتها با دادههای دنیای واقعی
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder
@rss_ai_ir
#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که میتواند ویدئوهای تعامل انسان–شیء را بدون نیاز به دادههای جفتشده، به ویدئوهای واقعگرایانه از دستکاری رباتها تبدیل کند.
🧠 ایدهی اصلی چیست؟
این روش با استفاده از مدلهای مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکیمحور به رفتار ربات ترجمه میکند؛ یعنی رباتها میتوانند از ویدئوهای انسانی یاد بگیرند، بدون اینکه دادهی دقیق انسان–ربات در اختیار باشد.
🚀 چرا مهم است؟
• کاهش شدید هزینه جمعآوری داده برای آموزش رباتها
• یادگیری مهارتهای دستکاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاسپذیر رباتها با دادههای دنیای واقعی
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder
@rss_ai_ir
#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚
❤6🎉6👍4🥰4👏4😁4🔥2
✨ StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠
🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تکتصویری ارائه میدهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.
🧩 ایده اصلی این است که مدل با شرطدهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنههای پیچیده و شلوغ.
🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روشهای کلاسیک
♻️مقیاسپذیر برای کاربردهای AR/VR و نمایش سهبعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0
@rss_ai_ir
#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠
🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تکتصویری ارائه میدهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.
🧩 ایده اصلی این است که مدل با شرطدهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنههای پیچیده و شلوغ.
🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روشهای کلاسیک
♻️مقیاسپذیر برای کاربردهای AR/VR و نمایش سهبعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0
@rss_ai_ir
#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰6❤4👏2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🧩فریم ورک DragMesh؛ ساخت و ویرایش تعاملی مدلهای سهبعدی، سادهتر از همیشه
یک فریمورک جدید و جذاب معرفی شده که به شما اجازه میدهد مدلهای سهبعدی را بهصورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون اینکه هر بار نیاز به آموزش مجدد مدل داشته باشید.
🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا میکند
🔹 با استفاده از DQ-VAE و شرطیسازی FiLM، حرکات طبیعی و قابلباور تولید میکند
🔹 روی اشیای جدید و ندیدهشده هم بهخوبی جواب میدهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستمهای تعاملی سهبعدی
📅 تاریخ انتشار: ۶ دسامبر
🔗 لینکها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیتهاب:
https://github.com/AIGeeksGroup/DragMesh
📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_ماشین #مدل_سهبعدی #ComputerVision #3D #AI #Research
یک فریمورک جدید و جذاب معرفی شده که به شما اجازه میدهد مدلهای سهبعدی را بهصورت زنده و تعاملی حرکت دهید و تغییر شکل بدهید، بدون اینکه هر بار نیاز به آموزش مجدد مدل داشته باشید.
🔹 اینکه DragMesh منطق حرکتی (kinematics) را از تولید حرکت جدا میکند
🔹 با استفاده از DQ-VAE و شرطیسازی FiLM، حرکات طبیعی و قابلباور تولید میکند
🔹 روی اشیای جدید و ندیدهشده هم بهخوبی جواب میدهد
🔹 مناسب برای طراحی، انیمیشن، بازی و سیستمهای تعاملی سهبعدی
📅 تاریخ انتشار: ۶ دسامبر
🔗 لینکها:
• مقاله:
https://arxiv.org/abs/2512.06424
• PDF:
https://arxiv.org/pdf/2512.06424
• پروژه:
https://aigeeksgroup.github.io/DragMesh/
• گیتهاب:
https://github.com/AIGeeksGroup/DragMesh
📌 یک قدم دیگر به سمت ابزارهای 3D هوشمند، تعاملی و بدون دردسر آموزش مدل.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_ماشین #مدل_سهبعدی #ComputerVision #3D #AI #Research