🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
🧠 DeepAnalyze:
مدل عاملمحور برای علم دادهی خودکار (Autonomous Data Science)
پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کردهاند — چارچوبی مبتنی بر Agentic LLM که میتواند بهصورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاکسازی دادهها تا مدلسازی و تفسیر نتایج. ⚙️📊
✨ ویژگیها:
✳️طراحیشده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عاملهای تخصصی (agents) برای تحلیل، مدلسازی و ارزیابی
✳️توانایی استدلال چندمرحلهای و تصمیمگیری دادهمحور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn
🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io
@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
مدل عاملمحور برای علم دادهی خودکار (Autonomous Data Science)
پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کردهاند — چارچوبی مبتنی بر Agentic LLM که میتواند بهصورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاکسازی دادهها تا مدلسازی و تفسیر نتایج. ⚙️📊
✨ ویژگیها:
✳️طراحیشده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عاملهای تخصصی (agents) برای تحلیل، مدلسازی و ارزیابی
✳️توانایی استدلال چندمرحلهای و تصمیمگیری دادهمحور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn
🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io
@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
❤1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
🤖 GaussGym:
انقلابی در آموزش رباتها از طریق پیکسلها — سریع، فتوواقعگرایانه و متنباز
فریمورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیهسازی رباتها ترکیب میکند. 🚀
این سیستم با استفاده از 3D Gaussian Splatting بهعنوان یک رندرکنندهی تعبیهشده در شبیهسازهای وکتوریزه (مانند IsaacGym)، قادر است سیاستهای بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090! ⚡
🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاستهای GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنههای فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدلسازی دستی سهبعدی
🔹 آموزش سیاستهای حرکت و ناوبری مستقیم از پیکسلها و انتقال آنها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونهی آزمایشی شامل بالا رفتن ربات از پلههای ۱۷ سانتیمتری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکتهای واقعگرایانه برای بهبود انتقال
تمامی کدها، دادهها، مدلها و دیتاستها بهصورت کاملاً متنباز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 دادهها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym
✨مدل GaussGym مرز بین سرعت و واقعگرایی را در رباتیک از بین برده و مسیر آموزش رباتها از تصاویر را واقعاً مقیاسپذیر کرده است.
@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
انقلابی در آموزش رباتها از طریق پیکسلها — سریع، فتوواقعگرایانه و متنباز
فریمورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیهسازی رباتها ترکیب میکند. 🚀
این سیستم با استفاده از 3D Gaussian Splatting بهعنوان یک رندرکنندهی تعبیهشده در شبیهسازهای وکتوریزه (مانند IsaacGym)، قادر است سیاستهای بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090! ⚡
🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاستهای GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنههای فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدلسازی دستی سهبعدی
🔹 آموزش سیاستهای حرکت و ناوبری مستقیم از پیکسلها و انتقال آنها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونهی آزمایشی شامل بالا رفتن ربات از پلههای ۱۷ سانتیمتری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکتهای واقعگرایانه برای بهبود انتقال
تمامی کدها، دادهها، مدلها و دیتاستها بهصورت کاملاً متنباز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 دادهها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym
✨مدل GaussGym مرز بین سرعت و واقعگرایی را در رباتیک از بین برده و مسیر آموزش رباتها از تصاویر را واقعاً مقیاسپذیر کرده است.
@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource