VIRSUN
6.14K subscribers
1.03K photos
591 videos
5 files
659 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئو‌سازی تعاملیِ بلادرنگ

مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی به‌صورت Real-time است. حین تولید می‌توانید پشت‌سرهم پرامپت بدهید و مدل همان‌جا مسیر ویدئو را تغییر دهد.

چرا مهم است؟

⏱️ پاسخ‌دهی بلادرنگ؛ مناسب استریم و تجربه‌های تعاملی

🧠 تولید فریم‌به‌فریم = کنترل دقیق صحنه و تداوم داستان

🧩 پشتیبانی از پرامپت‌های پی‌در‌پی (sequential prompts)

🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)


لینک‌ها:

Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B

#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!

🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایه‌ی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️

🔁 تفاوت اصلی RND1 با مدل‌های معمولی مثل GPT در این است که: مدل‌های کلاسیک (Autoregressive) متن را کلمه به کلمه تولید می‌کنند،
اما RND1 کل جمله را به‌صورت همزمان می‌سازد و سپس در چند مرحله آن را دقیق‌تر می‌کند — درست مثل مدل‌های دیفیوژنی که تصویر را از «نویز» بیرون می‌کشند. 🎨


---

🚀 چطور ساخته شد؟

تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!

این فرآیند را AR-to-Diffusion Conversion (A2D) می‌نامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی داده‌های جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخش‌های مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩


---

⚙️ ویژگی‌های کلیدی

🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال می‌شوند → سرعت بالا و بهره‌وری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمی‌شود، بلکه در منطق جدید ادغام می‌شود.

🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهده‌ی هم‌زمان کل توکن‌ها.


---

چرا اهمیت دارد؟

تولید موازی متن — بدون تأخیر گام‌به‌گام
مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
معماری هیبریدی بین AR و DLM
کاملاً متن‌باز (کد، گزارش و وزن‌ها در دسترس‌اند)
گامی مهم به‌سوی هوش خودبهبودیاب (RSI)؛ مدلی که می‌تواند خودش را طراحی و بهبود دهد 🤖


---

📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزن‌ها:
huggingface.co/radicalnumerics/RND1-Base-0910


---

📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Mesh2Motion — نسخه‌ی اپن‌سورس Mixamo در مرورگر!

اگر با Mixamo کار کرده‌اید، حالا می‌توانید نسخه‌ی آزاد و کاملاً تحت وب آن را امتحان کنید:
Mesh2Motion 👇

💡 کافی است مدل سه‌بعدی خود را آپلود کنید —
سیستم به‌صورت خودکار ریگ (Rig) را ایجاد می‌کند، با قابلیت ویرایش دستی،
و سپس می‌توانید انیمیشن دلخواهتان را روی آن اعمال کرده و در نهایت خروجی بگیرید (📦 GLB / GLTF).
---
⚙️ امکانات اصلی:

♻️رینگ خودکار با کنترل‌های دقیق تنظیم دستی
♻️اعمال انیمیشن آماده یا سفارشی
♻️پشتیبانی از مرورگر، بدون نصب هیچ نرم‌افزاری
♻️خروجی سازگار با تمامی موتورهای سه‌بعدی (Blender, Unity, Unreal و غیره)

---

🌐 سایت: mesh2motion.org
🎬 دمو: app.mesh2motion.org
💻 کد منبع: github.com/scottpetrovic/mesh2motion-app

@rss_ai_ir
#3D #Mesh2Motion #Rigging #Animation #OpenSource #Blender #Unreal #Unity #AI #WebTools
👍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 بساز انسان‌نمای خودت!

پروژه‌ی OpenArm یک طرح کاملاً متن‌باز برای ساخت ربات انسان‌نماست که هرچیزی برای شروع لازم دارید را در اختیارتان می‌گذارد — از مدل‌های CAD و فریمور تا نرم‌افزار کنترل و شبیه‌سازها.

🦾 با این سیستم می‌تونید بازوهای رباتیک بسازید، تغییر بدید و کنترل کنید؛
پشتیبانی از تله‌اپراسیون با فیدبک نیرویی و جبران گرانش باعث میشه کنترل بازو طبیعی و دقیق باشه.

💡 یکپارچه با MuJoCo و Isaac Sim — می‌تونید قبل از اجرای واقعی، کنترل و حرکت‌ها رو در محیط مجازی تست کنید.

🔩 هدف پروژه ساده است:
دموکراتیزه کردن رباتیک — تا هر پژوهشگر، استارتاپ یا علاقه‌مند بتونه از مرحله‌ی ایده به ربات واقعی برسه.
می‌تونید خودتون بسازید یا نسخه‌ی آماده سفارش بدید.

توسعه‌دهنده: Enactic (توکیو، ژاپن) 🇯🇵
GitHub: github.com/enactic/OpenArm

@rss_ai_ir

#OpenSource #Robot #Humanoid #Robotics #AI #Engineering #Enactic
3
🤗 چه کسانی واقعاً محرک هوش مصنوعی متن‌باز هستند؟
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face

---
📊 مطالعه‌ی جدید نشان می‌دهد که کدام سازمان‌ها و چه نوع مدل‌هایی ستون فقرات اکوسیستم open-source AI را تشکیل می‌دهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدل‌ها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص داده‌اند.
یعنی بیشتر فعالیت‌ها حول محور گروه کوچکی از رهبران می‌چرخد — همان‌هایی که چهره‌ی اصلی AI متن‌باز را می‌سازند.


---

📉 اندازه مهم است (کوچک‌تر = بهتر):

♻️۹۲.۵٪ دانلودها مربوط به مدل‌هایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون


نتیجه واضح است: در دنیای open-source، مدل‌های سبک، سریع و قابل اجرا روی دستگاه‌های محلی برنده‌اند.
---

🧠 محبوب‌ترین حوزه‌ها:

♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️داده‌های زمانی — ۱.۷٪
---

🏢 چه کسانی این مدل‌ها را می‌سازند؟

♻️شرکت‌ها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاه‌ها — ۲۰.۷٪
♻️توسعه‌دهندگان مستقل — ۱۲.۱٪
♻️سازمان‌های غیرانتفاعی — ۳.۸٪
♻️آزمایشگاه‌های دیگر — ۰.۳٪
---

⚙️ چه نوع مدل‌هایی محبوب‌ترند؟

♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪

📌 بر خلاف هیاهوی رسانه‌ای پیرامون LLMها، کاربران عمدتاً مدل‌های کاربردی و کوچک را دانلود می‌کنند که به راحتی در محصولات واقعی ادغام می‌شوند.

---

🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:

♻️۱۸ بار در میان ۵۰ مدل برتر دیده می‌شود.
♻️۵۶.۴٪ از کل دانلودها از مدل‌های ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متن‌باز نه به لطف غول‌هایی با تریلیون پارامتر، بلکه به کمک مدل‌های فشرده، سریع و کاربردی زنده است — همان‌هایی که واقعاً در پروژه‌ها و محصولات استفاده می‌شوند.

---

📖 منبع کامل: Hugging Face Blog
@rss_ai_ir

#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
👍1
⚡️ Omni-Embed-Nemotron —
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو

انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانه‌ای یکپارچه برای تبدیل انواع داده‌ها به نمایش برداری مشترک (Unified Embedding).

🎯 ویژگی‌های کلیدی:

پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو

مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)

طول زمینه تا ۳۲٬۷۶۸ توکن

اندازه‌ی بردار نهائی (Embedding) برابر ۲۰۴۸

بهینه‌شده برای GPU و پشتیبانی از FlashAttention 2


🚀 کاربردها:

♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)

♻️بهبود پروژه‌های RAG (Retrieval-Augmented Generation)

♻️توسعه سیستم‌های درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان داده‌های متنی و دیداری را از میان برمی‌دارد.

🌐 مدل متن‌باز:
huggingface.co/nvidia/omni-embed-nemotron-3b

#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش


در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
🌍 تنسنت نسخه جدید مدل بازسازی سه‌بعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)

نسخه‌ی قبلی Hunyuan World 1.0 می‌توانست تنها با یک تصویر یا توضیح متنی صحنه‌های سه‌بعدی بسازد — حتی روی کارت‌های گرافیک معمولی!
اما حالا نسخه‌ی جدید 1.1 یک جهش بزرگ کرده و قادر است جهان‌های سه‌بعدی را از ویدیو یا تصاویر چندزاویه‌ای بازسازی کند. 🎥🧠

🔹 ورودی‌های متنوع:
مدل می‌تواند با هر نوع داده کار کند — ویدیو، عکس، نقشه‌های عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام می‌شود.

🔹 خروجی‌های کامل:
نتیجه می‌تواند شامل باشد:

♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشه‌های عمق
♻️نرمال‌های سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.


🔹 سرعت فوق‌العاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی می‌کند ⚡️

🔗 پروژه:
3d-models.hunyuan.tencent.com/world

💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror

🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report

@rss_ai_ir

#هوش_مصنوعی #3D #تنسنت #مدلسازی_سه‌بعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
🧠 DeepAnalyze:
مدل عامل‌محور برای علم داده‌ی خودکار (Autonomous Data Science)

پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کرده‌اند — چارچوبی مبتنی بر Agentic LLM که می‌تواند به‌صورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاک‌سازی داده‌ها تا مدل‌سازی و تفسیر نتایج. ⚙️📊

ویژگی‌ها:

✳️طراحی‌شده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عامل‌های تخصصی (agents) برای تحلیل، مدل‌سازی و ارزیابی
✳️توانایی استدلال چندمرحله‌ای و تصمیم‌گیری داده‌محور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn


🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io

@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖

مدل OmniNWM یک سیستم یکپارچه‌ی جهان‌محور و پانورامیک است که آینده‌ی رانندگی خودکار را متحول می‌کند.
این مدل می‌تواند حالت‌های چندوجهی (multi-modal states) شامل تصویر RGB، نقشه‌های معنایی، عمق و اشغال سه‌بعدی (3D occupancy) را به‌صورت همزمان تولید کند.

ویژگی‌های کلیدی:

♻️تولید هم‌زمان داده‌های تصویری، عمقی و فضایی برای درک کامل محیط؛

♻️کنترل دقیق حرکات و تصمیم‌گیری‌ها در لحظه؛

♻️ارزیابی بسته (closed-loop) با پاداش‌های متراکم مبتنی بر اشغال فضا؛

♻️اجرای سریع و بهینه روی GPU.


📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.

🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp

@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠

محققان دانشگاه Caltech مجموعه‌بنچ‌مارک جدیدی به نام ITTO معرفی کرده‌اند —
سیستمی برای ارزیابی و تحلیل روش‌های ردیابی در حرکات پیچیده و بلندمدت 🔍

💡 ویژگی‌ها:

♻️طراحی‌شده برای حرکات طولانی، پیچیده و غیرخطی

♻️تمرکز بر ارزیابی پایداری در فریم‌های زیاد

♻️مناسب برای آموزش و تست الگوریتم‌های بینایی ماشین در سناریوهای واقعی


📘 مجوز: CC BY-NC 4.0 — استفاده‌ی آزاد برای اهداف پژوهشی

🔗 لینک‌ها:
📄 مقاله
🌐 پروژه
💾 کد منبع

@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!

روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متن‌باز بتونه به سطح مدل‌های بسته‌ی شرکت‌های بزرگ برسه 💥

🧠 مدل gpt-oss-120b موفق شد در المپیاد بین‌المللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇

📊 چطور کار می‌کنه؟
مدل هزاران راه‌حل برنامه‌نویسی تولید می‌کنه،
اون‌ها رو تست و گروه‌بندی می‌کنه،
و بین بهترین‌ها یک «تورنمنت هوش مصنوعی» برگزار می‌کنه،
که داوری‌اش هم با یک مدل هوش مصنوعی دیگه‌ست 😎

📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئله‌ی سطح انسانی توسط مدل‌های باز

📄 جزئیات مقاله:

🔗 arxiv.org/abs/2510.14232v1

#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخه‌ی جدید مدل متن‌باز تولید جهان سه‌بعدی از Tencent Hunyuan

در حالی‌که نسخه‌ی قبلی Hunyuan World 1.0 برای ساخت جهان‌های سه‌بعدی از متن یا تصاویر تک‌زاویه‌ای طراحی شده بود و روی GPUهای معمولی اجرا می‌شد، نسخه‌ی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویه‌ای پشتیبانی می‌کند.

🎯 ویژگی‌های کلیدی:

ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی می‌کند و ساختار سه‌بعدی دقیق و بدون اعوجاج می‌سازد.

خروجی آزاد (Any Output): تولید هم‌زمان چندین نمای سه‌بعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.

سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگی‌های سه‌بعدی را تنها در چند ثانیه و در یک GPU تولید می‌کند.


⚙️ این مدل به‌نوعی ادامه‌ی مسیر تکاملی مدل‌های تولید ویدیو است — با این تفاوت که حالا می‌تواند جهان‌های کامل را بازسازی کند.
در حالی‌که گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.

💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF

@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سه‌بعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدل‌های چندوجهی (Multimodal)

فریم‌ورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدل‌هایی که هم‌زمان می‌توانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️

🎯 ویژگی‌ها:

پشتیبانی از بیش از ۱۹ معماری مختلف:

🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن

🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت

🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)

🌫 dLLM:
مدل‌های زبانی دیفیوژنی

🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدل‌های پیشرفته



📜 لایسنس: Apache 2.0 — قابل‌استفاده حتی در پروژه‌های تجاری

🔗 گیت‌هاب:
github.com/EvolvingLMMs-Lab/lmms-engine

@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگ‌گیری هوشمند با پشتیبانی از هوش مصنوعی

ابزار Dev3000 تمام رویدادهای توسعه‌ی وب‌اپلیکیشن شما را به‌صورت زمانی ثبت می‌کند — از لاگ‌های سرور و رویدادهای مرورگر تا اسکرین‌شات‌های خودکار.
با این روش، ابزارهایی مثل Claude می‌توانند تمام داده‌ها را یکجا تحلیل کنند و در عیب‌یابی به شما کمک کنند. 🤖

🚀 ویژگی‌های کلیدی:

ذخیره‌ی لاگ‌ها با زمان‌بندی دقیق ⏱️

ثبت خودکار اسکرین‌شات‌ها هنگام خطا یا جابه‌جایی در صفحات 📸

پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖

جستجو و فیلتر سریع بین لاگ‌ها 🔍

رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡


📎 GitHub:
github.com/vercel-labs/dev3000

@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource