⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متنباز با سرعتی بیسابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
🌍 تنسنت نسخه جدید مدل بازسازی سهبعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)
نسخهی قبلی Hunyuan World 1.0 میتوانست تنها با یک تصویر یا توضیح متنی صحنههای سهبعدی بسازد — حتی روی کارتهای گرافیک معمولی!
اما حالا نسخهی جدید 1.1 یک جهش بزرگ کرده و قادر است جهانهای سهبعدی را از ویدیو یا تصاویر چندزاویهای بازسازی کند. 🎥🧠
🔹 ورودیهای متنوع:
مدل میتواند با هر نوع داده کار کند — ویدیو، عکس، نقشههای عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام میشود.
🔹 خروجیهای کامل:
نتیجه میتواند شامل باشد:
♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشههای عمق
♻️نرمالهای سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.
🔹 سرعت فوقالعاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی میکند ⚡️
🔗 پروژه:
3d-models.hunyuan.tencent.com/world
💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report
@rss_ai_ir
#هوش_مصنوعی #3D #تنسنت #مدلسازی_سهبعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
نسخهی قبلی Hunyuan World 1.0 میتوانست تنها با یک تصویر یا توضیح متنی صحنههای سهبعدی بسازد — حتی روی کارتهای گرافیک معمولی!
اما حالا نسخهی جدید 1.1 یک جهش بزرگ کرده و قادر است جهانهای سهبعدی را از ویدیو یا تصاویر چندزاویهای بازسازی کند. 🎥🧠
🔹 ورودیهای متنوع:
مدل میتواند با هر نوع داده کار کند — ویدیو، عکس، نقشههای عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام میشود.
🔹 خروجیهای کامل:
نتیجه میتواند شامل باشد:
♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشههای عمق
♻️نرمالهای سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.
🔹 سرعت فوقالعاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی میکند ⚡️
🔗 پروژه:
3d-models.hunyuan.tencent.com/world
💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report
@rss_ai_ir
#هوش_مصنوعی #3D #تنسنت #مدلسازی_سهبعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
Tencent
腾讯混元3D
腾讯混元3D生成模型基于Diffusion技术,支持文本和图像生成3D资产。该模型配备精心设计的文本和图像编码器、扩散模型及3D解码器,能够实现多视图生成、重建及单视图生成。腾讯混元3D大模型可快速生成精美3D物体,适用于多种下游应用。
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
🧠 DeepAnalyze:
مدل عاملمحور برای علم دادهی خودکار (Autonomous Data Science)
پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کردهاند — چارچوبی مبتنی بر Agentic LLM که میتواند بهصورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاکسازی دادهها تا مدلسازی و تفسیر نتایج. ⚙️📊
✨ ویژگیها:
✳️طراحیشده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عاملهای تخصصی (agents) برای تحلیل، مدلسازی و ارزیابی
✳️توانایی استدلال چندمرحلهای و تصمیمگیری دادهمحور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn
🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io
@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
مدل عاملمحور برای علم دادهی خودکار (Autonomous Data Science)
پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کردهاند — چارچوبی مبتنی بر Agentic LLM که میتواند بهصورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاکسازی دادهها تا مدلسازی و تفسیر نتایج. ⚙️📊
✨ ویژگیها:
✳️طراحیشده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عاملهای تخصصی (agents) برای تحلیل، مدلسازی و ارزیابی
✳️توانایی استدلال چندمرحلهای و تصمیمگیری دادهمحور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn
🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io
@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
❤1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
👍2🔥1👏1