VIRSUN
10.3K subscribers
1.11K photos
667 videos
5 files
740 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش


در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
🌍 تنسنت نسخه جدید مدل بازسازی سه‌بعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)

نسخه‌ی قبلی Hunyuan World 1.0 می‌توانست تنها با یک تصویر یا توضیح متنی صحنه‌های سه‌بعدی بسازد — حتی روی کارت‌های گرافیک معمولی!
اما حالا نسخه‌ی جدید 1.1 یک جهش بزرگ کرده و قادر است جهان‌های سه‌بعدی را از ویدیو یا تصاویر چندزاویه‌ای بازسازی کند. 🎥🧠

🔹 ورودی‌های متنوع:
مدل می‌تواند با هر نوع داده کار کند — ویدیو، عکس، نقشه‌های عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام می‌شود.

🔹 خروجی‌های کامل:
نتیجه می‌تواند شامل باشد:

♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشه‌های عمق
♻️نرمال‌های سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.


🔹 سرعت فوق‌العاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی می‌کند ⚡️

🔗 پروژه:
3d-models.hunyuan.tencent.com/world

💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror

🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report

@rss_ai_ir

#هوش_مصنوعی #3D #تنسنت #مدلسازی_سه‌بعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
🧠 DeepAnalyze:
مدل عامل‌محور برای علم داده‌ی خودکار (Autonomous Data Science)

پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کرده‌اند — چارچوبی مبتنی بر Agentic LLM که می‌تواند به‌صورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاک‌سازی داده‌ها تا مدل‌سازی و تفسیر نتایج. ⚙️📊

ویژگی‌ها:

✳️طراحی‌شده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عامل‌های تخصصی (agents) برای تحلیل، مدل‌سازی و ارزیابی
✳️توانایی استدلال چندمرحله‌ای و تصمیم‌گیری داده‌محور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn


🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io

@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖

مدل OmniNWM یک سیستم یکپارچه‌ی جهان‌محور و پانورامیک است که آینده‌ی رانندگی خودکار را متحول می‌کند.
این مدل می‌تواند حالت‌های چندوجهی (multi-modal states) شامل تصویر RGB، نقشه‌های معنایی، عمق و اشغال سه‌بعدی (3D occupancy) را به‌صورت همزمان تولید کند.

ویژگی‌های کلیدی:

♻️تولید هم‌زمان داده‌های تصویری، عمقی و فضایی برای درک کامل محیط؛

♻️کنترل دقیق حرکات و تصمیم‌گیری‌ها در لحظه؛

♻️ارزیابی بسته (closed-loop) با پاداش‌های متراکم مبتنی بر اشغال فضا؛

♻️اجرای سریع و بهینه روی GPU.


📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.

🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp

@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠

محققان دانشگاه Caltech مجموعه‌بنچ‌مارک جدیدی به نام ITTO معرفی کرده‌اند —
سیستمی برای ارزیابی و تحلیل روش‌های ردیابی در حرکات پیچیده و بلندمدت 🔍

💡 ویژگی‌ها:

♻️طراحی‌شده برای حرکات طولانی، پیچیده و غیرخطی

♻️تمرکز بر ارزیابی پایداری در فریم‌های زیاد

♻️مناسب برای آموزش و تست الگوریتم‌های بینایی ماشین در سناریوهای واقعی


📘 مجوز: CC BY-NC 4.0 — استفاده‌ی آزاد برای اهداف پژوهشی

🔗 لینک‌ها:
📄 مقاله
🌐 پروژه
💾 کد منبع

@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!

روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متن‌باز بتونه به سطح مدل‌های بسته‌ی شرکت‌های بزرگ برسه 💥

🧠 مدل gpt-oss-120b موفق شد در المپیاد بین‌المللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇

📊 چطور کار می‌کنه؟
مدل هزاران راه‌حل برنامه‌نویسی تولید می‌کنه،
اون‌ها رو تست و گروه‌بندی می‌کنه،
و بین بهترین‌ها یک «تورنمنت هوش مصنوعی» برگزار می‌کنه،
که داوری‌اش هم با یک مدل هوش مصنوعی دیگه‌ست 😎

📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئله‌ی سطح انسانی توسط مدل‌های باز

📄 جزئیات مقاله:

🔗 arxiv.org/abs/2510.14232v1

#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخه‌ی جدید مدل متن‌باز تولید جهان سه‌بعدی از Tencent Hunyuan

در حالی‌که نسخه‌ی قبلی Hunyuan World 1.0 برای ساخت جهان‌های سه‌بعدی از متن یا تصاویر تک‌زاویه‌ای طراحی شده بود و روی GPUهای معمولی اجرا می‌شد، نسخه‌ی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویه‌ای پشتیبانی می‌کند.

🎯 ویژگی‌های کلیدی:

ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی می‌کند و ساختار سه‌بعدی دقیق و بدون اعوجاج می‌سازد.

خروجی آزاد (Any Output): تولید هم‌زمان چندین نمای سه‌بعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.

سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگی‌های سه‌بعدی را تنها در چند ثانیه و در یک GPU تولید می‌کند.


⚙️ این مدل به‌نوعی ادامه‌ی مسیر تکاملی مدل‌های تولید ویدیو است — با این تفاوت که حالا می‌تواند جهان‌های کامل را بازسازی کند.
در حالی‌که گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.

💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF

@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سه‌بعدی #مدل_تولیدی
👍2🔥1👏1