VIRSUN

⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش

در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention

👍1🔥1👏1

2.7K viewsedited 14:24

VIRSUN

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

🦄 City-Tour → Simulation 🦄

پروژه‌ی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیط‌های شبیه‌سازی تعاملی و مبتنی بر فیزیک تبدیل می‌کند.

🎯 هدف اصلی آن، ایجاد بستری مقیاس‌پذیر برای یادگیری ربات‌ها در فضاهای شهری واقعی است — جایی که مدل‌ها بتوانند بین دنیای شبیه‌سازی و واقعیت تعمیم‌پذیری واقعی پیدا کنند.

💡 ویژگی‌ها:

✳️تبدیل ویدیوهای شهری واقعی به شبیه‌سازی‌های فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش ربات‌ها در محیط‌های شهری متنوع و واقعی

📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — به‌زودی منتشر می‌شود

#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation

1.45K views09:25

VIRSUN

👏 پژوهش فوق‌العاده از NVIDIA و MIT

پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدل‌های زبانی بزرگ با یادگیری تقویتی ارائه کرده‌اند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته می‌شود.

💡 ایده اصلی:
استفاده از وزن‌های ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث می‌شود مدل‌ها سریع‌تر و کم‌هزینه‌تر یاد بگیرند.

📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rollout‌ها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!

📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.

🔧 نوآوری QeRL:

♻️استفاده از وزن‌های NVFP4 با کمک Marlin

♻️نگهداری LoRA فقط برای گرادیان‌ها (صرفه‌جویی در حافظه)

♻️استفاده از یک نسخه‌ی ۴ بیتی از سیاست (policy) برای هر دو مرحله‌ی rollout و scoring — بدون تکرار حافظه

🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزن‌های کوانتیزه‌شده باعث افزایش تنوع (entropy) در خروجی‌ها می‌شود —
مدل بهتر فضای پاسخ را کاوش می‌کند.
با کاهش تدریجی نویز، پایداری حفظ می‌شود و همه چیز با RMSNorm ادغام می‌گردد — بدون اضافه شدن پارامتر جدید.

📊 نتایج آزمایشی:

پاداش‌ها سریع‌تر رشد می‌کنند

دقت برابر یا بالاتر از مدل‌های LoRA و QLoRA با دقت ۱۶ بیت

⚡ خلاصه:
سریع‌تر، کم‌هزینه‌تر و بهینه‌تر از روش‌های قبلی.
اکنون می‌توان مدل‌های بزرگ را واقعاً روی تنها یک GPU آموزش داد.

📄 متن کامل مقاله

#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning

1.43K views09:28

VIRSUN

🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.

---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪

در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).

---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License

🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub

@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI

🔥1👏1

1.47K views15:17

VIRSUN

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning

1.47K views06:55

VIRSUN

💡 گوگل پلتفرم جدیدی به نام Skills راه‌اندازی کرد — بستری آزاد برای یادگیری مهارت‌های هوش مصنوعی!

در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایه‌ی Python و یادگیری ماشین تا مباحث پیشرفته‌ی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش می‌دهد. 🚀

📘 چیزهایی که می‌توانید یاد بگیرید:

✳️ادغام هوش مصنوعی مولد در پایپلاین داده‌ها
✳️استقرار (Deploy) و نگهداری مدل‌های یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعه‌ی Google Cloud Innovators

🔹 دوره‌ها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شده‌اند.
🔹 در پایان، گواهینامه رسمی دریافت می‌کنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓

✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دوره‌ها:
skills.google/catalog

@rss_ai_ir

#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI

❤3

1.58K views17:56

VIRSUN

animation.gif

11.5 MB

🎓 یادگیری فدرال (Federated Learning) — آینده‌ی آموزش هوش مصنوعی بدون نیاز به داده‌های متمرکز

در دنیای امروز، داده شخصی‌ترین دارایی ماست — از اطلاعات تلفن همراه گرفته تا سوابق پزشکی. اما چگونه می‌توان مدل‌های هوش مصنوعی را آموزش داد بدون آنکه داده‌ها از دستگاه کاربران خارج شوند؟

🔹 پاسخ: یادگیری فدرال (Federated Learning)

در این روش، به‌جای ارسال داده‌ها به سرور مرکزی، مدل به سراغ داده‌ها می‌رود. هر دستگاه (مثل موبایل، لپ‌تاپ یا حسگر صنعتی) نسخه‌ای از مدل را به‌صورت محلی آموزش می‌دهد و فقط وزن‌ها (Weights) را به اشتراک می‌گذارد، نه خود داده‌ها.

💡 مراحل کلی فرآیند:
1️⃣ مدل مرکزی به همه دستگاه‌ها ارسال می‌شود.
2️⃣ هر دستگاه مدل را با داده‌های خودش به‌روزرسانی می‌کند.
3️⃣ فقط وزن‌های جدید ارسال می‌شود.
4️⃣ سرور مرکزی این وزن‌ها را ترکیب کرده و مدل به‌روزرسانی‌شده را برمی‌گرداند.

✅ مزایا:
حفظ حریم خصوصی کاربران 🔒
کاهش ترافیک داده و هزینه انتقال 🌐
یادگیری از منابع متنوع در نقاط مختلف جهان 🌍

مناسب برای سیستم‌های IoT و موبایل 📱
🚀 شرکت‌هایی مانند Google, Apple و NVIDIA سال‌هاست از این روش برای بهبود مدل‌های کیبورد، تشخیص گفتار و سلامت استفاده می‌کنند.

📌 در آینده، یادگیری فدرال می‌تواند سنگ‌بنای «هوش مصنوعی توزیع‌شده» شود — جایی که هر دستگاه، بخشی از مغز جهانی هوش مصنوعی خواهد بود.

@rss_ai_ir
#هوش_مصنوعی #یادگیری_فدرال #FederatedLearning #AI #Privacy #MachineLearning #EdgeAI

👏3❤1🔥1

308 views04:59

VIRSUN

🧠 فرمت ONNX — زبان مشترک مدل‌های هوش مصنوعی

در دنیای یادگیری عمیق، هر فریم‌ورک (مثل PyTorch، TensorFlow یا Scikit-learn) مدل‌ها را به فرمت مخصوص خودش ذخیره می‌کند.
اما اگر بخواهیم مدلی را در پایتورچ آموزش دهیم و بعد در محیط دیگری مثل OpenCV، C++، یا موبایل اجرا کنیم چه؟ 🤔

🔹 پاسخ: ONNX (Open Neural Network Exchange)

فرمت ONNX یک فرمت استاندارد و متن‌باز است که برای انتقال و اجرای مدل‌های هوش مصنوعی در پلتفرم‌های مختلف طراحی شده است.

💡 به زبان ساده:
فرمت ONNX مثل فایل PDF برای مدل‌های هوش مصنوعی است —
فرقی نمی‌کند در چه فریم‌ورکی ساخته شده، در هر جایی باز و اجرا می‌شود.

⚙️ مزایا:

♻️انتقال آسان مدل‌ها بین فریم‌ورک‌ها (PyTorch → TensorFlow → OpenCV) 🔄

♻️اجرا روی دستگاه‌های مختلف (CPU، GPU، موبایل، Edge) ⚙️

♻️پشتیبانی از بهینه‌سازها مثل ONNX Runtime برای سرعت بیشتر 🚀

♻️پشتیبانی رسمی توسط شرکت‌هایی مثل Microsoft, NVIDIA, Meta و Intel 💼

📦 مثال:
در پایتورچ، می‌توان مدل را با یک خط کد به ONNX صادر کرد:

torch.onnx.export(model, inputs, "model.onnx")

و سپس با ONNX Runtime در هر محیطی اجرا کرد:

import onnxruntime as ort  
session = ort.InferenceSession("model.onnx")  
outputs = session.run(None, {"input": data})

🌍 کاربردهای رایج:

♻️به‌کارگیری مدل‌ها در سیستم‌های صنعتی
♻️اجرای مدل‌ها روی وب یا موبایل
♻️ترکیب مدل‌های ساخته‌شده در فریم‌ورک‌های مختلف

📌 فرمتONNX پلی است میان آموزش و استقرار —
به کمک آن، مدل شما می‌تواند از آزمایشگاه تا دنیای واقعی سفر کند 🌐

@rss_ai_ir
#هوش_مصنوعی #ONNX #DeepLearning #AI #PyTorch #TensorFlow #MachineLearning #EdgeAI

❤4🔥2👌2🙏1

340 views05:03

VIRSUN

🚀 NVIDIA
دوباره صحنه رو آتیش زد!

روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متن‌باز بتونه به سطح مدل‌های بسته‌ی شرکت‌های بزرگ برسه 💥

🧠 مدل gpt-oss-120b موفق شد در المپیاد بین‌المللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇

📊 چطور کار می‌کنه؟
مدل هزاران راه‌حل برنامه‌نویسی تولید می‌کنه،
اون‌ها رو تست و گروه‌بندی می‌کنه،
و بین بهترین‌ها یک «تورنمنت هوش مصنوعی» برگزار می‌کنه،
که داوری‌اش هم با یک مدل هوش مصنوعی دیگه‌ست 😎

📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئله‌ی سطح انسانی توسط مدل‌های باز

📄 جزئیات مقاله:

🔗 arxiv.org/abs/2510.14232v1

#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025

❤1👏1

1.5K viewsedited 09:31

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ درک شهودی از مکانیزم توجه (Attention Mechanism)

یکی از بهترین و ساده‌ترین بصری‌سازی‌هایی که تا حالا از مکانیزم توجه در ترنسفورمرها منتشر شده — مفهومی که خیلی از توسعه‌دهندگان سال‌ها طول کشید تا به‌صورت شهودی آن را درک کنند. 🎯

در نگاه اول، فرمول ساده به نظر می‌رسد؛
می‌توان آن را حفظ کرد و حتی بازنویسی کرد،
اما درک عمیق اینکه چطور Q (Query)، K (Key) و V (Value) با هم تعامل دارند، چیز دیگری‌ست. 🧠

این ویدیو یا شماتیک دقیقاً همان چیزی است که کمک می‌کند درون ترنسفورمر را «ببینیم» — جایی که مدل یاد می‌گیرد چگونه توجه را میان بخش‌های مختلف داده توزیع کند.

@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #ترنسفورمر #LLM #Attention #MachineLearning

1.49K views15:19

About

Blog

Apps

Platform