🚀 در ByteDance Seed تکنیک جدیدی برای آموزش LLM معرفی شد: Knapsack RL
🔍 مشکل در RL کلاسیک:
در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان
💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کولهپشتی (Knapsack) روی مواردی صرف میشود که واقعاً سیگنال آموزشی میدهند.
✨ نتایج:
🔼 +20–40% گرادیانهای غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 +2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 حدوداً دو برابر ارزانتر از روش توزیع یکنواخت
📄 جزییات بیشتر:
huggingface.co/papers/2509.25849
@rss_ai_ir 🤖
#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
🔍 مشکل در RL کلاسیک:
در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان
💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کولهپشتی (Knapsack) روی مواردی صرف میشود که واقعاً سیگنال آموزشی میدهند.
✨ نتایج:
🔼 +20–40% گرادیانهای غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 +2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 حدوداً دو برابر ارزانتر از روش توزیع یکنواخت
📄 جزییات بیشتر:
huggingface.co/papers/2509.25849
@rss_ai_ir 🤖
#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
🎓 استنفورد مجموعهای جدید از درسهای رایگان هوش مصنوعی با تدریس اندرو اِنجی منتشر کرد
⛔️دانشگاه Stanford مجموعهای تازه از درسهای آزاد (Open Lectures) در زمینه هوش مصنوعی و یادگیری ماشین را با تدریس مستقیم Andrew Ng — بنیانگذار Coursera و از پیشگامان آموزش مدرن هوش مصنوعی — منتشر کرده است. 🤖📚
---
🧠 محتوای دوره:
✳️آموزش شبکههای عصبی و اصول آموزش مدلهای AI
✳️طراحی و ساخت عاملهای هوشمند (AI Agents)
✳️نکات حرفهای برای پیشرفت شغلی در حوزه هوش مصنوعی
✳️تمرینهای عملی با فریمورکهای مدرن AI (مثل PyTorch و TensorFlow)
✳️مناسب برای مبتدیان تا متخصصان حرفهای
---
💡 این دوره بخشی از برنامه جهانی دانشگاه استنفورد برای دسترسی همگانی به آموزشهای AI است و بهصورت کاملاً رایگان منتشر میشود.
📘 لینک دوره:
Stanford AI Lectures – Andrew Ng
https://www.youtube.com/watch?v=_NLHFoVNlbg
👨🏫 اندرو اِنجی همچنان همان کاری را انجام میدهد که مدلهای هوش مصنوعی از آن ناتواناند:
آموزش انسانها برای تفکر مانند ماشینها. 💬
#AI #MachineLearning #Stanford #AndrewNg #Education #Coursera #DeepLearning @rss_ai_ir
⛔️دانشگاه Stanford مجموعهای تازه از درسهای آزاد (Open Lectures) در زمینه هوش مصنوعی و یادگیری ماشین را با تدریس مستقیم Andrew Ng — بنیانگذار Coursera و از پیشگامان آموزش مدرن هوش مصنوعی — منتشر کرده است. 🤖📚
---
🧠 محتوای دوره:
✳️آموزش شبکههای عصبی و اصول آموزش مدلهای AI
✳️طراحی و ساخت عاملهای هوشمند (AI Agents)
✳️نکات حرفهای برای پیشرفت شغلی در حوزه هوش مصنوعی
✳️تمرینهای عملی با فریمورکهای مدرن AI (مثل PyTorch و TensorFlow)
✳️مناسب برای مبتدیان تا متخصصان حرفهای
---
💡 این دوره بخشی از برنامه جهانی دانشگاه استنفورد برای دسترسی همگانی به آموزشهای AI است و بهصورت کاملاً رایگان منتشر میشود.
📘 لینک دوره:
Stanford AI Lectures – Andrew Ng
https://www.youtube.com/watch?v=_NLHFoVNlbg
👨🏫 اندرو اِنجی همچنان همان کاری را انجام میدهد که مدلهای هوش مصنوعی از آن ناتواناند:
آموزش انسانها برای تفکر مانند ماشینها. 💬
#AI #MachineLearning #Stanford #AndrewNg #Education #Coursera #DeepLearning @rss_ai_ir
👍2
🔥 پژوهشی تازه نشان میدهد که GPT-6 ممکن است نه فقط هوشمندتر، بلکه از نظر محاسباتی «زنده» باشد!
🧠 مقالهای با عنوان SEAL (Self-Adapting Language Models) در arXiv:2506.10943 منتشر شده که توضیح میدهد چگونه یک مدل زبانی میتواند پس از استقرار در دنیای واقعی، به یادگیری مداوم ادامه دهد — بدون نیاز به بازآموزی (retraining).
چند نفر از نویسندگان SEAL اکنون در OpenAI فعالیت میکنند 👀 و احتمال زیادی وجود دارد که این فناوری در GPT-6 به کار گرفته شود.
ویژگیهای کلیدی SEAL:
📚 یادگیری از دادههای جدید در زمان واقعی
🔧 ترمیم خودکار دانش تخریبشده
🧩 ایجاد حافظههای پایدار در میان جلسات مختلف
اگر GPT-6 این معماری را بپذیرد، دیگر صرفاً از دادهها استفاده نخواهد کرد — بلکه آنها را جذب میکند.
مدلی که با تغییر جهان، خودش هم تغییر میکند و هر روز بهتر میشود.
📈 این میتواند آغاز عصر یادگیری پیوسته باشد — پایانی بر دورهی مدلهای ثابت و منجمد.
به فصل جدید خوش آمدید.
https://arxiv.org/abs/2506.10943
@rss_ai_ir
#GPT6 #OpenAI #SEAL #AI #ContinuousLearning #MachineLearning
🧠 مقالهای با عنوان SEAL (Self-Adapting Language Models) در arXiv:2506.10943 منتشر شده که توضیح میدهد چگونه یک مدل زبانی میتواند پس از استقرار در دنیای واقعی، به یادگیری مداوم ادامه دهد — بدون نیاز به بازآموزی (retraining).
چند نفر از نویسندگان SEAL اکنون در OpenAI فعالیت میکنند 👀 و احتمال زیادی وجود دارد که این فناوری در GPT-6 به کار گرفته شود.
ویژگیهای کلیدی SEAL:
📚 یادگیری از دادههای جدید در زمان واقعی
🔧 ترمیم خودکار دانش تخریبشده
🧩 ایجاد حافظههای پایدار در میان جلسات مختلف
اگر GPT-6 این معماری را بپذیرد، دیگر صرفاً از دادهها استفاده نخواهد کرد — بلکه آنها را جذب میکند.
مدلی که با تغییر جهان، خودش هم تغییر میکند و هر روز بهتر میشود.
📈 این میتواند آغاز عصر یادگیری پیوسته باشد — پایانی بر دورهی مدلهای ثابت و منجمد.
به فصل جدید خوش آمدید.
https://arxiv.org/abs/2506.10943
@rss_ai_ir
#GPT6 #OpenAI #SEAL #AI #ContinuousLearning #MachineLearning
👍2👏1
🤗 چه کسانی واقعاً محرک هوش مصنوعی متنباز هستند؟
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face
---
📊 مطالعهی جدید نشان میدهد که کدام سازمانها و چه نوع مدلهایی ستون فقرات اکوسیستم open-source AI را تشکیل میدهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدلها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص دادهاند.
یعنی بیشتر فعالیتها حول محور گروه کوچکی از رهبران میچرخد — همانهایی که چهرهی اصلی AI متنباز را میسازند.
---
📉 اندازه مهم است (کوچکتر = بهتر):
♻️۹۲.۵٪ دانلودها مربوط به مدلهایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون
✅ نتیجه واضح است: در دنیای open-source، مدلهای سبک، سریع و قابل اجرا روی دستگاههای محلی برندهاند.
---
🧠 محبوبترین حوزهها:
♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️دادههای زمانی — ۱.۷٪
---
🏢 چه کسانی این مدلها را میسازند؟
♻️شرکتها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاهها — ۲۰.۷٪
♻️توسعهدهندگان مستقل — ۱۲.۱٪
♻️سازمانهای غیرانتفاعی — ۳.۸٪
♻️آزمایشگاههای دیگر — ۰.۳٪
---
⚙️ چه نوع مدلهایی محبوبترند؟
♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪
📌 بر خلاف هیاهوی رسانهای پیرامون LLMها، کاربران عمدتاً مدلهای کاربردی و کوچک را دانلود میکنند که به راحتی در محصولات واقعی ادغام میشوند.
---
🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:
♻️۱۸ بار در میان ۵۰ مدل برتر دیده میشود.
♻️۵۶.۴٪ از کل دانلودها از مدلهای ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متنباز نه به لطف غولهایی با تریلیون پارامتر، بلکه به کمک مدلهای فشرده، سریع و کاربردی زنده است — همانهایی که واقعاً در پروژهها و محصولات استفاده میشوند.
---
📖 منبع کامل: Hugging Face Blog
@rss_ai_ir
#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face
---
📊 مطالعهی جدید نشان میدهد که کدام سازمانها و چه نوع مدلهایی ستون فقرات اکوسیستم open-source AI را تشکیل میدهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدلها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص دادهاند.
یعنی بیشتر فعالیتها حول محور گروه کوچکی از رهبران میچرخد — همانهایی که چهرهی اصلی AI متنباز را میسازند.
---
📉 اندازه مهم است (کوچکتر = بهتر):
♻️۹۲.۵٪ دانلودها مربوط به مدلهایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون
✅ نتیجه واضح است: در دنیای open-source، مدلهای سبک، سریع و قابل اجرا روی دستگاههای محلی برندهاند.
---
🧠 محبوبترین حوزهها:
♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️دادههای زمانی — ۱.۷٪
---
🏢 چه کسانی این مدلها را میسازند؟
♻️شرکتها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاهها — ۲۰.۷٪
♻️توسعهدهندگان مستقل — ۱۲.۱٪
♻️سازمانهای غیرانتفاعی — ۳.۸٪
♻️آزمایشگاههای دیگر — ۰.۳٪
---
⚙️ چه نوع مدلهایی محبوبترند؟
♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪
📌 بر خلاف هیاهوی رسانهای پیرامون LLMها، کاربران عمدتاً مدلهای کاربردی و کوچک را دانلود میکنند که به راحتی در محصولات واقعی ادغام میشوند.
---
🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:
♻️۱۸ بار در میان ۵۰ مدل برتر دیده میشود.
♻️۵۶.۴٪ از کل دانلودها از مدلهای ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متنباز نه به لطف غولهایی با تریلیون پارامتر، بلکه به کمک مدلهای فشرده، سریع و کاربردی زنده است — همانهایی که واقعاً در پروژهها و محصولات استفاده میشوند.
---
📖 منبع کامل: Hugging Face Blog
@rss_ai_ir
#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
👍1
⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوقالعاده از NVIDIA و MIT
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متنباز با سرعتی بیسابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
💡 گوگل پلتفرم جدیدی به نام Skills راهاندازی کرد — بستری آزاد برای یادگیری مهارتهای هوش مصنوعی!
در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایهی Python و یادگیری ماشین تا مباحث پیشرفتهی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش میدهد. 🚀
📘 چیزهایی که میتوانید یاد بگیرید:
✳️ادغام هوش مصنوعی مولد در پایپلاین دادهها
✳️استقرار (Deploy) و نگهداری مدلهای یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعهی Google Cloud Innovators
🔹 دورهها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شدهاند.
🔹 در پایان، گواهینامه رسمی دریافت میکنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓
✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دورهها:
skills.google/catalog
@rss_ai_ir
#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI
در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایهی Python و یادگیری ماشین تا مباحث پیشرفتهی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش میدهد. 🚀
📘 چیزهایی که میتوانید یاد بگیرید:
✳️ادغام هوش مصنوعی مولد در پایپلاین دادهها
✳️استقرار (Deploy) و نگهداری مدلهای یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعهی Google Cloud Innovators
🔹 دورهها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شدهاند.
🔹 در پایان، گواهینامه رسمی دریافت میکنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓
✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دورهها:
skills.google/catalog
@rss_ai_ir
#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI
❤3