🚀 در ByteDance Seed تکنیک جدیدی برای آموزش LLM معرفی شد: Knapsack RL
🔍 مشکل در RL کلاسیک:
در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان
💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کولهپشتی (Knapsack) روی مواردی صرف میشود که واقعاً سیگنال آموزشی میدهند.
✨ نتایج:
🔼 +20–40% گرادیانهای غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 +2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 حدوداً دو برابر ارزانتر از روش توزیع یکنواخت
📄 جزییات بیشتر:
huggingface.co/papers/2509.25849
@rss_ai_ir 🤖
#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
🔍 مشکل در RL کلاسیک:
در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان
💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کولهپشتی (Knapsack) روی مواردی صرف میشود که واقعاً سیگنال آموزشی میدهند.
✨ نتایج:
🔼 +20–40% گرادیانهای غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 +2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 حدوداً دو برابر ارزانتر از روش توزیع یکنواخت
📄 جزییات بیشتر:
huggingface.co/papers/2509.25849
@rss_ai_ir 🤖
#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
🎓 استنفورد مجموعهای جدید از درسهای رایگان هوش مصنوعی با تدریس اندرو اِنجی منتشر کرد
⛔️دانشگاه Stanford مجموعهای تازه از درسهای آزاد (Open Lectures) در زمینه هوش مصنوعی و یادگیری ماشین را با تدریس مستقیم Andrew Ng — بنیانگذار Coursera و از پیشگامان آموزش مدرن هوش مصنوعی — منتشر کرده است. 🤖📚
---
🧠 محتوای دوره:
✳️آموزش شبکههای عصبی و اصول آموزش مدلهای AI
✳️طراحی و ساخت عاملهای هوشمند (AI Agents)
✳️نکات حرفهای برای پیشرفت شغلی در حوزه هوش مصنوعی
✳️تمرینهای عملی با فریمورکهای مدرن AI (مثل PyTorch و TensorFlow)
✳️مناسب برای مبتدیان تا متخصصان حرفهای
---
💡 این دوره بخشی از برنامه جهانی دانشگاه استنفورد برای دسترسی همگانی به آموزشهای AI است و بهصورت کاملاً رایگان منتشر میشود.
📘 لینک دوره:
Stanford AI Lectures – Andrew Ng
https://www.youtube.com/watch?v=_NLHFoVNlbg
👨🏫 اندرو اِنجی همچنان همان کاری را انجام میدهد که مدلهای هوش مصنوعی از آن ناتواناند:
آموزش انسانها برای تفکر مانند ماشینها. 💬
#AI #MachineLearning #Stanford #AndrewNg #Education #Coursera #DeepLearning @rss_ai_ir
⛔️دانشگاه Stanford مجموعهای تازه از درسهای آزاد (Open Lectures) در زمینه هوش مصنوعی و یادگیری ماشین را با تدریس مستقیم Andrew Ng — بنیانگذار Coursera و از پیشگامان آموزش مدرن هوش مصنوعی — منتشر کرده است. 🤖📚
---
🧠 محتوای دوره:
✳️آموزش شبکههای عصبی و اصول آموزش مدلهای AI
✳️طراحی و ساخت عاملهای هوشمند (AI Agents)
✳️نکات حرفهای برای پیشرفت شغلی در حوزه هوش مصنوعی
✳️تمرینهای عملی با فریمورکهای مدرن AI (مثل PyTorch و TensorFlow)
✳️مناسب برای مبتدیان تا متخصصان حرفهای
---
💡 این دوره بخشی از برنامه جهانی دانشگاه استنفورد برای دسترسی همگانی به آموزشهای AI است و بهصورت کاملاً رایگان منتشر میشود.
📘 لینک دوره:
Stanford AI Lectures – Andrew Ng
https://www.youtube.com/watch?v=_NLHFoVNlbg
👨🏫 اندرو اِنجی همچنان همان کاری را انجام میدهد که مدلهای هوش مصنوعی از آن ناتواناند:
آموزش انسانها برای تفکر مانند ماشینها. 💬
#AI #MachineLearning #Stanford #AndrewNg #Education #Coursera #DeepLearning @rss_ai_ir
👍2
🔥 پژوهشی تازه نشان میدهد که GPT-6 ممکن است نه فقط هوشمندتر، بلکه از نظر محاسباتی «زنده» باشد!
🧠 مقالهای با عنوان SEAL (Self-Adapting Language Models) در arXiv:2506.10943 منتشر شده که توضیح میدهد چگونه یک مدل زبانی میتواند پس از استقرار در دنیای واقعی، به یادگیری مداوم ادامه دهد — بدون نیاز به بازآموزی (retraining).
چند نفر از نویسندگان SEAL اکنون در OpenAI فعالیت میکنند 👀 و احتمال زیادی وجود دارد که این فناوری در GPT-6 به کار گرفته شود.
ویژگیهای کلیدی SEAL:
📚 یادگیری از دادههای جدید در زمان واقعی
🔧 ترمیم خودکار دانش تخریبشده
🧩 ایجاد حافظههای پایدار در میان جلسات مختلف
اگر GPT-6 این معماری را بپذیرد، دیگر صرفاً از دادهها استفاده نخواهد کرد — بلکه آنها را جذب میکند.
مدلی که با تغییر جهان، خودش هم تغییر میکند و هر روز بهتر میشود.
📈 این میتواند آغاز عصر یادگیری پیوسته باشد — پایانی بر دورهی مدلهای ثابت و منجمد.
به فصل جدید خوش آمدید.
https://arxiv.org/abs/2506.10943
@rss_ai_ir
#GPT6 #OpenAI #SEAL #AI #ContinuousLearning #MachineLearning
🧠 مقالهای با عنوان SEAL (Self-Adapting Language Models) در arXiv:2506.10943 منتشر شده که توضیح میدهد چگونه یک مدل زبانی میتواند پس از استقرار در دنیای واقعی، به یادگیری مداوم ادامه دهد — بدون نیاز به بازآموزی (retraining).
چند نفر از نویسندگان SEAL اکنون در OpenAI فعالیت میکنند 👀 و احتمال زیادی وجود دارد که این فناوری در GPT-6 به کار گرفته شود.
ویژگیهای کلیدی SEAL:
📚 یادگیری از دادههای جدید در زمان واقعی
🔧 ترمیم خودکار دانش تخریبشده
🧩 ایجاد حافظههای پایدار در میان جلسات مختلف
اگر GPT-6 این معماری را بپذیرد، دیگر صرفاً از دادهها استفاده نخواهد کرد — بلکه آنها را جذب میکند.
مدلی که با تغییر جهان، خودش هم تغییر میکند و هر روز بهتر میشود.
📈 این میتواند آغاز عصر یادگیری پیوسته باشد — پایانی بر دورهی مدلهای ثابت و منجمد.
به فصل جدید خوش آمدید.
https://arxiv.org/abs/2506.10943
@rss_ai_ir
#GPT6 #OpenAI #SEAL #AI #ContinuousLearning #MachineLearning
👍2👏1
🤗 چه کسانی واقعاً محرک هوش مصنوعی متنباز هستند؟
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face
---
📊 مطالعهی جدید نشان میدهد که کدام سازمانها و چه نوع مدلهایی ستون فقرات اکوسیستم open-source AI را تشکیل میدهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدلها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص دادهاند.
یعنی بیشتر فعالیتها حول محور گروه کوچکی از رهبران میچرخد — همانهایی که چهرهی اصلی AI متنباز را میسازند.
---
📉 اندازه مهم است (کوچکتر = بهتر):
♻️۹۲.۵٪ دانلودها مربوط به مدلهایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون
✅ نتیجه واضح است: در دنیای open-source، مدلهای سبک، سریع و قابل اجرا روی دستگاههای محلی برندهاند.
---
🧠 محبوبترین حوزهها:
♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️دادههای زمانی — ۱.۷٪
---
🏢 چه کسانی این مدلها را میسازند؟
♻️شرکتها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاهها — ۲۰.۷٪
♻️توسعهدهندگان مستقل — ۱۲.۱٪
♻️سازمانهای غیرانتفاعی — ۳.۸٪
♻️آزمایشگاههای دیگر — ۰.۳٪
---
⚙️ چه نوع مدلهایی محبوبترند؟
♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪
📌 بر خلاف هیاهوی رسانهای پیرامون LLMها، کاربران عمدتاً مدلهای کاربردی و کوچک را دانلود میکنند که به راحتی در محصولات واقعی ادغام میشوند.
---
🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:
♻️۱۸ بار در میان ۵۰ مدل برتر دیده میشود.
♻️۵۶.۴٪ از کل دانلودها از مدلهای ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متنباز نه به لطف غولهایی با تریلیون پارامتر، بلکه به کمک مدلهای فشرده، سریع و کاربردی زنده است — همانهایی که واقعاً در پروژهها و محصولات استفاده میشوند.
---
📖 منبع کامل: Hugging Face Blog
@rss_ai_ir
#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face
---
📊 مطالعهی جدید نشان میدهد که کدام سازمانها و چه نوع مدلهایی ستون فقرات اکوسیستم open-source AI را تشکیل میدهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدلها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص دادهاند.
یعنی بیشتر فعالیتها حول محور گروه کوچکی از رهبران میچرخد — همانهایی که چهرهی اصلی AI متنباز را میسازند.
---
📉 اندازه مهم است (کوچکتر = بهتر):
♻️۹۲.۵٪ دانلودها مربوط به مدلهایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون
✅ نتیجه واضح است: در دنیای open-source، مدلهای سبک، سریع و قابل اجرا روی دستگاههای محلی برندهاند.
---
🧠 محبوبترین حوزهها:
♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️دادههای زمانی — ۱.۷٪
---
🏢 چه کسانی این مدلها را میسازند؟
♻️شرکتها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاهها — ۲۰.۷٪
♻️توسعهدهندگان مستقل — ۱۲.۱٪
♻️سازمانهای غیرانتفاعی — ۳.۸٪
♻️آزمایشگاههای دیگر — ۰.۳٪
---
⚙️ چه نوع مدلهایی محبوبترند؟
♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪
📌 بر خلاف هیاهوی رسانهای پیرامون LLMها، کاربران عمدتاً مدلهای کاربردی و کوچک را دانلود میکنند که به راحتی در محصولات واقعی ادغام میشوند.
---
🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:
♻️۱۸ بار در میان ۵۰ مدل برتر دیده میشود.
♻️۵۶.۴٪ از کل دانلودها از مدلهای ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متنباز نه به لطف غولهایی با تریلیون پارامتر، بلکه به کمک مدلهای فشرده، سریع و کاربردی زنده است — همانهایی که واقعاً در پروژهها و محصولات استفاده میشوند.
---
📖 منبع کامل: Hugging Face Blog
@rss_ai_ir
#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
👍1
⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوقالعاده از NVIDIA و MIT
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متنباز با سرعتی بیسابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
💡 گوگل پلتفرم جدیدی به نام Skills راهاندازی کرد — بستری آزاد برای یادگیری مهارتهای هوش مصنوعی!
در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایهی Python و یادگیری ماشین تا مباحث پیشرفتهی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش میدهد. 🚀
📘 چیزهایی که میتوانید یاد بگیرید:
✳️ادغام هوش مصنوعی مولد در پایپلاین دادهها
✳️استقرار (Deploy) و نگهداری مدلهای یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعهی Google Cloud Innovators
🔹 دورهها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شدهاند.
🔹 در پایان، گواهینامه رسمی دریافت میکنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓
✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دورهها:
skills.google/catalog
@rss_ai_ir
#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI
در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایهی Python و یادگیری ماشین تا مباحث پیشرفتهی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش میدهد. 🚀
📘 چیزهایی که میتوانید یاد بگیرید:
✳️ادغام هوش مصنوعی مولد در پایپلاین دادهها
✳️استقرار (Deploy) و نگهداری مدلهای یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعهی Google Cloud Innovators
🔹 دورهها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شدهاند.
🔹 در پایان، گواهینامه رسمی دریافت میکنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓
✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دورهها:
skills.google/catalog
@rss_ai_ir
#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI
❤3
animation.gif
11.5 MB
🎓 یادگیری فدرال (Federated Learning) — آیندهی آموزش هوش مصنوعی بدون نیاز به دادههای متمرکز
در دنیای امروز، داده شخصیترین دارایی ماست — از اطلاعات تلفن همراه گرفته تا سوابق پزشکی. اما چگونه میتوان مدلهای هوش مصنوعی را آموزش داد بدون آنکه دادهها از دستگاه کاربران خارج شوند؟
🔹 پاسخ: یادگیری فدرال (Federated Learning)
در این روش، بهجای ارسال دادهها به سرور مرکزی، مدل به سراغ دادهها میرود. هر دستگاه (مثل موبایل، لپتاپ یا حسگر صنعتی) نسخهای از مدل را بهصورت محلی آموزش میدهد و فقط وزنها (Weights) را به اشتراک میگذارد، نه خود دادهها.
💡 مراحل کلی فرآیند:
1️⃣ مدل مرکزی به همه دستگاهها ارسال میشود.
2️⃣ هر دستگاه مدل را با دادههای خودش بهروزرسانی میکند.
3️⃣ فقط وزنهای جدید ارسال میشود.
4️⃣ سرور مرکزی این وزنها را ترکیب کرده و مدل بهروزرسانیشده را برمیگرداند.
✅ مزایا:
حفظ حریم خصوصی کاربران 🔒
کاهش ترافیک داده و هزینه انتقال 🌐
یادگیری از منابع متنوع در نقاط مختلف جهان 🌍
مناسب برای سیستمهای IoT و موبایل 📱
🚀 شرکتهایی مانند Google, Apple و NVIDIA سالهاست از این روش برای بهبود مدلهای کیبورد، تشخیص گفتار و سلامت استفاده میکنند.
📌 در آینده، یادگیری فدرال میتواند سنگبنای «هوش مصنوعی توزیعشده» شود — جایی که هر دستگاه، بخشی از مغز جهانی هوش مصنوعی خواهد بود.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_فدرال #FederatedLearning #AI #Privacy #MachineLearning #EdgeAI
در دنیای امروز، داده شخصیترین دارایی ماست — از اطلاعات تلفن همراه گرفته تا سوابق پزشکی. اما چگونه میتوان مدلهای هوش مصنوعی را آموزش داد بدون آنکه دادهها از دستگاه کاربران خارج شوند؟
🔹 پاسخ: یادگیری فدرال (Federated Learning)
در این روش، بهجای ارسال دادهها به سرور مرکزی، مدل به سراغ دادهها میرود. هر دستگاه (مثل موبایل، لپتاپ یا حسگر صنعتی) نسخهای از مدل را بهصورت محلی آموزش میدهد و فقط وزنها (Weights) را به اشتراک میگذارد، نه خود دادهها.
💡 مراحل کلی فرآیند:
1️⃣ مدل مرکزی به همه دستگاهها ارسال میشود.
2️⃣ هر دستگاه مدل را با دادههای خودش بهروزرسانی میکند.
3️⃣ فقط وزنهای جدید ارسال میشود.
4️⃣ سرور مرکزی این وزنها را ترکیب کرده و مدل بهروزرسانیشده را برمیگرداند.
✅ مزایا:
حفظ حریم خصوصی کاربران 🔒
کاهش ترافیک داده و هزینه انتقال 🌐
یادگیری از منابع متنوع در نقاط مختلف جهان 🌍
مناسب برای سیستمهای IoT و موبایل 📱
🚀 شرکتهایی مانند Google, Apple و NVIDIA سالهاست از این روش برای بهبود مدلهای کیبورد، تشخیص گفتار و سلامت استفاده میکنند.
📌 در آینده، یادگیری فدرال میتواند سنگبنای «هوش مصنوعی توزیعشده» شود — جایی که هر دستگاه، بخشی از مغز جهانی هوش مصنوعی خواهد بود.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_فدرال #FederatedLearning #AI #Privacy #MachineLearning #EdgeAI
👏3❤1🔥1