This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
🚀 علیبابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯
شرکت Alibaba از سامانهی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراکگذاری هوشمند GPU که بهرهوری در سرویسدهی مدلهای زبانی بزرگ (LLM) را تا ۸ برابر افزایش میدهد! ⚙️
📊 نتایج حیرتانگیز:
🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا
💡 در آزمایش بتای سهماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر
---
🔥 چطور کار میکند؟
در حالت عادی، بسیاری از GPUها در زمان سرویسدهی به مدلهای «سرد» (کماستفاده) بلااستفاده میمانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواستها را انجام میدادند.
💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل میکند:
یعنی GPUها میتوانند در حین تولید پاسخ (در سطح توکن) بین مدلها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️
---
⚡ نتیجه:
✳️هر GPU میتواند تا ۷ مدل را همزمان پشتیبانی کند (در سیستمهای دیگر: ۲ تا ۳ مدل)
✳️تأخیر هنگام سوئیچ بین مدلها تا ۹۷٪ کاهش یافته است
✳️مدلهای «داغ» (پُرکاربرد) در اولویت میمانند، مدلهای «سرد» فقط در لحظههای کوتاه منابع میگیرند
---
🧩 ویژه برای مرحله استنتاج (Inference):
همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمانبندی دقیق بار کاری (load scheduling) بهینه شده است.
در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب میشود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایینتر. 💰
---
✅ مزایا:
♻️کاهش چشمگیر هزینهی هر توکن
♻️افزایش بهرهوری سختافزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد
🔗 منبع: South China Morning Post
#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
شرکت Alibaba از سامانهی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراکگذاری هوشمند GPU که بهرهوری در سرویسدهی مدلهای زبانی بزرگ (LLM) را تا ۸ برابر افزایش میدهد! ⚙️
📊 نتایج حیرتانگیز:
🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا
💡 در آزمایش بتای سهماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر
---
🔥 چطور کار میکند؟
در حالت عادی، بسیاری از GPUها در زمان سرویسدهی به مدلهای «سرد» (کماستفاده) بلااستفاده میمانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواستها را انجام میدادند.
💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل میکند:
یعنی GPUها میتوانند در حین تولید پاسخ (در سطح توکن) بین مدلها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️
---
⚡ نتیجه:
✳️هر GPU میتواند تا ۷ مدل را همزمان پشتیبانی کند (در سیستمهای دیگر: ۲ تا ۳ مدل)
✳️تأخیر هنگام سوئیچ بین مدلها تا ۹۷٪ کاهش یافته است
✳️مدلهای «داغ» (پُرکاربرد) در اولویت میمانند، مدلهای «سرد» فقط در لحظههای کوتاه منابع میگیرند
---
🧩 ویژه برای مرحله استنتاج (Inference):
همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمانبندی دقیق بار کاری (load scheduling) بهینه شده است.
در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب میشود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایینتر. 💰
---
✅ مزایا:
♻️کاهش چشمگیر هزینهی هر توکن
♻️افزایش بهرهوری سختافزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد
🔗 منبع: South China Morning Post
#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
👍4🔥1
📄 مدل DeepSeek-OCR — شناسایی متن با دقت بالا 🔍
شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که میتواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.
✨ قابلیتها:
♻️تشخیص متن در تصاویر و فایلهای PDF
♻️پشتیبانی از جداول، نمودارها و قالبهای پیچیدهی اسناد
♻️چهار نسخهی بهینهشده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه
⚡ ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشردهسازی توکنهای تصویری (Visual Tokens Compression)،
به دقت و سرعتی بینظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدلهای OCR موجود سریعتر و کارآمدتر عمل میکند.
🟠 Hugging Face
🟠 GitHub
🟠 Paper
@rss_ai_ir
#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که میتواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.
✨ قابلیتها:
♻️تشخیص متن در تصاویر و فایلهای PDF
♻️پشتیبانی از جداول، نمودارها و قالبهای پیچیدهی اسناد
♻️چهار نسخهی بهینهشده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه
⚡ ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشردهسازی توکنهای تصویری (Visual Tokens Compression)،
به دقت و سرعتی بینظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدلهای OCR موجود سریعتر و کارآمدتر عمل میکند.
🟠 Hugging Face
🟠 GitHub
🟠 Paper
@rss_ai_ir
#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
❤1👍1
📊 ترافیک GenAI — آمار جدید از رقابت غولهای هوش مصنوعی
📈 دادههای تازه نشان میدهد که تعادل بازار بین مدلهای تولیدی (Generative AI) در حال تغییر است:
مدل ChatGPT بهآرامی در حال از دست دادن سهم بازار است.
همچنین Perplexity برای نخستین بار از مرز ۲٪ عبور کرد.
🗓️ یک سال پیش:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ ۶ ماه پیش:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ ۳ ماه پیش:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ ماه گذشته:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ امروز:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📊 نتیجه:
بازار بهتدریج از انحصار ChatGPT خارج میشود.
مدلهای Gemini و Perplexity با رشد پیوسته، جایگاه خود را تقویت کردهاند،
و با عرضهی Gemini 3.0 انتظار میرود گوگل موقعیت خود را بیش از پیش بهبود بخشد.
@rss_ai_ir
#هوش_مصنوعی #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot #آمار #GenAI #تحلیل_داده
📈 دادههای تازه نشان میدهد که تعادل بازار بین مدلهای تولیدی (Generative AI) در حال تغییر است:
مدل ChatGPT بهآرامی در حال از دست دادن سهم بازار است.
همچنین Perplexity برای نخستین بار از مرز ۲٪ عبور کرد.
🗓️ یک سال پیش:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ ۶ ماه پیش:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ ۳ ماه پیش:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ ماه گذشته:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ امروز:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📊 نتیجه:
بازار بهتدریج از انحصار ChatGPT خارج میشود.
مدلهای Gemini و Perplexity با رشد پیوسته، جایگاه خود را تقویت کردهاند،
و با عرضهی Gemini 3.0 انتظار میرود گوگل موقعیت خود را بیش از پیش بهبود بخشد.
@rss_ai_ir
#هوش_مصنوعی #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot #آمار #GenAI #تحلیل_داده
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوقالعاده از NVIDIA و MIT
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 احتمال معرفی مرورگر جدید توسط OpenAI
بهنظر میرسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥
شایعات دربارهی این مرورگر مدتهاست که شنیده میشود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو میرود.
📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز میشود.
در این میان، Perplexity Comet کمی نگران بهنظر میرسد 😄 و بعضی کاربران شوخی میکنند که آمادهی حذف Arc هستند!
@rss_ai_ir
#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
بهنظر میرسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥
شایعات دربارهی این مرورگر مدتهاست که شنیده میشود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو میرود.
📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز میشود.
در این میان، Perplexity Comet کمی نگران بهنظر میرسد 😄 و بعضی کاربران شوخی میکنند که آمادهی حذف Arc هستند!
@rss_ai_ir
#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
👍2🔥1
🎙️ VoxCPM —
سامانهای نوآورانه برای تبدیل متن به گفتار (TTS)
⛔️سیستم VoxCPM یک سیستم پیشرفتهی تبدیل متن به گفتار بدون نیاز به توکنیزیشن (Tokenization-Free TTS) است که میتواند گفتار را بهصورت آگاه از بافت (Context-Aware) و با کلونسازی دقیق صدا تولید کند.
این مدل از معماری دیفیوزنی (Diffusion Architecture) برای ایجاد نمایشهای پیوسته از گفتار استفاده میکند — نتیجهی آن بیان طبیعیتر، پایداری بیشتر و صدایی بسیار شبیه انسان است.
🚀 ویژگیهای کلیدی:
تولید گفتار با لحن طبیعی و آگاهی از متن و بافت.
شبیهسازی دقیق صدای فرد فقط با چند نمونه کوتاه.
کارایی بالا در پردازش گفتار و پشتیبانی از استریم زنده (Streaming).
📌 منبع باز (Open Source):
🔗 GitHub - OpenBMB/VoxCPM
#هوش_مصنوعی #TTS #SpeechSynthesis #VoxCPM #Diffusion #AI #Python #VoiceCloning
سامانهای نوآورانه برای تبدیل متن به گفتار (TTS)
⛔️سیستم VoxCPM یک سیستم پیشرفتهی تبدیل متن به گفتار بدون نیاز به توکنیزیشن (Tokenization-Free TTS) است که میتواند گفتار را بهصورت آگاه از بافت (Context-Aware) و با کلونسازی دقیق صدا تولید کند.
این مدل از معماری دیفیوزنی (Diffusion Architecture) برای ایجاد نمایشهای پیوسته از گفتار استفاده میکند — نتیجهی آن بیان طبیعیتر، پایداری بیشتر و صدایی بسیار شبیه انسان است.
🚀 ویژگیهای کلیدی:
تولید گفتار با لحن طبیعی و آگاهی از متن و بافت.
شبیهسازی دقیق صدای فرد فقط با چند نمونه کوتاه.
کارایی بالا در پردازش گفتار و پشتیبانی از استریم زنده (Streaming).
📌 منبع باز (Open Source):
🔗 GitHub - OpenBMB/VoxCPM
#هوش_مصنوعی #TTS #SpeechSynthesis #VoxCPM #Diffusion #AI #Python #VoiceCloning
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Sharpa Robotics
آغاز تولید انبوه دست رباتیک SharpaWave
شرکت Sharpa Robotics با معرفی نسخهی نهایی دست رباتیک SharpaWave وارد مرحلهی تولید انبوه شد — مدلی که در کنفرانس ICRA 2025 مورد تحسین قرار گرفت.
🤖 این سامانه یک دست فوقدقیق با ابعادی کاملاً برابر با دست انسان است و دارای ۲۲ درجه آزادی (DOF) میباشد، که امکان حرکات بسیار ظریف و طبیعی را فراهم میکند.
⚙️ نوآوری کلیدی:
فناوری Dynamic Tactile Array (DTA) — هر انگشت به پنل لمسی مجهز است که شامل بیش از ۱۰۰۰ حسگر لمسی با دقت زیر میلیمتر میباشد.
این ویژگی به ربات اجازه میدهد در زمان واقعی، بافت و جنس اشیاء را حس کرده و تحلیل کند.
✳️همچنین SharpaWave گامی بزرگ به سوی رباتهایی است که نهتنها میبینند، بلکه احساس هم میکنند.
——————————
✔️ دنبال کنید: بهترین کانال دربارهی دنیای رباتها و نوآوریها
@rss_ai_ir
#SharpaWave #Robotics #AI #ICRA2025 #TactileSensing #RobotHand #Innovation #هوش_مصنوعی #رباتیک #ربات #فناوری
آغاز تولید انبوه دست رباتیک SharpaWave
شرکت Sharpa Robotics با معرفی نسخهی نهایی دست رباتیک SharpaWave وارد مرحلهی تولید انبوه شد — مدلی که در کنفرانس ICRA 2025 مورد تحسین قرار گرفت.
🤖 این سامانه یک دست فوقدقیق با ابعادی کاملاً برابر با دست انسان است و دارای ۲۲ درجه آزادی (DOF) میباشد، که امکان حرکات بسیار ظریف و طبیعی را فراهم میکند.
⚙️ نوآوری کلیدی:
فناوری Dynamic Tactile Array (DTA) — هر انگشت به پنل لمسی مجهز است که شامل بیش از ۱۰۰۰ حسگر لمسی با دقت زیر میلیمتر میباشد.
این ویژگی به ربات اجازه میدهد در زمان واقعی، بافت و جنس اشیاء را حس کرده و تحلیل کند.
✳️همچنین SharpaWave گامی بزرگ به سوی رباتهایی است که نهتنها میبینند، بلکه احساس هم میکنند.
——————————
✔️ دنبال کنید: بهترین کانال دربارهی دنیای رباتها و نوآوریها
@rss_ai_ir
#SharpaWave #Robotics #AI #ICRA2025 #TactileSensing #RobotHand #Innovation #هوش_مصنوعی #رباتیک #ربات #فناوری
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 «تکامل یادگیری عمیق» — انیمیشنی هنری دربارهی تاریخ هوش مصنوعی
یک هنرمند با انتشار اثری بهنام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را بهزیبایی به تصویر کشیده است.
👁️ در این انیمیشن، مسیر از اولین نورونهای مصنوعی تا معماریهای پیچیدهی امروزی بهصورت دستی ترسیم شده و بیننده را با تاریخچهی شکلگیری دنیای مدرن شبکههای عصبی آشنا میکند.
✨ هدف اثر — ادای احترام به جفری هینتون، یکی از بنیانگذاران یادگیری عمیق و برندهی جایزه نوبل، که با ایدههایش راه را برای نسل جدید هوش مصنوعی هموار کرد.
#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
یک هنرمند با انتشار اثری بهنام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را بهزیبایی به تصویر کشیده است.
👁️ در این انیمیشن، مسیر از اولین نورونهای مصنوعی تا معماریهای پیچیدهی امروزی بهصورت دستی ترسیم شده و بیننده را با تاریخچهی شکلگیری دنیای مدرن شبکههای عصبی آشنا میکند.
✨ هدف اثر — ادای احترام به جفری هینتون، یکی از بنیانگذاران یادگیری عمیق و برندهی جایزه نوبل، که با ایدههایش راه را برای نسل جدید هوش مصنوعی هموار کرد.
#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
👍2🔥1💩1
💻 Anthropic
قابلیت جدید «Claude Code on the Web» را معرفی کرد!
اکنون میتوانید وظایف برنامهنویسی را مستقیماً از طریق مرورگر به Claude بسپارید — بدون نیاز به ترمینال یا محیط IDE.
این قابلیت در حال حاضر بهصورت نسخهی آزمایشی (research preview) عرضه شده و در زیرساخت ابری Anthropic کار میکند.
⚙️ ویژگیهای اصلی:
🚀 اجرای همزمان چند پروژه در ریپازیتوریهای مختلف
📊 نمایش پیشرفت کار بهصورت لحظهای
🪄 ایجاد خودکار Pull Request با توضیحات شفاف دربارهی تغییرات
🧠 پاسخگویی به سؤالات مربوط به ساختار و معماری پروژهها
💡 کاربرد ایدهآل برای:
♻️رفع باگها و انجام کارهای تکراری
♻️تغییرات بکاند با امکان تست خودکار
♻️تحلیل ساختار کد و وابستگیهای پروژه
📱 نسخهی iOS هم منتشر شده — میتوانید با Claude از روی موبایل کدنویسی کنید (فعلاً در مرحلهی early preview برای جمعآوری بازخورد).
🔒 امنیت بالا:
هر تسک در محیطی ایزوله (sandbox) اجرا میشود، با محدودیت شبکه و فایلسیستم.
ارتباطات Git از طریق پراکسی امن انجام میشود، بنابراین Claude فقط به ریپازیتوریهای مجاز دسترسی دارد.
میتوانید قوانین سفارشی شبکه بسازید، مثلاً برای دانلود پکیجهای npm جهت اجرای تستها.
🟢 دسترسی:
برای کاربران Pro و Max در claude.com/code فعال است.
سهمیهی استفاده بین تمام قابلیتهای Claude Code مشترک است.
📘 منابع رسمی:
🔗 جزئیات فنی Sandbox
🔗 مستندات کامل
#Claude #Anthropic #AI #Programming #LLM #AItools #Automation #کدنویسی #هوش_مصنوعی
قابلیت جدید «Claude Code on the Web» را معرفی کرد!
اکنون میتوانید وظایف برنامهنویسی را مستقیماً از طریق مرورگر به Claude بسپارید — بدون نیاز به ترمینال یا محیط IDE.
این قابلیت در حال حاضر بهصورت نسخهی آزمایشی (research preview) عرضه شده و در زیرساخت ابری Anthropic کار میکند.
⚙️ ویژگیهای اصلی:
🚀 اجرای همزمان چند پروژه در ریپازیتوریهای مختلف
📊 نمایش پیشرفت کار بهصورت لحظهای
🪄 ایجاد خودکار Pull Request با توضیحات شفاف دربارهی تغییرات
🧠 پاسخگویی به سؤالات مربوط به ساختار و معماری پروژهها
💡 کاربرد ایدهآل برای:
♻️رفع باگها و انجام کارهای تکراری
♻️تغییرات بکاند با امکان تست خودکار
♻️تحلیل ساختار کد و وابستگیهای پروژه
📱 نسخهی iOS هم منتشر شده — میتوانید با Claude از روی موبایل کدنویسی کنید (فعلاً در مرحلهی early preview برای جمعآوری بازخورد).
🔒 امنیت بالا:
هر تسک در محیطی ایزوله (sandbox) اجرا میشود، با محدودیت شبکه و فایلسیستم.
ارتباطات Git از طریق پراکسی امن انجام میشود، بنابراین Claude فقط به ریپازیتوریهای مجاز دسترسی دارد.
میتوانید قوانین سفارشی شبکه بسازید، مثلاً برای دانلود پکیجهای npm جهت اجرای تستها.
🟢 دسترسی:
برای کاربران Pro و Max در claude.com/code فعال است.
سهمیهی استفاده بین تمام قابلیتهای Claude Code مشترک است.
📘 منابع رسمی:
🔗 جزئیات فنی Sandbox
🔗 مستندات کامل
#Claude #Anthropic #AI #Programming #LLM #AItools #Automation #کدنویسی #هوش_مصنوعی
claude.ai
Claude Code | Claude
Talk with Claude, an AI assistant from Anthropic
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 RTFM:
مدل جدید WorldLab برای تولید دنیای تعاملی
مدل WorldLab که قبلاً چندین بار دربارهاش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.
✨ ویژگیهای اصلی:
🔁 حافظهی بینهایت (infinite context)
🎨 اسکینهای غیر فتوریالیستی با سبکهای متنوع
🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت
🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی میشود.)
📖 مقالهی رسمی:
worldlabs.ai/blog/rtfm
---
💡 مسئلهی اصلی:
تولید «جهانهای زنده» به کمک مدلهای مولد به مراتب پرهزینهتر از LLMهاست.
اگر بخواهیم مثل مدلهای ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازهی کل رمان «فرانکشتاین»!
برای تعامل یکساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سختافزاری غیرممکن است.
---
⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا میشود و تجربهی تعاملی روان ارائه میدهد.
راز کار در این است که بهجای ذخیرهی تمام فریمها، فقط موارد زیر نگهداری میشوند:
♻️زاویههای دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه بهطور قابل توجهی تغییر کند، مدل فریمها را از نو میسازد — صرفهجویی عظیم در حافظه!
---
🎥 نتیجه:
مدل RTFM میتواند صحنههایی با جزئیات بالا، بازتابها، سطوح براق، سایهها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آنقدر چشمگیر است که این جزئیات کوچک به چشم نمیآیند.
---
📌 جمعبندی:
WorldLab با RTFM نشان میدهد که آیندهی مدلهای مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.
@rss_ai_ir
#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی
مدل جدید WorldLab برای تولید دنیای تعاملی
مدل WorldLab که قبلاً چندین بار دربارهاش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.
✨ ویژگیهای اصلی:
🔁 حافظهی بینهایت (infinite context)
🎨 اسکینهای غیر فتوریالیستی با سبکهای متنوع
🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت
🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی میشود.)
📖 مقالهی رسمی:
worldlabs.ai/blog/rtfm
---
💡 مسئلهی اصلی:
تولید «جهانهای زنده» به کمک مدلهای مولد به مراتب پرهزینهتر از LLMهاست.
اگر بخواهیم مثل مدلهای ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازهی کل رمان «فرانکشتاین»!
برای تعامل یکساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سختافزاری غیرممکن است.
---
⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا میشود و تجربهی تعاملی روان ارائه میدهد.
راز کار در این است که بهجای ذخیرهی تمام فریمها، فقط موارد زیر نگهداری میشوند:
♻️زاویههای دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه بهطور قابل توجهی تغییر کند، مدل فریمها را از نو میسازد — صرفهجویی عظیم در حافظه!
---
🎥 نتیجه:
مدل RTFM میتواند صحنههایی با جزئیات بالا، بازتابها، سطوح براق، سایهها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آنقدر چشمگیر است که این جزئیات کوچک به چشم نمیآیند.
---
📌 جمعبندی:
WorldLab با RTFM نشان میدهد که آیندهی مدلهای مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.
@rss_ai_ir
#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SAM 2++:
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
❤1