⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 واقعیت افزوده + هوش مصنوعی مولد (Generative AGI) یعنی حالا انسانها میتونن کارهایی در سطح کارشناسان انجام بدن — بدون هیچ آموزش قبلی!
و این آینده نیست...
این الان اتفاق میافته ⚡️
@rss_ai_ir
و این آینده نیست...
این الان اتفاق میافته ⚡️
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Perplexity
حالت جدید آموزش تعاملی زبان را معرفی کرد
مجموعه Perplexity حالت تازهای برای یادگیری زبان اضافه کرده که چتبات هوش مصنوعی آن را به یک مدرس تعاملی تبدیل میکند — ابزاری که به کاربران کمک میکند در لحظه دایره لغات خود را گسترش دهند و گرامر را بهتر بفهمند.
🔸 این قابلیت در خود چت کارتهای آموزشی (فلشکارت) با لغات جدید، تلفظ صحیح و جملات نمونه تولید میکند.
🔸 کاربران همچنین میتوانند در همان گفتگو سؤالات گرامری بپرسند یا درخواست توضیح بدهند.
🔸 حالت جدید هماکنون در نسخههای iOS و وب فعال است و استفاده از Perplexity را فراتر از جستوجو و تحقیق گسترش میدهد.
⛔️همچنین Perplexity حالا خود را بهعنوان ترکیبی از موتور دانش و مربی شخصی زبان معرفی میکند.
📊 @rss_ai_ir
#AI #Perplexity #LanguageLearning #EdTech #Chatbot #ArtificialIntelligence
حالت جدید آموزش تعاملی زبان را معرفی کرد
مجموعه Perplexity حالت تازهای برای یادگیری زبان اضافه کرده که چتبات هوش مصنوعی آن را به یک مدرس تعاملی تبدیل میکند — ابزاری که به کاربران کمک میکند در لحظه دایره لغات خود را گسترش دهند و گرامر را بهتر بفهمند.
🔸 این قابلیت در خود چت کارتهای آموزشی (فلشکارت) با لغات جدید، تلفظ صحیح و جملات نمونه تولید میکند.
🔸 کاربران همچنین میتوانند در همان گفتگو سؤالات گرامری بپرسند یا درخواست توضیح بدهند.
🔸 حالت جدید هماکنون در نسخههای iOS و وب فعال است و استفاده از Perplexity را فراتر از جستوجو و تحقیق گسترش میدهد.
⛔️همچنین Perplexity حالا خود را بهعنوان ترکیبی از موتور دانش و مربی شخصی زبان معرفی میکند.
📊 @rss_ai_ir
#AI #Perplexity #LanguageLearning #EdTech #Chatbot #ArtificialIntelligence
❤2
مدل GPT-5 تنها ۵۸ درصد به AGI نزدیک است 🧠
۲۸ آزمایشگاه بزرگ و تأثیرگذار در حوزهی هوش مصنوعی گرد هم آمدهاند تا سرانجام تعریف دقیقی از AGI (هوش عمومی مصنوعی) ارائه دهند — و این نخستین پژوهش علمی است که این مفهوم را بهصورت کمّی تبیین میکند. در میان نویسندگان مقاله، نام یوشوا بنجیو (Yoshua Bengio)، یکی از پدران هوش مصنوعی نیز دیده میشود.
💡 تعریف AGI (کوتاه اما پرمغز):
> مفهوم AGI یعنی سامانهای از هوش مصنوعی که میتواند در گستره (versatility) و عمق (proficiency) تواناییهای شناختی، با یک انسان بالغ تحصیلکرده قابل مقایسه باشد.
---
🔬 اما چطور میتوان آن را اندازهگیری کرد؟
پژوهشگران از یک مدل شناختهشده در روانسنجی به نام مدل Cattell–Horn–Carroll (CHC) استفاده کردند — مدلی که هوش انسان را به ۱۰ توانایی شناختی اصلی تقسیم میکند:
1. دانش عمومی و عقل سلیم
2. درک و نگارش متن
3. ریاضیات
4. حل مسائل جدید و استدلال منطقی
5. حافظهی کوتاهمدت
6. حافظهی بلندمدت و یادگیری
7. بازیابی و استخراج دانش
8. درک و خلق تصاویر
9. درک گفتار و موسیقی
10. سرعت پردازش اطلاعات
بر اساس این شاخصها، پژوهشگران هم انسان و هم مدلهای زبانی را ارزیابی کردند.
---
📊 نتایج:
اول GPT-4: تنها ۲۷٪ از AGI
دوم GPT-5: حدود ۵۸٪ از AGI
✅یعنی GPT-5 اکنون بیش از نیمی از پروفایل شناختی یک انسان بالغ تحصیلکرده را دارد — پیشرفتی چشمگیر، اما هنوز راه درازی تا دستیابی به هوش عمومی کامل در پیش است.
---
⚠️ نقاط ضعف GPT-5:
♻️حافظهی بلندمدت
♻️درک دیداری و شنیداری
♻️سرعت واکنش
♻️تفکر انعطافپذیر
---
⛔️بهنظر میرسد این تعریف عینی، علمی و قابلاندازهگیری است — قطعاً بسیار بهتر از تعریف شرکتهایی مانند OpenAI و Microsoft، که AGI را بهسادگی "هوشی که سالانه ۱۰۰ میلیارد دلار سود تولید کند" 💀 توصیف کردهاند!
#هوش_مصنوعی #AGI #GPT5 #یوشوا_بنجیو #یادگیری_ماشین #AI #ArtificialIntelligence
۲۸ آزمایشگاه بزرگ و تأثیرگذار در حوزهی هوش مصنوعی گرد هم آمدهاند تا سرانجام تعریف دقیقی از AGI (هوش عمومی مصنوعی) ارائه دهند — و این نخستین پژوهش علمی است که این مفهوم را بهصورت کمّی تبیین میکند. در میان نویسندگان مقاله، نام یوشوا بنجیو (Yoshua Bengio)، یکی از پدران هوش مصنوعی نیز دیده میشود.
💡 تعریف AGI (کوتاه اما پرمغز):
> مفهوم AGI یعنی سامانهای از هوش مصنوعی که میتواند در گستره (versatility) و عمق (proficiency) تواناییهای شناختی، با یک انسان بالغ تحصیلکرده قابل مقایسه باشد.
---
🔬 اما چطور میتوان آن را اندازهگیری کرد؟
پژوهشگران از یک مدل شناختهشده در روانسنجی به نام مدل Cattell–Horn–Carroll (CHC) استفاده کردند — مدلی که هوش انسان را به ۱۰ توانایی شناختی اصلی تقسیم میکند:
1. دانش عمومی و عقل سلیم
2. درک و نگارش متن
3. ریاضیات
4. حل مسائل جدید و استدلال منطقی
5. حافظهی کوتاهمدت
6. حافظهی بلندمدت و یادگیری
7. بازیابی و استخراج دانش
8. درک و خلق تصاویر
9. درک گفتار و موسیقی
10. سرعت پردازش اطلاعات
بر اساس این شاخصها، پژوهشگران هم انسان و هم مدلهای زبانی را ارزیابی کردند.
---
📊 نتایج:
اول GPT-4: تنها ۲۷٪ از AGI
دوم GPT-5: حدود ۵۸٪ از AGI
✅یعنی GPT-5 اکنون بیش از نیمی از پروفایل شناختی یک انسان بالغ تحصیلکرده را دارد — پیشرفتی چشمگیر، اما هنوز راه درازی تا دستیابی به هوش عمومی کامل در پیش است.
---
⚠️ نقاط ضعف GPT-5:
♻️حافظهی بلندمدت
♻️درک دیداری و شنیداری
♻️سرعت واکنش
♻️تفکر انعطافپذیر
---
⛔️بهنظر میرسد این تعریف عینی، علمی و قابلاندازهگیری است — قطعاً بسیار بهتر از تعریف شرکتهایی مانند OpenAI و Microsoft، که AGI را بهسادگی "هوشی که سالانه ۱۰۰ میلیارد دلار سود تولید کند" 💀 توصیف کردهاند!
#هوش_مصنوعی #AGI #GPT5 #یوشوا_بنجیو #یادگیری_ماشین #AI #ArtificialIntelligence
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
🚀 علیبابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯
شرکت Alibaba از سامانهی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراکگذاری هوشمند GPU که بهرهوری در سرویسدهی مدلهای زبانی بزرگ (LLM) را تا ۸ برابر افزایش میدهد! ⚙️
📊 نتایج حیرتانگیز:
🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا
💡 در آزمایش بتای سهماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر
---
🔥 چطور کار میکند؟
در حالت عادی، بسیاری از GPUها در زمان سرویسدهی به مدلهای «سرد» (کماستفاده) بلااستفاده میمانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواستها را انجام میدادند.
💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل میکند:
یعنی GPUها میتوانند در حین تولید پاسخ (در سطح توکن) بین مدلها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️
---
⚡ نتیجه:
✳️هر GPU میتواند تا ۷ مدل را همزمان پشتیبانی کند (در سیستمهای دیگر: ۲ تا ۳ مدل)
✳️تأخیر هنگام سوئیچ بین مدلها تا ۹۷٪ کاهش یافته است
✳️مدلهای «داغ» (پُرکاربرد) در اولویت میمانند، مدلهای «سرد» فقط در لحظههای کوتاه منابع میگیرند
---
🧩 ویژه برای مرحله استنتاج (Inference):
همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمانبندی دقیق بار کاری (load scheduling) بهینه شده است.
در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب میشود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایینتر. 💰
---
✅ مزایا:
♻️کاهش چشمگیر هزینهی هر توکن
♻️افزایش بهرهوری سختافزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد
🔗 منبع: South China Morning Post
#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
شرکت Alibaba از سامانهی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراکگذاری هوشمند GPU که بهرهوری در سرویسدهی مدلهای زبانی بزرگ (LLM) را تا ۸ برابر افزایش میدهد! ⚙️
📊 نتایج حیرتانگیز:
🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا
💡 در آزمایش بتای سهماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر
---
🔥 چطور کار میکند؟
در حالت عادی، بسیاری از GPUها در زمان سرویسدهی به مدلهای «سرد» (کماستفاده) بلااستفاده میمانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواستها را انجام میدادند.
💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل میکند:
یعنی GPUها میتوانند در حین تولید پاسخ (در سطح توکن) بین مدلها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️
---
⚡ نتیجه:
✳️هر GPU میتواند تا ۷ مدل را همزمان پشتیبانی کند (در سیستمهای دیگر: ۲ تا ۳ مدل)
✳️تأخیر هنگام سوئیچ بین مدلها تا ۹۷٪ کاهش یافته است
✳️مدلهای «داغ» (پُرکاربرد) در اولویت میمانند، مدلهای «سرد» فقط در لحظههای کوتاه منابع میگیرند
---
🧩 ویژه برای مرحله استنتاج (Inference):
همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمانبندی دقیق بار کاری (load scheduling) بهینه شده است.
در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب میشود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایینتر. 💰
---
✅ مزایا:
♻️کاهش چشمگیر هزینهی هر توکن
♻️افزایش بهرهوری سختافزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد
🔗 منبع: South China Morning Post
#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
👍4🔥1
📄 مدل DeepSeek-OCR — شناسایی متن با دقت بالا 🔍
شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که میتواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.
✨ قابلیتها:
♻️تشخیص متن در تصاویر و فایلهای PDF
♻️پشتیبانی از جداول، نمودارها و قالبهای پیچیدهی اسناد
♻️چهار نسخهی بهینهشده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه
⚡ ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشردهسازی توکنهای تصویری (Visual Tokens Compression)،
به دقت و سرعتی بینظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدلهای OCR موجود سریعتر و کارآمدتر عمل میکند.
🟠 Hugging Face
🟠 GitHub
🟠 Paper
@rss_ai_ir
#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که میتواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.
✨ قابلیتها:
♻️تشخیص متن در تصاویر و فایلهای PDF
♻️پشتیبانی از جداول، نمودارها و قالبهای پیچیدهی اسناد
♻️چهار نسخهی بهینهشده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه
⚡ ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشردهسازی توکنهای تصویری (Visual Tokens Compression)،
به دقت و سرعتی بینظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدلهای OCR موجود سریعتر و کارآمدتر عمل میکند.
🟠 Hugging Face
🟠 GitHub
🟠 Paper
@rss_ai_ir
#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
❤1👍1
📊 ترافیک GenAI — آمار جدید از رقابت غولهای هوش مصنوعی
📈 دادههای تازه نشان میدهد که تعادل بازار بین مدلهای تولیدی (Generative AI) در حال تغییر است:
مدل ChatGPT بهآرامی در حال از دست دادن سهم بازار است.
همچنین Perplexity برای نخستین بار از مرز ۲٪ عبور کرد.
🗓️ یک سال پیش:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ ۶ ماه پیش:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ ۳ ماه پیش:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ ماه گذشته:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ امروز:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📊 نتیجه:
بازار بهتدریج از انحصار ChatGPT خارج میشود.
مدلهای Gemini و Perplexity با رشد پیوسته، جایگاه خود را تقویت کردهاند،
و با عرضهی Gemini 3.0 انتظار میرود گوگل موقعیت خود را بیش از پیش بهبود بخشد.
@rss_ai_ir
#هوش_مصنوعی #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot #آمار #GenAI #تحلیل_داده
📈 دادههای تازه نشان میدهد که تعادل بازار بین مدلهای تولیدی (Generative AI) در حال تغییر است:
مدل ChatGPT بهآرامی در حال از دست دادن سهم بازار است.
همچنین Perplexity برای نخستین بار از مرز ۲٪ عبور کرد.
🗓️ یک سال پیش:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ ۶ ماه پیش:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ ۳ ماه پیش:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ ماه گذشته:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ امروز:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📊 نتیجه:
بازار بهتدریج از انحصار ChatGPT خارج میشود.
مدلهای Gemini و Perplexity با رشد پیوسته، جایگاه خود را تقویت کردهاند،
و با عرضهی Gemini 3.0 انتظار میرود گوگل موقعیت خود را بیش از پیش بهبود بخشد.
@rss_ai_ir
#هوش_مصنوعی #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot #آمار #GenAI #تحلیل_داده
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
پروژهی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیطهای شبیهسازی تعاملی و مبتنی بر فیزیک تبدیل میکند.
🎯 هدف اصلی آن، ایجاد بستری مقیاسپذیر برای یادگیری رباتها در فضاهای شهری واقعی است — جایی که مدلها بتوانند بین دنیای شبیهسازی و واقعیت تعمیمپذیری واقعی پیدا کنند.
💡 ویژگیها:
✳️تبدیل ویدیوهای شهری واقعی به شبیهسازیهای فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش رباتها در محیطهای شهری متنوع و واقعی
📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — بهزودی منتشر میشود
#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوقالعاده از NVIDIA و MIT
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 احتمال معرفی مرورگر جدید توسط OpenAI
بهنظر میرسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥
شایعات دربارهی این مرورگر مدتهاست که شنیده میشود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو میرود.
📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز میشود.
در این میان، Perplexity Comet کمی نگران بهنظر میرسد 😄 و بعضی کاربران شوخی میکنند که آمادهی حذف Arc هستند!
@rss_ai_ir
#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
بهنظر میرسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥
شایعات دربارهی این مرورگر مدتهاست که شنیده میشود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو میرود.
📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز میشود.
در این میان، Perplexity Comet کمی نگران بهنظر میرسد 😄 و بعضی کاربران شوخی میکنند که آمادهی حذف Arc هستند!
@rss_ai_ir
#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
👍2🔥1