VIRSUN
6.09K subscribers
1.06K photos
626 videos
5 files
687 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش


در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 واقعیت افزوده + هوش مصنوعی مولد (Generative AGI) یعنی حالا انسان‌ها می‌تونن کارهایی در سطح کارشناسان انجام بدن — بدون هیچ آموزش قبلی!

و این آینده نیست...
این الان اتفاق می‌افته ⚡️

@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Perplexity
حالت جدید آموزش تعاملی زبان را معرفی کرد

مجموعه Perplexity حالت تازه‌ای برای یادگیری زبان اضافه کرده که چت‌بات هوش مصنوعی آن را به یک مدرس تعاملی تبدیل می‌کند — ابزاری که به کاربران کمک می‌کند در لحظه دایره لغات خود را گسترش دهند و گرامر را بهتر بفهمند.

🔸 این قابلیت در خود چت کارت‌های آموزشی (فلش‌کارت) با لغات جدید، تلفظ صحیح و جملات نمونه تولید می‌کند.
🔸 کاربران همچنین می‌توانند در همان گفتگو سؤالات گرامری بپرسند یا درخواست توضیح بدهند.
🔸 حالت جدید هم‌اکنون در نسخه‌های iOS و وب فعال است و استفاده از Perplexity را فراتر از جست‌وجو و تحقیق گسترش می‌دهد.

⛔️همچنین Perplexity حالا خود را به‌عنوان ترکیبی از موتور دانش و مربی شخصی زبان معرفی می‌کند.

📊 @rss_ai_ir

#AI #Perplexity #LanguageLearning #EdTech #Chatbot #ArtificialIntelligence
2
مدل GPT-5 تنها ۵۸ درصد به AGI نزدیک است 🧠

۲۸ آزمایشگاه بزرگ و تأثیرگذار در حوزه‌ی هوش مصنوعی گرد هم آمده‌اند تا سرانجام تعریف دقیقی از AGI (هوش عمومی مصنوعی) ارائه دهند — و این نخستین پژوهش علمی است که این مفهوم را به‌صورت کمّی تبیین می‌کند. در میان نویسندگان مقاله، نام یوشوا بنجیو (Yoshua Bengio)، یکی از پدران هوش مصنوعی نیز دیده می‌شود.

💡 تعریف AGI (کوتاه اما پرمغز):

> مفهوم AGI یعنی سامانه‌ای از هوش مصنوعی که می‌تواند در گستره (versatility) و عمق (proficiency) توانایی‌های شناختی، با یک انسان بالغ تحصیل‌کرده قابل مقایسه باشد.

---

🔬 اما چطور می‌توان آن را اندازه‌گیری کرد؟

پژوهشگران از یک مدل شناخته‌شده در روان‌سنجی به نام مدل Cattell–Horn–Carroll (CHC) استفاده کردند — مدلی که هوش انسان را به ۱۰ توانایی شناختی اصلی تقسیم می‌کند:

1. دانش عمومی و عقل سلیم
2. درک و نگارش متن
3. ریاضیات
4. حل مسائل جدید و استدلال منطقی
5. حافظه‌ی کوتاه‌مدت
6. حافظه‌ی بلندمدت و یادگیری
7. بازیابی و استخراج دانش
8. درک و خلق تصاویر
9. درک گفتار و موسیقی
10. سرعت پردازش اطلاعات

بر اساس این شاخص‌ها، پژوهشگران هم انسان و هم مدل‌های زبانی را ارزیابی کردند.

---

📊 نتایج:

اول GPT-4: تنها ۲۷٪ از AGI
دوم GPT-5: حدود ۵۸٪ از AGI


یعنی GPT-5 اکنون بیش از نیمی از پروفایل شناختی یک انسان بالغ تحصیل‌کرده را دارد — پیشرفتی چشمگیر، اما هنوز راه درازی تا دستیابی به هوش عمومی کامل در پیش است.
---

⚠️ نقاط ضعف GPT-5:

♻️حافظه‌ی بلندمدت
♻️درک دیداری و شنیداری
♻️سرعت واکنش
♻️تفکر انعطاف‌پذیر
---

⛔️به‌نظر می‌رسد این تعریف عینی، علمی و قابل‌اندازه‌گیری است — قطعاً بسیار بهتر از تعریف شرکت‌هایی مانند OpenAI و Microsoft، که AGI را به‌سادگی "هوشی که سالانه ۱۰۰ میلیارد دلار سود تولید کند" 💀 توصیف کرده‌اند!

#هوش_مصنوعی #AGI #GPT5 #یوشوا_بنجیو #یادگیری_ماشین #AI #ArtificialIntelligence
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
🚀 علی‌بابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯

شرکت Alibaba از سامانه‌ی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراک‌گذاری هوشمند GPU که بهره‌وری در سرویس‌دهی مدل‌های زبانی بزرگ (LLM) را تا ۸ برابر افزایش می‌دهد! ⚙️

📊 نتایج حیرت‌انگیز:

🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا

💡 در آزمایش بتای سه‌ماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر



---

🔥 چطور کار می‌کند؟

در حالت عادی، بسیاری از GPUها در زمان سرویس‌دهی به مدل‌های «سرد» (کم‌استفاده) بلااستفاده می‌مانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواست‌ها را انجام می‌دادند.

💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل می‌کند:

یعنی GPUها می‌توانند در حین تولید پاسخ (در سطح توکن) بین مدل‌ها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️


---

نتیجه:

✳️هر GPU می‌تواند تا ۷ مدل را هم‌زمان پشتیبانی کند (در سیستم‌های دیگر: ۲ تا ۳ مدل)

✳️تأخیر هنگام سوئیچ بین مدل‌ها تا ۹۷٪ کاهش یافته است

✳️مدل‌های «داغ» (پُرکاربرد) در اولویت می‌مانند، مدل‌های «سرد» فقط در لحظه‌های کوتاه منابع می‌گیرند



---

🧩 ویژه برای مرحله استنتاج (Inference):

همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمان‌بندی دقیق بار کاری (load scheduling) بهینه شده است.

در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب می‌شود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایین‌تر. 💰


---

مزایا:

♻️کاهش چشمگیر هزینه‌ی هر توکن
♻️افزایش بهره‌وری سخت‌افزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد


🔗 منبع: South China Morning Post

#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
👍4🔥1
📄 مدل DeepSeek-OCR — شناسایی متن با دقت بالا 🔍

شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که می‌تواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.

قابلیت‌ها:

♻️تشخیص متن در تصاویر و فایل‌های PDF
♻️پشتیبانی از جداول، نمودارها و قالب‌های پیچیده‌ی اسناد
♻️چهار نسخه‌ی بهینه‌شده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه


ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشرده‌سازی توکن‌های تصویری (Visual Tokens Compression)،
به دقت و سرعتی بی‌نظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدل‌های OCR موجود سریع‌تر و کارآمدتر عمل می‌کند.

🟠 Hugging Face
🟠 GitHub
🟠 Paper

@rss_ai_ir

#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
1👍1
📊 ترافیک GenAI — آمار جدید از رقابت غول‌های هوش مصنوعی

📈 داده‌های تازه نشان می‌دهد که تعادل بازار بین مدل‌های تولیدی (Generative AI) در حال تغییر است:

مدل ChatGPT به‌آرامی در حال از دست دادن سهم بازار است.

همچنین Perplexity برای نخستین بار از مرز ۲٪ عبور کرد.


🗓️ یک سال پیش:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%

🗓️ ۶ ماه پیش:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%

🗓️ ۳ ماه پیش:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%

🗓️ ماه گذشته:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%

🗓️ امروز:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%

📊 نتیجه:
بازار به‌تدریج از انحصار ChatGPT خارج می‌شود.
مدل‌های Gemini و Perplexity با رشد پیوسته، جایگاه خود را تقویت کرده‌اند،
و با عرضه‌ی Gemini 3.0 انتظار می‌رود گوگل موقعیت خود را بیش از پیش بهبود بخشد.

@rss_ai_ir

#هوش_مصنوعی #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot #آمار #GenAI #تحلیل_داده
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄

پروژه‌ی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیط‌های شبیه‌سازی تعاملی و مبتنی بر فیزیک تبدیل می‌کند.

🎯 هدف اصلی آن، ایجاد بستری مقیاس‌پذیر برای یادگیری ربات‌ها در فضاهای شهری واقعی است — جایی که مدل‌ها بتوانند بین دنیای شبیه‌سازی و واقعیت تعمیم‌پذیری واقعی پیدا کنند.

💡 ویژگی‌ها:

✳️تبدیل ویدیوهای شهری واقعی به شبیه‌سازی‌های فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش ربات‌ها در محیط‌های شهری متنوع و واقعی


📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — به‌زودی منتشر می‌شود

#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوق‌العاده از NVIDIA و MIT

پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدل‌های زبانی بزرگ با یادگیری تقویتی ارائه کرده‌اند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته می‌شود.

💡 ایده اصلی:
استفاده از وزن‌های ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث می‌شود مدل‌ها سریع‌تر و کم‌هزینه‌تر یاد بگیرند.

📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rollout‌ها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!

📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.

🔧 نوآوری QeRL:

♻️استفاده از وزن‌های NVFP4 با کمک Marlin

♻️نگهداری LoRA فقط برای گرادیان‌ها (صرفه‌جویی در حافظه)

♻️استفاده از یک نسخه‌ی ۴ بیتی از سیاست (policy) برای هر دو مرحله‌ی rollout و scoring — بدون تکرار حافظه


🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزن‌های کوانتیزه‌شده باعث افزایش تنوع (entropy) در خروجی‌ها می‌شود —
مدل بهتر فضای پاسخ را کاوش می‌کند.
با کاهش تدریجی نویز، پایداری حفظ می‌شود و همه چیز با RMSNorm ادغام می‌گردد — بدون اضافه شدن پارامتر جدید.

📊 نتایج آزمایشی:

پاداش‌ها سریع‌تر رشد می‌کنند

دقت برابر یا بالاتر از مدل‌های LoRA و QLoRA با دقت ۱۶ بیت


خلاصه:
سریع‌تر، کم‌هزینه‌تر و بهینه‌تر از روش‌های قبلی.
اکنون می‌توان مدل‌های بزرگ را واقعاً روی تنها یک GPU آموزش داد.

📄 متن کامل مقاله

#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.


---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪


در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).


---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License


🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub


@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵

📍 مدل DeepDetect یک مدل نوآورانه است که به‌عنوان یک تشخیص‌دهنده‌ی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:

🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel

را در قالب یک شبکه عصبی واحد ترکیب می‌کند.

💬 نویسندگان می‌گویند: این مدل، بازآفرینی عاشقانه‌ای از تمام تکنیک‌های قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.

💙 مجوز: MIT License

🔗 لینک‌ها:
👉 مقاله (arXiv)
👉 مخزن GitHub

#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 احتمال معرفی مرورگر جدید توسط OpenAI

به‌نظر می‌رسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥

شایعات درباره‌ی این مرورگر مدت‌هاست که شنیده می‌شود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو می‌رود.

📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز می‌شود.
در این میان، Perplexity Comet کمی نگران به‌نظر می‌رسد 😄 و بعضی کاربران شوخی می‌کنند که آماده‌ی حذف Arc هستند!

@rss_ai_ir

#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
👍2🔥1