VIRSUN
6.1K subscribers
1.05K photos
617 videos
5 files
681 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🚀 در ByteDance Seed تکنیک جدیدی برای آموزش LLM معرفی شد: Knapsack RL

🔍 مشکل در RL کلاسیک:

در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان


💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کوله‌پشتی (Knapsack) روی مواردی صرف می‌شود که واقعاً سیگنال آموزشی می‌دهند.

نتایج:

🔼 ‌+20–40% گرادیان‌های غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 ‌+2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 ‌حدوداً دو برابر ارزان‌تر از روش توزیع یکنواخت


📄 جزییات بیشتر:
huggingface.co/papers/2509.25849

@rss_ai_ir 🤖

#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
🎓 استنفورد مجموعه‌ای جدید از درس‌های رایگان هوش مصنوعی با تدریس اندرو اِن‌جی منتشر کرد

⛔️دانشگاه Stanford مجموعه‌ای تازه از درس‌های آزاد (Open Lectures) در زمینه هوش مصنوعی و یادگیری ماشین را با تدریس مستقیم Andrew Ng — بنیان‌گذار Coursera و از پیشگامان آموزش مدرن هوش مصنوعی — منتشر کرده است. 🤖📚

---

🧠 محتوای دوره:

✳️آموزش شبکه‌های عصبی و اصول آموزش مدل‌های AI
✳️طراحی و ساخت عامل‌های هوشمند (AI Agents)
✳️نکات حرفه‌ای برای پیشرفت شغلی در حوزه هوش مصنوعی
✳️تمرین‌های عملی با فریم‌ورک‌های مدرن AI (مثل PyTorch و TensorFlow)
✳️مناسب برای مبتدیان تا متخصصان حرفه‌ای
---

💡 این دوره بخشی از برنامه جهانی دانشگاه استنفورد برای دسترسی همگانی به آموزش‌های AI است و به‌صورت کاملاً رایگان منتشر می‌شود.

📘 لینک دوره:
Stanford AI Lectures – Andrew Ng

https://www.youtube.com/watch?v=_NLHFoVNlbg

👨‍🏫 اندرو اِن‌جی همچنان همان کاری را انجام می‌دهد که مدل‌های هوش مصنوعی از آن ناتوان‌اند:
آموزش انسان‌ها برای تفکر مانند ماشین‌ها. 💬

#AI #MachineLearning #Stanford #AndrewNg #Education #Coursera #DeepLearning @rss_ai_ir
👍2
🔥 پژوهشی تازه نشان می‌دهد که GPT-6 ممکن است نه فقط هوشمندتر، بلکه از نظر محاسباتی «زنده» باشد!

🧠 مقاله‌ای با عنوان SEAL (Self-Adapting Language Models) در arXiv:2506.10943 منتشر شده که توضیح می‌دهد چگونه یک مدل زبانی می‌تواند پس از استقرار در دنیای واقعی، به یادگیری مداوم ادامه دهد — بدون نیاز به بازآموزی (retraining).

چند نفر از نویسندگان SEAL اکنون در OpenAI فعالیت می‌کنند 👀 و احتمال زیادی وجود دارد که این فناوری در GPT-6 به کار گرفته شود.

ویژگی‌های کلیدی SEAL:

📚 یادگیری از داده‌های جدید در زمان واقعی

🔧 ترمیم خودکار دانش تخریب‌شده

🧩 ایجاد حافظه‌های پایدار در میان جلسات مختلف


اگر GPT-6 این معماری را بپذیرد، دیگر صرفاً از داده‌ها استفاده نخواهد کرد — بلکه آن‌ها را جذب می‌کند.
مدلی که با تغییر جهان، خودش هم تغییر می‌کند و هر روز بهتر می‌شود.

📈 این می‌تواند آغاز عصر یادگیری پیوسته باشد — پایانی بر دوره‌ی مدل‌های ثابت و منجمد.
به فصل جدید خوش آمدید.

https://arxiv.org/abs/2506.10943

@rss_ai_ir
#GPT6 #OpenAI #SEAL #AI #ContinuousLearning #MachineLearning
👍2👏1
🤗 چه کسانی واقعاً محرک هوش مصنوعی متن‌باز هستند؟
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face

---
📊 مطالعه‌ی جدید نشان می‌دهد که کدام سازمان‌ها و چه نوع مدل‌هایی ستون فقرات اکوسیستم open-source AI را تشکیل می‌دهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدل‌ها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص داده‌اند.
یعنی بیشتر فعالیت‌ها حول محور گروه کوچکی از رهبران می‌چرخد — همان‌هایی که چهره‌ی اصلی AI متن‌باز را می‌سازند.


---

📉 اندازه مهم است (کوچک‌تر = بهتر):

♻️۹۲.۵٪ دانلودها مربوط به مدل‌هایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون


نتیجه واضح است: در دنیای open-source، مدل‌های سبک، سریع و قابل اجرا روی دستگاه‌های محلی برنده‌اند.
---

🧠 محبوب‌ترین حوزه‌ها:

♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️داده‌های زمانی — ۱.۷٪
---

🏢 چه کسانی این مدل‌ها را می‌سازند؟

♻️شرکت‌ها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاه‌ها — ۲۰.۷٪
♻️توسعه‌دهندگان مستقل — ۱۲.۱٪
♻️سازمان‌های غیرانتفاعی — ۳.۸٪
♻️آزمایشگاه‌های دیگر — ۰.۳٪
---

⚙️ چه نوع مدل‌هایی محبوب‌ترند؟

♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪

📌 بر خلاف هیاهوی رسانه‌ای پیرامون LLMها، کاربران عمدتاً مدل‌های کاربردی و کوچک را دانلود می‌کنند که به راحتی در محصولات واقعی ادغام می‌شوند.

---

🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:

♻️۱۸ بار در میان ۵۰ مدل برتر دیده می‌شود.
♻️۵۶.۴٪ از کل دانلودها از مدل‌های ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متن‌باز نه به لطف غول‌هایی با تریلیون پارامتر، بلکه به کمک مدل‌های فشرده، سریع و کاربردی زنده است — همان‌هایی که واقعاً در پروژه‌ها و محصولات استفاده می‌شوند.

---

📖 منبع کامل: Hugging Face Blog
@rss_ai_ir

#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
👍1
FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش


در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄

پروژه‌ی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیط‌های شبیه‌سازی تعاملی و مبتنی بر فیزیک تبدیل می‌کند.

🎯 هدف اصلی آن، ایجاد بستری مقیاس‌پذیر برای یادگیری ربات‌ها در فضاهای شهری واقعی است — جایی که مدل‌ها بتوانند بین دنیای شبیه‌سازی و واقعیت تعمیم‌پذیری واقعی پیدا کنند.

💡 ویژگی‌ها:

✳️تبدیل ویدیوهای شهری واقعی به شبیه‌سازی‌های فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش ربات‌ها در محیط‌های شهری متنوع و واقعی


📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — به‌زودی منتشر می‌شود

#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوق‌العاده از NVIDIA و MIT

پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدل‌های زبانی بزرگ با یادگیری تقویتی ارائه کرده‌اند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته می‌شود.

💡 ایده اصلی:
استفاده از وزن‌های ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث می‌شود مدل‌ها سریع‌تر و کم‌هزینه‌تر یاد بگیرند.

📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rollout‌ها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!

📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.

🔧 نوآوری QeRL:

♻️استفاده از وزن‌های NVFP4 با کمک Marlin

♻️نگهداری LoRA فقط برای گرادیان‌ها (صرفه‌جویی در حافظه)

♻️استفاده از یک نسخه‌ی ۴ بیتی از سیاست (policy) برای هر دو مرحله‌ی rollout و scoring — بدون تکرار حافظه


🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزن‌های کوانتیزه‌شده باعث افزایش تنوع (entropy) در خروجی‌ها می‌شود —
مدل بهتر فضای پاسخ را کاوش می‌کند.
با کاهش تدریجی نویز، پایداری حفظ می‌شود و همه چیز با RMSNorm ادغام می‌گردد — بدون اضافه شدن پارامتر جدید.

📊 نتایج آزمایشی:

پاداش‌ها سریع‌تر رشد می‌کنند

دقت برابر یا بالاتر از مدل‌های LoRA و QLoRA با دقت ۱۶ بیت


خلاصه:
سریع‌تر، کم‌هزینه‌تر و بهینه‌تر از روش‌های قبلی.
اکنون می‌توان مدل‌های بزرگ را واقعاً روی تنها یک GPU آموزش داد.

📄 متن کامل مقاله

#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.


---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪


در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).


---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License


🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub


@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
💡 گوگل پلتفرم جدیدی به نام Skills راه‌اندازی کرد — بستری آزاد برای یادگیری مهارت‌های هوش مصنوعی!

در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایه‌ی Python و یادگیری ماشین تا مباحث پیشرفته‌ی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش می‌دهد. 🚀

📘 چیزهایی که می‌توانید یاد بگیرید:

✳️ادغام هوش مصنوعی مولد در پایپلاین داده‌ها
✳️استقرار (Deploy) و نگهداری مدل‌های یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعه‌ی Google Cloud Innovators


🔹 دوره‌ها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شده‌اند.
🔹 در پایان، گواهینامه رسمی دریافت می‌کنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓

✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دوره‌ها:
skills.google/catalog

@rss_ai_ir

#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI
3