VIRSUN
11.7K subscribers
1.13K photos
677 videos
5 files
751 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🔥 خلاصه کنفرانس PyTorchCon 2025 در سان‌فرانسیسکو

⛔️کنفرانس امسال PyTorch واقعاً پر از دستاوردهای مهم بود. در اینجا چهار مورد از جالب‌ترین و کاربردی‌ترین ابزارهایی که در این چند روز معرفی شدند را مرور می‌کنیم 👇
---

1️⃣ 🧠 Helion —
زبان جدید برنامه‌نویسی مخصوص PyTorch
✳️زبان جدیدی که روی پایه پایتون ساخته شده تا بتوانید هسته‌های پردازشی (kernels) را مستقیماً بنویسید.
همچنین Helion کد را به‌صورت خودکار به Triton کامپایل می‌کند، یعنی بدون دردسر می‌توانید کرنل‌های GPU بهینه بنویسید.

🔗 Helion

---

2️⃣ ⚙️ torchcomms —
کتابخانه ارتباطی جدید برای یادگیری توزیع‌شده
✳️کتابخانه‌ای مخصوص آموزش مدل‌ها روی سخت‌افزارهای عظیم (تا ۱۰۰هزار GPU 😮).
هدف اصلی: بهینه‌سازی ارتباط بین نودها و کاهش تاخیر در سیستم‌های بزرگ.
🔗 torchcomms

---

3️⃣ 📱 ExecuTorch 1.0 —
اجرای مدل‌ها روی موبایل و گجت‌ها

✳️راه‌حلی کامل برای اجرای مدل‌های PyTorch روی موبایل، ساعت‌های هوشمند و دستگاه‌های لبه‌ای (Edge Devices).
هم از نظر سرعت، هم مصرف حافظه و انرژی، فوق‌العاده بهینه شده.
🔗 ExecuTorch 1.0

---

4️⃣ 🤖 torchforge —
کتابخانه‌ای برای یادگیری تقویتی (RL) و ساخت Agentها
✳️همچنین PyTorch با Torchforge مسیر تازه‌ای در هوش مصنوعی عامل‌محور باز کرده است.
ساختارش به گونه‌ای طراحی شده که بخش الگوریتمی از زیرساخت جداست — تا تمرکز فقط روی منطق یادگیری باشد.
🔗 torchforge

---

📊 نتیجه:
همچنین PyTorch به‌وضوح دارد از یک فریم‌ورک آموزشی به اکوسیستم کامل AI برای تولید، استقرار و بهینه‌سازی مدل‌ها تبدیل می‌شود.
دو روز فوق‌العاده پربار برای جامعه هوش مصنوعی 🌍

@rss_ai_ir
#PyTorch #Helion #ExecuTorch #torchforge #AI #DeepLearning #ML #PyTorchCon
🔥2👏1🙏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدل‌های چندوجهی (Multimodal)

فریم‌ورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدل‌هایی که هم‌زمان می‌توانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️

🎯 ویژگی‌ها:

پشتیبانی از بیش از ۱۹ معماری مختلف:

🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن

🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت

🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)

🌫 dLLM:
مدل‌های زبانی دیفیوژنی

🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدل‌های پیشرفته



📜 لایسنس: Apache 2.0 — قابل‌استفاده حتی در پروژه‌های تجاری

🔗 گیت‌هاب:
github.com/EvolvingLMMs-Lab/lmms-engine

@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
2
⚡️ Glyph —
فشرده‌سازی بصری-متنی برای گسترش محدوده‌ی کانتکست در مدل‌های زبانی

ایده‌ی اصلی Glyph بسیار ساده اما نوآورانه است:
به‌جای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن به‌صورت تصویر نمایش داده می‌شود و سپس توسط مدل‌های Vision-Language پردازش می‌گردد 🧠🖼️

🔹 مدل از یک الگوریتم ژنتیکی هدایت‌شده توسط LLM استفاده می‌کند تا بهترین ترکیب از ویژگی‌های بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشرده‌سازی و دقت معنایی تعادل برقرار کند.

💡 نتیجه؟

✳️هزینه محاسباتی به‌شدت کاهش می‌یابد.

✳️ساختار معنایی متن حفظ می‌شود.

✳️دقت مدل تقریباً هم‌سطح با مدل‌های قدرتمندی مثل Qwen3-8B باقی می‌ماند.


در تست‌های فشرده‌سازی افراطی، یک مدل VLM با کانتکست 128K می‌تواند وظایفی را حل کند که در مدل‌های متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
به‌عبارت دیگر، درک کانتکست طولانی اکنون به یک مسئله‌ی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.

📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزن‌ها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph

@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1
🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدل‌های زبانی که به‌جای حفظ کردن، یاد می‌گیرند فکر کنند.

در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچک‌تر دیگر فقط پاسخ‌های مدل بزرگ‌تر را تکرار نمی‌کند؛ بلکه خودش تلاش می‌کند مسئله را حل کند، سپس «استاد» (مدل بزرگ‌تر) مسیر منطق و خطاهایش را تحلیل کرده و راهنمایی‌اش می‌کند.

به این ترتیب، مدل کوچک‌تر نه‌تنها دانش بلکه روش تفکر و استدلال مدل بزرگ‌تر را نیز فرا می‌گیرد. 🧩

📊 نتایج آزمایش‌ها (روی مسائل منطقی و ریاضی):

♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگ‌تر رسید.

♻️هزینه‌های محاسباتی چندین برابر کاهش یافت.

♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.


💡 چرا این مهم است؟
در روش‌های سنتی، مدل فقط پاسخ را تقلید می‌کند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد می‌گیرد — تجربه می‌کند، اشتباه می‌کند و اصلاح می‌شود.

🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد می‌کند.
🔹 بدون نیاز به محیط‌های پیچیده RL، مدل می‌تواند به‌صورت خودکار و با هزینه‌ی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدل‌های کوچک‌تر که تقریباً مثل مدل‌های بزرگ فکر می‌کنند، اما سریع‌تر، ارزان‌تر و مناسب برای edge devices، ربات‌ها و سیستم‌های محلی خصوصی هستند.

📘 مطالعه‌ی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/

@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
1👍1
⚡️ vLLM Sleep Mode —
حالت خواب برای تعویض سریع مدل‌ها

در نسخه‌ی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدل‌های زبانی را به‌شدت کاهش می‌دهد.

🧠 در روش‌های سنتی، اگر بخواهید دو مدل را به‌صورت هم‌زمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف می‌کند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان می‌برد.

Sleep Mode
راه سوم را ارائه می‌دهد:
مدل‌ها در حالت «خواب» قرار می‌گیرند و فقط در چند ثانیه دوباره «بیدار» می‌شوند، در حالی که وضعیت اولیه‌شان حفظ شده است.

🔹 دو سطح خواب:

1. Sleep Level 1:
وزن‌ها در RAM ذخیره می‌شوند — راه‌اندازی بسیار سریع اما نیاز به رم بالا دارد.


2. Sleep Level 2:
وزن‌ها کاملاً آزاد می‌شوند — مصرف رم پایین‌تر، ولی بیدارسازی کمی کندتر است.



📊 نتایج:

♻️سرعت سوئیچ بین مدل‌ها تا ۱۸ تا ۲۰۰ برابر بیشتر

♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریع‌تر

♻️زیرا فرآیندهایی مانند حافظه‌ی CUDA، گراف‌ها و JIT compilation حفظ می‌شوند.


💡 ویژگی Sleep Mode برای محیط‌هایی که نیاز به تعویض مداوم بین چند مدل دارند ایده‌آل است —
از GPUهای متوسط مثل A4000 تا مدل‌های قدرتمند مانند A100.

🔗 مطالعه‌ی کامل در بلاگ vLLM

@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱

👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرنده‌ی ۱۰۰۰ ویدیو کوتاه‌مدت و ۱۵۰ ویدیو بلندمدت است.

این مجموعه برای آموزش و ارزیابی الگوریتم‌های رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدل‌های بینایی ماشین محسوب می‌شود. 💙

🔗 مرجع‌ها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset

#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
🎓🤖 دوره جدید دانشگاه استنفورد: Transformers & Large Language Models

دانشگاه Stanford دوره‌ای تازه با عنوان
«Transformers & Large Language Models»
منتشر کرده است

— تدریس توسط برادران Amidi، و سه جلسه‌ی اول آن به‌صورت رایگان در YouTube در دسترس است 🎥💡

این دوره یکی از منسجم‌ترین و به‌روزترین منابع برای درک سیستماتیک مدل‌های زبانی بزرگ (LLM) به شمار می‌آید.

📘 سرفصل‌ها:
• مبانی Transformer: توکن‌سازی، تعبیه‌ها (Embeddings)، Attention و معماری کلی
• مفاهیم اصلی LLM: Mixture of Experts، انواع روش‌های دیکدینگ
• آموزش و فاین‌تیون: SFT، RLHF، LoRA
• ارزیابی مدل‌ها: LLM/VLM-as-a-judge و بهترین روش‌های سنجش
• ترفندها و بهینه‌سازی‌ها: RoPE، تقریب attention، کوانتیزه‌سازی
• استدلال و مقیاس‌پذیری در آموزش و استنتاج
• رویکردهای Agentic: RAG و Tool Calling

🧠 اگر از قبل با مدل‌های زبانی آشنا هستید، این دوره فرصت عالی برای مرور عمیق و پیاده‌سازی از صفر است.

🔗 cme295.stanford.edu/syllabus

📡 @rss_ai_ir
#هوش_مصنوعی #استنفورد #LLM #Transformer #آموزش #DeepLearning #RAG #LoRA #RLHF #AI
💡 انقلابی در پردازش تصویر با فوتون‌ها، نه الکترون‌ها!

پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کرده‌اند:
🌀 OFE² — Optical Feature Extraction Engine

در این سیستم، به‌جای عبور جریان الکترونی، فوتون‌ها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور می‌کنند.
در این مسیر، فاز و دامنه‌ی نور طوری تنظیم می‌شود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) به‌صورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥


---

🔬 مزیت کلیدی:
از آن‌جا که نور با سرعت بسیار بالاتر حرکت می‌کند و گرما تولید نمی‌کند،
فرکانس کاری بسیار بالاتر
مصرف انرژی صدها برابر کمتر
و زمان پردازش تا ۱۰۰۰ برابر سریع‌تر از تراشه‌های الکترونیکی معمولی به‌دست می‌آید!


---

📸 در مقاله‌ی منتشرشده، تیم نشان داده که OFE² می‌تواند روی وظیفه‌ی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، می‌شود روی این تراشه مستقیماً عملیات‌هایی مانند segmentation را انجام داد — کاملاً در دامنه‌ی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡


---

⚙️ هنوز این فناوری در مرحله‌ی تحقیقاتی است، اما نتایج اولیه نشان می‌دهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاس‌پذیری آن تحقق یابد، این می‌تواند فصل تازه‌ای در پردازش نوری هوش مصنوعی باشد.

📄 [Paper — Tsinghua University, 2025]

📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
🔥21👏1👌1
📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.


---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ


---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطه‌ای مولد با Flow Matching (GenPT) 🧷

🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدل‌سازی تراژکتوری‌های چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را به‌صورت هم‌زمان بیاموزد و بازسازی کند 🎯

این مدل با استفاده از روش Flow Matching (FM)، یاد می‌گیرد تا الگوهای حرکت پیچیده را در داده‌های ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه می‌شوند عملکردی پایدار و دقیق دارد 🔍📸

---

📘 ویژگی‌های کلیدی:
• مدل مولد (Generative) برای پیش‌بینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدل‌های CNN سنتی در بنچمارک‌های PointOdyssey، Dynamic Replica و TAP-Vid
• پیاده‌سازی متن‌باز با مجوز MIT 🔵

---

🔗 لینک‌ها:
📘 مقاله:
arxiv.org/pdf/2510.20951

🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/

💾 ریپازیتوری:
github.com/tesfaldet/genpt

📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد 📜


---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)


---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
2👏1🙏1
🔔 پیشرفت بزرگ در هوش مصنوعی الهام‌گرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! 🧠

پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورون‌های مصنوعی طراحی کرده‌اند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته می‌شود و هدف آن ایجاد شبکه‌های عصبی کم‌مصرف اما دقیق است.


---

💡 ایده‌ی اصلی

✳️در شبکه‌های سنتی، هر نورون تقریباً به همه‌ی نورون‌های دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورون‌های نزدیک یا مرتبط متصل می‌شود، درست مانند مغز که اتصالاتش بهینه و موضعی است.

✳️نسخه‌ی پیشرفته‌تر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیه‌سازی می‌کند تا اتصالات غیرضروری در طول یادگیری حذف شوند.


---

⚙️ نتایج شگفت‌انگیز

♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روش‌های استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکه‌های کلاسیک 💥

---

این دستاورد می‌تواند مسیر را برای نسل جدیدی از هوش مصنوعی‌های نورومورفیک (Neuromorphic AI) و تراشه‌های هوشمند فوق‌کم‌مصرف هموار کند — سامانه‌هایی که واقعاً مانند مغز فکر و یاد می‌گیرند، نه فقط شبیه آن عمل می‌کنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12


📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
1👍1👏1👌1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯


---

⚙️ آموزش و نوآوری

مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.


---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج


---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
1
🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU‌ مصرفی! 🤯💪

در پروژه‌ی جدید ModelScope SWIFT، محققان نشان دادند که می‌توان مدل‌های زبانی بزرگ (LLM) را با کانتکست‌های عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آن‌هم با ترکیب خلاقانه‌ی دو تکنیک: Ulysses + Ring Attention ⚙️


---

🔹 چطور کار می‌کند:

Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.

Ring Attention —
مقیاس‌پذیرتر است؛ ارتباطات را به‌صورت حلقوی (P2P) بین GPUها برقرار می‌کند
و با الگوریتم "زیگ‌زاگ" برای مدل‌های causal، توازن بهتری ایجاد می‌کند.

💡 ترکیب این دو روش:
ابتدا Ulysses اجرا می‌شود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشه‌های بالای ۸ GPU)، Ring به‌صورت خودکار فعال می‌شود.


---

🔥 نتیجه:

مدل Qwen2.5-3B با طول دنباله‌ی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀

پشتیبانی کامل از:

♻️SFT / DPO / GRPO
♻️ورودی‌های چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention

📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع

📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامه‌نویس ۲۳ ساله از هند دومین مدل متن‌باز هوش مصنوعی گفتار در جهان را ساختند!

مدل آن‌ها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راه‌حل‌های Google هم پیشی گرفته است.

🔹 مشخصات فنی:

♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلی‌ثانیه


💡 نتیجه واضح است:
امروز دیگر فقط غول‌های فناوری نیستند که می‌توانند مدل‌های پیشرفته بسازند — هرکسی با اراده و دانش کافی می‌تواند دستاورد جهانی خلق کند.

🔗 huggingface.co/maya-research/maya1

@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤‍🔥51
🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir