VIRSUN – Telegram

VIRSUN

10.6K subscribers

1.12K photos

673 videos

5 files

745 links

📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group

Download Telegram

About

Blog

Apps

Platform

10.6K subscribers

🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدل‌های زبانی که به‌جای حفظ کردن، یاد می‌گیرند فکر کنند.

در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچک‌تر دیگر فقط پاسخ‌های مدل بزرگ‌تر را تکرار نمی‌کند؛ بلکه خودش تلاش می‌کند مسئله را حل کند، سپس «استاد» (مدل بزرگ‌تر) مسیر منطق و خطاهایش را تحلیل کرده و راهنمایی‌اش می‌کند.

به این ترتیب، مدل کوچک‌تر نه‌تنها دانش بلکه روش تفکر و استدلال مدل بزرگ‌تر را نیز فرا می‌گیرد. 🧩

📊 نتایج آزمایش‌ها (روی مسائل منطقی و ریاضی):

♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگ‌تر رسید.

♻️هزینه‌های محاسباتی چندین برابر کاهش یافت.

♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.

💡 چرا این مهم است؟
در روش‌های سنتی، مدل فقط پاسخ را تقلید می‌کند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد می‌گیرد — تجربه می‌کند، اشتباه می‌کند و اصلاح می‌شود.

🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد می‌کند.
🔹 بدون نیاز به محیط‌های پیچیده RL، مدل می‌تواند به‌صورت خودکار و با هزینه‌ی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدل‌های کوچک‌تر که تقریباً مثل مدل‌های بزرگ فکر می‌کنند، اما سریع‌تر، ارزان‌تر و مناسب برای edge devices، ربات‌ها و سیستم‌های محلی خصوصی هستند.

📘 مطالعه‌ی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/

@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation

❤1👍1

277 views18:05

⚡️ vLLM Sleep Mode —
حالت خواب برای تعویض سریع مدل‌ها

در نسخه‌ی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدل‌های زبانی را به‌شدت کاهش می‌دهد.

🧠 در روش‌های سنتی، اگر بخواهید دو مدل را به‌صورت هم‌زمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف می‌کند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان می‌برد.

Sleep Mode
راه سوم را ارائه می‌دهد:
مدل‌ها در حالت «خواب» قرار می‌گیرند و فقط در چند ثانیه دوباره «بیدار» می‌شوند، در حالی که وضعیت اولیه‌شان حفظ شده است.

🔹 دو سطح خواب:

1. Sleep Level 1:
وزن‌ها در RAM ذخیره می‌شوند — راه‌اندازی بسیار سریع اما نیاز به رم بالا دارد.

2. Sleep Level 2:
وزن‌ها کاملاً آزاد می‌شوند — مصرف رم پایین‌تر، ولی بیدارسازی کمی کندتر است.

📊 نتایج:

♻️سرعت سوئیچ بین مدل‌ها تا ۱۸ تا ۲۰۰ برابر بیشتر

♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریع‌تر

♻️زیرا فرآیندهایی مانند حافظه‌ی CUDA، گراف‌ها و JIT compilation حفظ می‌شوند.

💡 ویژگی Sleep Mode برای محیط‌هایی که نیاز به تعویض مداوم بین چند مدل دارند ایده‌آل است —
از GPUهای متوسط مثل A4000 تا مدل‌های قدرتمند مانند A100.

🔗 مطالعه‌ی کامل در بلاگ vLLM

@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM

1.39K views18:17

This media is not supported in your browser

VIEW IN TELEGRAM

🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱

👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرنده‌ی ۱۰۰۰ ویدیو کوتاه‌مدت و ۱۵۰ ویدیو بلندمدت است.

این مجموعه برای آموزش و ارزیابی الگوریتم‌های رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدل‌های بینایی ماشین محسوب می‌شود. 💙

🔗 مرجع‌ها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset

#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین

300 views09:22

🎓🤖 دوره جدید دانشگاه استنفورد: Transformers & Large Language Models

دانشگاه Stanford دوره‌ای تازه با عنوان
«Transformers & Large Language Models»
منتشر کرده است

— تدریس توسط برادران Amidi، و سه جلسه‌ی اول آن به‌صورت رایگان در YouTube در دسترس است 🎥💡

این دوره یکی از منسجم‌ترین و به‌روزترین منابع برای درک سیستماتیک مدل‌های زبانی بزرگ (LLM) به شمار می‌آید.

📘 سرفصل‌ها:
• مبانی Transformer: توکن‌سازی، تعبیه‌ها (Embeddings)، Attention و معماری کلی
• مفاهیم اصلی LLM: Mixture of Experts، انواع روش‌های دیکدینگ
• آموزش و فاین‌تیون: SFT، RLHF، LoRA
• ارزیابی مدل‌ها: LLM/VLM-as-a-judge و بهترین روش‌های سنجش
• ترفندها و بهینه‌سازی‌ها: RoPE، تقریب attention، کوانتیزه‌سازی
• استدلال و مقیاس‌پذیری در آموزش و استنتاج
• رویکردهای Agentic: RAG و Tool Calling

🧠 اگر از قبل با مدل‌های زبانی آشنا هستید، این دوره فرصت عالی برای مرور عمیق و پیاده‌سازی از صفر است.

🔗 cme295.stanford.edu/syllabus

📡 @rss_ai_ir
#هوش_مصنوعی #استنفورد #LLM #Transformer #آموزش #DeepLearning #RAG #LoRA #RLHF #AI

312 views06:51

💡⚡ انقلابی در پردازش تصویر با فوتون‌ها، نه الکترون‌ها!

پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کرده‌اند:
🌀 OFE² — Optical Feature Extraction Engine

در این سیستم، به‌جای عبور جریان الکترونی، فوتون‌ها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور می‌کنند.
در این مسیر، فاز و دامنه‌ی نور طوری تنظیم می‌شود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) به‌صورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥

---

🔬 مزیت کلیدی:
از آن‌جا که نور با سرعت بسیار بالاتر حرکت می‌کند و گرما تولید نمی‌کند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریع‌تر از تراشه‌های الکترونیکی معمولی به‌دست می‌آید!

---

📸 در مقاله‌ی منتشرشده، تیم نشان داده که OFE² می‌تواند روی وظیفه‌ی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، می‌شود روی این تراشه مستقیماً عملیات‌هایی مانند segmentation را انجام داد — کاملاً در دامنه‌ی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡

---

⚙️ هنوز این فناوری در مرحله‌ی تحقیقاتی است، اما نتایج اولیه نشان می‌دهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاس‌پذیری آن تحقق یابد، این می‌تواند فصل تازه‌ای در پردازش نوری هوش مصنوعی باشد.

📄 [Paper — Tsinghua University, 2025]

📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN

🔥2❤1👏1👌1

295 views06:54

📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.

---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ

---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook

🔥1👏1

291 views09:48

This media is not supported in your browser

VIEW IN TELEGRAM

🧷 رهگیری نقطه‌ای مولد با Flow Matching (GenPT) 🧷

🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدل‌سازی تراژکتوری‌های چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را به‌صورت هم‌زمان بیاموزد و بازسازی کند 🎯

این مدل با استفاده از روش Flow Matching (FM)، یاد می‌گیرد تا الگوهای حرکت پیچیده را در داده‌های ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه می‌شوند عملکردی پایدار و دقیق دارد 🔍📸

---

📘 ویژگی‌های کلیدی:
• مدل مولد (Generative) برای پیش‌بینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدل‌های CNN سنتی در بنچمارک‌های PointOdyssey، Dynamic Replica و TAP-Vid
• پیاده‌سازی متن‌باز با مجوز MIT 🔵

---

🔗 لینک‌ها:
📘 مقاله:
arxiv.org/pdf/2510.20951

🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/

💾 ریپازیتوری:
github.com/tesfaldet/genpt

📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision

👍3🔥1

1.5K viewsedited 12:01

🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد ⚡📜

---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)

---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning

❤2👏1🙏1

1.53K views13:30

🔔 پیشرفت بزرگ در هوش مصنوعی الهام‌گرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! ⚡🧠

❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورون‌های مصنوعی طراحی کرده‌اند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته می‌شود و هدف آن ایجاد شبکه‌های عصبی کم‌مصرف اما دقیق است.

---

💡 ایده‌ی اصلی

✳️در شبکه‌های سنتی، هر نورون تقریباً به همه‌ی نورون‌های دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورون‌های نزدیک یا مرتبط متصل می‌شود، درست مانند مغز که اتصالاتش بهینه و موضعی است.

✳️نسخه‌ی پیشرفته‌تر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیه‌سازی می‌کند تا اتصالات غیرضروری در طول یادگیری حذف شوند.

---

⚙️ نتایج شگفت‌انگیز

♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روش‌های استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکه‌های کلاسیک 💥

---

این دستاورد می‌تواند مسیر را برای نسل جدیدی از هوش مصنوعی‌های نورومورفیک (Neuromorphic AI) و تراشه‌های هوشمند فوق‌کم‌مصرف هموار کند — سامانه‌هایی که واقعاً مانند مغز فکر و یاد می‌گیرند، نه فقط شبیه آن عمل می‌کنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12

📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی

❤1👍1👏1👌1

1.51K views03:53

🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯

---

⚙️ آموزش و نوآوری

✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.

---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج

---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning

❤1

2.36K views12:39

🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU‌ مصرفی! 🤯💪

در پروژه‌ی جدید ModelScope SWIFT، محققان نشان دادند که می‌توان مدل‌های زبانی بزرگ (LLM) را با کانتکست‌های عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آن‌هم با ترکیب خلاقانه‌ی دو تکنیک: Ulysses + Ring Attention ⚙️

---

🔹 چطور کار می‌کند:

✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.

✅ Ring Attention —
مقیاس‌پذیرتر است؛ ارتباطات را به‌صورت حلقوی (P2P) بین GPUها برقرار می‌کند
و با الگوریتم "زیگ‌زاگ" برای مدل‌های causal، توازن بهتری ایجاد می‌کند.

💡 ترکیب این دو روش:
ابتدا Ulysses اجرا می‌شود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشه‌های بالای ۸ GPU)، Ring به‌صورت خودکار فعال می‌شود.

---

🔥 نتیجه:

مدل Qwen2.5-3B با طول دنباله‌ی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀

پشتیبانی کامل از:

♻️SFT / DPO / GRPO
♻️ورودی‌های چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention

📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع

📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention

❤1

1.2K views14:18

This media is not supported in your browser

VIEW IN TELEGRAM

🎙️ دو برنامه‌نویس ۲۳ ساله از هند دومین مدل متن‌باز هوش مصنوعی گفتار در جهان را ساختند!

مدل آن‌ها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راه‌حل‌های Google هم پیشی گرفته است.

🔹 مشخصات فنی:

♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلی‌ثانیه

💡 نتیجه واضح است:
امروز دیگر فقط غول‌های فناوری نیستند که می‌توانند مدل‌های پیشرفته بسازند — هرکسی با اراده و دانش کافی می‌تواند دستاورد جهانی خلق کند.

🔗 huggingface.co/maya-research/maya1

@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning

❤‍🔥5❤1

1.16K views15:02

🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir

2.05K views15:15

This media is not supported in your browser

VIEW IN TELEGRAM

🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼

محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کرده‌اند — یک نمایش ویژگی چندوظیفه‌ای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را به‌صورت بردارهای فشرده (Embedding) نمایش دهد.

🧠 ایده‌ی کلیدی:
به‌جای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل می‌کند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنه‌های پویا می‌شود.

💡 ویژگی‌ها:

♻️دقت بالا در پیش‌بینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone

📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat

#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI

1.14K views11:24

🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند

🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»

🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما

📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)

📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571

#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems

👍14❤13🎉11😁10🔥9🥰8👏7

1.24K views14:15

🔍 اگر با NanoBanana کار می‌کنید، این مطلب برای شماست!

خیلی‌ها مدل NanoBanana را می‌شناسند و حرفه‌ای از آن استفاده می‌کنند، اما پیدا کردن تمام تکنیک‌ها و قابلیت‌هایش در یک‌جا همیشه سخت بوده.
حالا یک مقالهٔ فوق‌العاده منتشر شده که همه چیز را یک‌جا و کامل توضیح می‌دهد — از اصول تا ترفندهای پیشرفته.

در این مقاله می‌بینید:

✨ پرومت‌نویسی مثل مهندسی
🟣 ساخت تصاویر پیچیده مثل بچه‌گربه‌های هتروکرومیا با رنگ‌های HEX و ترکیب‌بندی سخت
🟣 رندر کامل یک صفحهٔ وب از صفر فقط با HTML + CSS + JS
🟣 تولید یک کاراکتر عجیب‌وغریب و دقیق با JSON (ترکیب Paladin + Pirate + Barista!)

---

🧩 مینی ریورس‌انجینیرینگ پرومت سیستم
نویسنده با تکنیک «magnet» تونسته بخشی از system prompt مدل را بیرون بکشد:

✳️سکشن‌های Markdown

✳️قوانین با MUST و SHOULD

✳️جلوگیری از استایل‌های قدیمی AI-Art

✳️و اینکه چطور مدل را وادار می‌کند دقیق‌تر و حرف‌گوش‌کن‌تر باشد

اگر در پرومت‌دیزاین، توسعه محصول یا ساخت اپ‌های مولتی‌مودال با NanoBanana/Gemini فعالیت دارید — این مقاله یک مرجع واقعی است.

📌 گیت‌هاب ابزارها و مثال‌ها:
https://github.com/minimaxir/gemimg

---

هشتگ‌ها:
#AI #NanoBanana #Gemini #PromptEngineering #AIGeneration #DeepLearning #AIArt #Tech

👍39❤36😁36🥰33👏33🎉30🔥24👌1

2.14K views14:18

🚀 یک موتور قدرتمند برای مدل‌های چندمودالی (Multimodal Models)

اگر با مدل‌های ترکیبی متن–تصویر–ویدیو کار می‌کنید، LMMs-Engine یکی از بهترین فریم‌ورک‌های جدید است.
این موتور فوق‌سبک و بسیار انعطاف‌پذیر، مخصوص آموزش و توسعه‌ی مدل‌های چندمودالی طراحی شده و حتی در مقیاس‌های بزرگ هم کارایی بسیار بالایی دارد.

💡 ویژگی‌های برجسته:

🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدل‌های ترکیبی

⚙️ بهینه‌سازی برای آموزش توزیع‌شده با مصرف حافظه بسیار کم

🧩 شامل ده‌ها نمونه آماده اجرا برای شروع سریع با مدل‌های مختلف

⚡ مناسب برای پژوهشگران، توسعه‌دهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند

📌 گیت‌هاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine

---

#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir

😁19🔥17❤12🥰12🎉12👍10👏10🙏1

2.11K views17:43

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 مقایسه اندازه مدل‌های بزرگ هوش مصنوعی با مغز انسان!

در این کلیپ یک مقایسهٔ دیدنی بین ساختار «شبکه‌های عصبی» مدل‌های معروف هوش مصنوعی و مغز انسان نمایش داده می‌شود. هرچه پارامترهای یک مدل بیشتر باشد، تعداد ارتباطات عصبی آن بالاتر می‌رود و قدرت استدلال، خلاقیت و پردازش آن افزایش پیدا می‌کند.

مدل‌هایی که در این ویدئو مشاهده می‌کنید:

🔹 LLaMA 3 – 70B
🔹 Grok-3
🔹 GPT-4o
🔹 Claude 3 Opus
🔸 و در پایان: Human Brain 😍

با وجود این حجم عظیم از پارامترها، هیچ مدلی هنوز به پیچیدگی مغز انسان نزدیک نشده؛
اما سرعت پیشرفت هوش مصنوعی نشان می‌دهد که عصر‌های شگفت‌انگیزی در راه است… 🚀

@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Llama3 #GPT4o #Claude3 #Grok3 #AI #DeepLearning #مغز_انسان #مدل_زبان_بزرگ

❤6👍6🥰6🔥5🎉5😁3👏2🤯2👌2

1.09K views16:03

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 ساخت ویدیو با LongCat-Video؛ غول ۱۳.۶ میلیارد پارامتری تولید ویدیو

مدل LongCat-Video یکی از قدرتمندترین سیستم‌های تولید ویدیو است که می‌تواند متن را به ویدیو، تصویر را به ویدیو و حتی ادامهٔ ویدیو تولید کند — آن هم با کیفیت بالا و بدون افت در ویدیوهای طولانی.

🚀 ویژگی‌های کلیدی:

✳️معماری یکپارچه برای تمام وظایف تولید ویدیو

✳️توانایی ساخت ویدیوهایی با مدت چند دقیقه

✳️تولید کارآمد با رزولوشن بالا

✳️کیفیت رقابتی در سطح مدل‌های تجاری مطرح

📌 گیت‌هاب:
https://github.com/meituan-longcat/LongCat-Video

---

#LongCatVideo #AIvideo #VideoGeneration #DeepLearning
@rss_ai_ir

❤1👏1

1.04K views13:10

This media is not supported in your browser

VIEW IN TELEGRAM

@rss_ai_ir

🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!

از این به بعد می‌تونی نوت‌بوک‌های محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠

این یعنی:
⚡ سرعت بیشتر
⚡ محیط کدنویسی حرفه‌ای‌تر
⚡ اتصال بی‌واسطه VSCode → Colab Runtime

روش فعال‌سازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل ‎.ipynb‎ بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!

حالا به‌صورت مستقیم از VSCode داری روی Colab کار می‌کنی 😍
Happy coding 🐝✨

https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/

#هوش_مصنوعی #GoogleColab #VSCode #برنامه‌نویسی #DeepLearning
@rss_ai_ir

❤4🔥3👍1

1K views18:08