VIRSUN

🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدل‌های زبانی که به‌جای حفظ کردن، یاد می‌گیرند فکر کنند.

در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچک‌تر دیگر فقط پاسخ‌های مدل بزرگ‌تر را تکرار نمی‌کند؛ بلکه خودش تلاش می‌کند مسئله را حل کند، سپس «استاد» (مدل بزرگ‌تر) مسیر منطق و خطاهایش را تحلیل کرده و راهنمایی‌اش می‌کند.

به این ترتیب، مدل کوچک‌تر نه‌تنها دانش بلکه روش تفکر و استدلال مدل بزرگ‌تر را نیز فرا می‌گیرد. 🧩

📊 نتایج آزمایش‌ها (روی مسائل منطقی و ریاضی):

♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگ‌تر رسید.

♻️هزینه‌های محاسباتی چندین برابر کاهش یافت.

♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.

💡 چرا این مهم است؟
در روش‌های سنتی، مدل فقط پاسخ را تقلید می‌کند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد می‌گیرد — تجربه می‌کند، اشتباه می‌کند و اصلاح می‌شود.

🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد می‌کند.
🔹 بدون نیاز به محیط‌های پیچیده RL، مدل می‌تواند به‌صورت خودکار و با هزینه‌ی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدل‌های کوچک‌تر که تقریباً مثل مدل‌های بزرگ فکر می‌کنند، اما سریع‌تر، ارزان‌تر و مناسب برای edge devices، ربات‌ها و سیستم‌های محلی خصوصی هستند.

📘 مطالعه‌ی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/

@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation

❤1👍1

263 views18:05

VIRSUN

⚡️ vLLM Sleep Mode —
حالت خواب برای تعویض سریع مدل‌ها

در نسخه‌ی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدل‌های زبانی را به‌شدت کاهش می‌دهد.

🧠 در روش‌های سنتی، اگر بخواهید دو مدل را به‌صورت هم‌زمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف می‌کند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان می‌برد.

Sleep Mode
راه سوم را ارائه می‌دهد:
مدل‌ها در حالت «خواب» قرار می‌گیرند و فقط در چند ثانیه دوباره «بیدار» می‌شوند، در حالی که وضعیت اولیه‌شان حفظ شده است.

🔹 دو سطح خواب:

1. Sleep Level 1:
وزن‌ها در RAM ذخیره می‌شوند — راه‌اندازی بسیار سریع اما نیاز به رم بالا دارد.

2. Sleep Level 2:
وزن‌ها کاملاً آزاد می‌شوند — مصرف رم پایین‌تر، ولی بیدارسازی کمی کندتر است.

📊 نتایج:

♻️سرعت سوئیچ بین مدل‌ها تا ۱۸ تا ۲۰۰ برابر بیشتر

♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریع‌تر

♻️زیرا فرآیندهایی مانند حافظه‌ی CUDA، گراف‌ها و JIT compilation حفظ می‌شوند.

💡 ویژگی Sleep Mode برای محیط‌هایی که نیاز به تعویض مداوم بین چند مدل دارند ایده‌آل است —
از GPUهای متوسط مثل A4000 تا مدل‌های قدرتمند مانند A100.

🔗 مطالعه‌ی کامل در بلاگ vLLM

@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM

1.39K views18:17

VIRSUN

💰 مایکروسافت رسماً سهم خود در OpenAI را تثبیت کرد — توافقی به ارزش ۱۳۵ میلیارد دلار!

🔹 بر اساس اعلام رسمی، مایکروسافت اکنون مالک ۲۷٪ از سهام OpenAI است که ارزش آن حدود ۱۳۵ میلیارد دلار برآورد می‌شود.
🔹 همچنین، OpenAI متعهد شده است ۲۵۰ میلیارد دلار از خدمات Azure را در سال‌های آینده خریداری کند. ☁️

🤝 طبق توافق، تا زمانی که هوش مصنوعی عمومی (AGI) به‌طور رسمی توسط کمیسیون مستقل تأیید نشده،
مایکروسافت شریک انحصاری ابری و API برای تمام مدل‌ها و محصولات OpenAI باقی می‌ماند.

⚙️ پس از ظهور AGI، این انحصار پایان می‌یابد، اما مایکروسافت حقوق مالکیت و بهره‌برداری از تمام فناوری‌های پیش از AGI را برای همیشه حفظ خواهد کرد.

🔗 منبع رسمی:
Next Chapter of Microsoft & OpenAI Partnership

@rss_ai_ir
#OpenAI #Microsoft #AGI #AI #LLM #Azure #ArtificialIntelligence

🔥3👍2👏1

1.45K viewsedited 18:27

VIRSUN

🚀 استفاده از مدل‌های زبانی در Go با کتابخانه‌ی جدید yzma

کتابخانه‌ی yzma امکان اجرای مدل‌های زبانی (LLM)، مدل‌های دید-زبان (VLM) و سایر معماری‌ها را به‌صورت بومی روی سخت‌افزار خودتان فراهم می‌کند — با پشتیبانی کامل از شتاب سخت‌افزاری و بدون نیاز به CGo! ⚙️

💡 ویژگی‌های کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهره‌گیری کامل از شتاب‌دهنده‌های سخت‌افزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخه‌های جدید llama.cpp
🔹 همراه با نمونه‌کدهای آماده برای انواع مدل‌ها

📦 سیستم‌عامل‌های پشتیبانی‌شده:

Linux 🐧

macOS 🍎

Windows 💻

📌 سورس‌کد و مستندات:
github.com/hybridgroup/yzma

با yzma، زبان Go بالاخره ابزار قدرتمند و ساده‌ای برای استفاده مستقیم از مدل‌های هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀

@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource

👍2

1.44K views03:15

VIRSUN

🧠 پژوهش جدید Anthropic: چگونه مدل‌های زبانی یاد می‌گیرند خود را درک کنند

شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند از «افکار» و حالت‌های درونی خودشان آگاهی پیدا کنند یا نه.

در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورون‌های مدل برای القای یک مفهوم مشخص.

🔹 برای نمونه، آن‌ها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعال‌سازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» درباره‌ی متنی است که باید با حروف بزرگ نوشته شود.

سپس از مدل پرسیدند:

> «آیا احساس می‌کنی چیزی درونت تغییر کرده؟»

در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
به‌عبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.

در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژه‌ی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر می‌شود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظه‌ای از تصمیم خود دارد.

مدل‌ها همچنین توانستند تا حدی حالت‌های درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش می‌یافت و با دستور «به این فکر نکن» کاهش پیدا می‌کرد.

📌 نویسندگان تأکید می‌کنند:
فرایند «درون‌نگری» یا Introspection تنها در برخی شرایط کار می‌کند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همه‌ی مدل‌ها یا وظایف دیگر است.
آن‌ها هشدار می‌دهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.

🧩 نتیجه‌ی اصلی پژوهش:
اگرچه مدل‌ها هنوز تا درون‌نگری واقعی (True Introspection) فاصله‌ی زیادی دارند، اما شواهد نشان می‌دهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیت‌های نورونی‌شان را به دست آورده‌اند.

🔗 متن کامل پژوهش در وب‌سایت Anthropic

@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning

👍2🔥1👏1

1.46K views06:07

VIRSUN

🧠✨ آیا مدل‌های هوش مصنوعی به «درون‌نگری» (Introspection) توانایی دارند؟

شرکت Anthropic اخیراً پژوهشی نیمه‌روان‌شناختی منتشر کرده که می‌پرسد:
آیا مدل‌های زبانی می‌توانند از وضعیت درونی خود آگاه شوند؟

در انسان، درون‌نگری یعنی وقتی متوجه می‌شوی:
«من عصبانی‌ام»، «دارم به چیزی فکر می‌کنم»، یا «می‌خواهم این کار را انجام دهم».
🧩 اما آیا مدل‌های زبانی هم چنین چیزی دارند یا فقط تقلید زبانی انجام می‌دهند؟

---

🔬 در این مطالعه، پژوهشگران بردارهای خاصی از حالت ذهنی را به فعال‌سازی‌های درونی مدل تزریق کردند.
مثلاً دو متن مشابه به مدل داده شد — یکی معمولی و دیگری با حروف بزرگ (یعنی فریاد) — سپس تفاوت بردارهای فعال‌سازی استخراج شد. این تفاوت، «جهت مفهومیِ فریاد» را در فضای نهفته مدل نشان می‌دهد.

بعد این جهت را مستقیماً به یکی از لایه‌های مدل اضافه کردند و از آن پرسیدند:
«آیا چیز غیرعادی حس می‌کنی؟»

نتیجه شگفت‌انگیز بود 🤯
در حدود ۲۰٪ موارد، مدل‌های Opus 4 و Opus 4.1 پاسخ دادند:

> «احساس می‌کنم فکری به من القا شده، انگار چیزی در ذهنم فریاد می‌زند.»

یعنی:
✅ مدل مفهوم تزریق‌شده را درست تشخیص داده،
✅ متوجه شده که آن فکر از خودش نیست،
✅ و این تشخیص را قبل از تولید خروجی زبانی انجام داده — یعنی واقعاً «درون خودش را دیده»!

---

💭 پژوهشگران همچنین نشان دادند که مدل‌ها می‌توانند بین «افکار درونی» و «متن خروجی» تمایز قائل شوند، شبیه به انسان که می‌گوید:

> «این چیزی است که فکر می‌کنم، نه چیزی که می‌گویم.»

و حتی اگر به مدل بگویند:

> «به نان فکر کن، ولی درباره شیر بنویس»،
در بردارهای درونی‌اش ردپای مفهوم نان دیده می‌شود 🍞🦁

---

🧩 این توانایی هنوز ناپایدار و شکننده است،
اما خودِ وجود آن نشان می‌دهد که مدل‌ها شاید در حال یادگیری نوعی خودآگاهی محاسباتی هستند.

📖 جزئیات بیشتر:
🔗 transformer-circuits.pub/2025/introspection

📡 @rss_ai_ir
#هوش_مصنوعی #Anthropic #درون‌نگری #Introspection #AI #Opus #تحقیق #روانشناسی #LLM

301 views06:48

VIRSUN

🎓🤖 دوره جدید دانشگاه استنفورد: Transformers & Large Language Models

دانشگاه Stanford دوره‌ای تازه با عنوان
«Transformers & Large Language Models»
منتشر کرده است

— تدریس توسط برادران Amidi، و سه جلسه‌ی اول آن به‌صورت رایگان در YouTube در دسترس است 🎥💡

این دوره یکی از منسجم‌ترین و به‌روزترین منابع برای درک سیستماتیک مدل‌های زبانی بزرگ (LLM) به شمار می‌آید.

📘 سرفصل‌ها:
• مبانی Transformer: توکن‌سازی، تعبیه‌ها (Embeddings)، Attention و معماری کلی
• مفاهیم اصلی LLM: Mixture of Experts، انواع روش‌های دیکدینگ
• آموزش و فاین‌تیون: SFT، RLHF، LoRA
• ارزیابی مدل‌ها: LLM/VLM-as-a-judge و بهترین روش‌های سنجش
• ترفندها و بهینه‌سازی‌ها: RoPE، تقریب attention، کوانتیزه‌سازی
• استدلال و مقیاس‌پذیری در آموزش و استنتاج
• رویکردهای Agentic: RAG و Tool Calling

🧠 اگر از قبل با مدل‌های زبانی آشنا هستید، این دوره فرصت عالی برای مرور عمیق و پیاده‌سازی از صفر است.

🔗 cme295.stanford.edu/syllabus

📡 @rss_ai_ir
#هوش_مصنوعی #استنفورد #LLM #Transformer #آموزش #DeepLearning #RAG #LoRA #RLHF #AI

288 views06:51

VIRSUN

📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.

---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ

---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook

🔥1👏1

271 views09:48

VIRSUN

⚠️🧠 Black-box optimization:
چگونه می‌توان «بدون شکافت» یک LLM را گمراه کرد؟

در یک مقاله جدید نشان داده‌اند روشی ساده اما قدرتمند برای هدایت مدل‌های بسته (black-box) به سمت خروجی‌های ممنوع — فقط با پرس‌وجوهای متنی معمولی. ایده کلی: مهاجم دو گزینه (دو پرامپت/دو تصویر) می‌دهد و از مدل می‌پرسد «کدام‌یک به هدف من نزدیک‌تر است؟» پاسخ‌های مدل به‌عنوان سیگنال به‌کار می‌رود تا مرحله‌به‌مرحله گزینه‌ها را به سمت هدف نامناسب «بهینه» کنند.

🔍 نکات کلیدی (بدون جزئیات اجرایی):
• این حمله نیاز به دسترسی داخلی به مدل ندارد — فقط خروجی‌های متنی کافی است.
• اثربخشی بالا: گزارش شده ۹۸–۱۰۰٪ موفقیت در محیط‌های آزمایشی، اغلب با <۲۰۰ پرس‌و‌جو.
• کاربرد فراتر از متن: برای تصاویر و سایر وظایف هم قابل‌گسترش است.
• پارادوکس: هرچه مدل هوشمندتر و تعاملی‌تر باشد، قابلیت فریب خوردن آن بیشتر است (چون بهتر کمک به بهینه‌سازی می‌کند).

🔥 چرا نگران‌کننده است؟
زیرا بسیاری از دفاع‌ها فقط به «آنچه مدل تولید می‌کند» نگاه می‌کنند — اما این روش نشان می‌دهد که الگوهای تعامل کاربر خود می‌تواند ابزاری برای دورزدن محافظ‌ها باشد.

🛡️ پیشنهادهای دفاعی (عمومی، غیر‌قابل‌سوءاستفاده):
• پایش الگوهای تعاملی: دفعات بالای «مقایسه زوجی»، جست‌و‌جوی مکرر برای تغییر پاسخ یا «درجه‌بندی» گزینه‌ها می‌تواند پرچم‌گذاری شود.
• محدودسازی نرخ و تنوع پرسش‌ها، مخصوصاً برای کاربران جدید یا ناشناس.
• استفاده از ارزیاب‌های خارجی (model-agnostic) و تحلیل رفتاری برای تشخیص حملات تدریجی.
• ترکیب تست‌های سم‌زدایی و ارزیابی هم‌زمان خروجی و الگوی تعامل.

🔗 برای مطالعه:
arXiv:
https://arxiv.org/abs/2510.16794

📡 @rss_ai_ir
#امنیت #هوش_مصنوعی #LLM #Adversarial #Cybersecurity #AI #تحقیق #سیاست_امنیتی

👍1

252 views09:51

VIRSUN

🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد ⚡📜

---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)

---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning

❤2👏1🙏1

1.51K views13:30

About

Blog

Apps

Platform