VIRSUN

🧠 پژوهش جدید Anthropic: چگونه مدل‌های زبانی یاد می‌گیرند خود را درک کنند

شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند از «افکار» و حالت‌های درونی خودشان آگاهی پیدا کنند یا نه.

در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورون‌های مدل برای القای یک مفهوم مشخص.

🔹 برای نمونه، آن‌ها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعال‌سازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» درباره‌ی متنی است که باید با حروف بزرگ نوشته شود.

سپس از مدل پرسیدند:

> «آیا احساس می‌کنی چیزی درونت تغییر کرده؟»

در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
به‌عبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.

در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژه‌ی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر می‌شود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظه‌ای از تصمیم خود دارد.

مدل‌ها همچنین توانستند تا حدی حالت‌های درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش می‌یافت و با دستور «به این فکر نکن» کاهش پیدا می‌کرد.

📌 نویسندگان تأکید می‌کنند:
فرایند «درون‌نگری» یا Introspection تنها در برخی شرایط کار می‌کند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همه‌ی مدل‌ها یا وظایف دیگر است.
آن‌ها هشدار می‌دهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.

🧩 نتیجه‌ی اصلی پژوهش:
اگرچه مدل‌ها هنوز تا درون‌نگری واقعی (True Introspection) فاصله‌ی زیادی دارند، اما شواهد نشان می‌دهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیت‌های نورونی‌شان را به دست آورده‌اند.

🔗 متن کامل پژوهش در وب‌سایت Anthropic

@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning

👍2🔥1👏1

1.48K views06:07

VIRSUN

📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.

---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ

---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook

🔥1👏1

290 views09:48

VIRSUN

🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد ⚡📜

---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)

---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning

❤2👏1🙏1

1.52K views13:30

VIRSUN

📚 بزرگ‌ترین دیتاست آموزش مدل‌های عامل (Agent LLM) منتشر شد — شامل ۱.۲۷ میلیون مسیر یادگیری و بیش از ۳۶ میلیارد توکن! 🤖📈

تا امروز، آموزش گسترده‌ی supervised fine-tuning برای مدل‌های عامل نادر بود — نه به خاطر کمبود داده، بلکه به دلیل پراکندگی و تفاوت فرمت‌ها.

برای حل این مشکل، پژوهشگران Agent Data Protocol (ADP) را معرفی کرده‌اند — یک استاندارد یکپارچه برای داده‌های عامل‌ها که اطلاعات را از منابع مختلف ترکیب می‌کند:
🧩 کد، مرورگر، API، و ابزارها.

در این پروژه، ۱۳ دیتاست در قالب ADP ترکیب شده‌اند و حالا با چندین فریم‌ورک عامل سازگارند.
نتیجه؟ به طور میانگین ۲۰٪ بهبود عملکرد بدون نیاز به تنظیم اختصاصی برای هر دامنه — و رسیدن به سطح SOTA.

این گام راه را برای استاندارد واحد آموزش عامل‌ها و ایجاد پایپلاین‌های مقیاس‌پذیر باز می‌کند.

📄 مقاله: arxiv.org/abs/2510.24702
🌐 پروژه: agentdataprotocol.com

📡 @rss_ai_ir
#AgentLLM #هوش_مصنوعی #AI #LLM #DataProtocol #MachineLearning #Agents

arXiv.org

Agent Data Protocol: Unifying Datasets for Diverse, Effective...

Public research results on large-scale supervised finetuning of AI agents remain relatively rare, since the collection of agent training data presents unique challenges. In this work, we argue...

❤1

2.35K views15:47

VIRSUN

🧠 مجموعه Anthropic نسل جدید ایجنت‌های هوش مصنوعی را با اجرای کُد از طریق MCP متحول کرد

مجموعه Anthropic آپدیت بسیار مهمی منتشر کرده که شیوهٔ کار ایجنت‌های هوش مصنوعی را تغییر می‌دهد:
اجرای مستقیم کُد از طریق پروتکل MCP (Model Context Protocol) — تغییری که می‌تواند معماری ایجنت‌ها را وارد یک مرحلهٔ جدید کند.

🔸 در روش‌های قدیمی، ایجنت‌ها مجبور بودند برای هر اقدام، چندین فراخوانی ابزار (Tool Call) انجام دهند؛ این کار هم هزینهٔ محاسباتی را بالا می‌برد و هم سریع‌ فضای کانتکست را پر می‌کرد.
🔸 اما در رویکرد جدید، ایجنت مستقیماً کُد می‌نویسد و اجرا می‌کند و همان کد از طریق MCP ابزارها را فراخوانی می‌کند — نتیجه؟
کاهش ۹۸.۷٪ در مصرف توکن!
🔸 گاید رسمی Anthropic شامل نمونه‌کد، مراحل پیاده‌سازی و روش‌های اتصال به فریمورک‌های موجود است.
🔸 خروجی نهایی: ایجنت‌هایی سریع‌تر، ارزان‌تر و بسیار خودمختارتر که می‌توانند زنجیره‌ای از وظایف پیچیده را با کمترین سربار انجام دهند.

این تغییر فقط یک بهینه‌سازی نیست؛
یک پارادایم جدید برای ساخت ایجنت‌های مقیاس‌پذیر و خودکفا است.

https://www.anthropic.com/engineering/code-execution-with-mcp
---

#هوش_مصنوعی #Anthropic #MCP #AIagents #Claude #ایجنت #کدنویسی #مدل_زبان #خودمختاری #MachineLearning #AIRevolution

1.06K views15:01

VIRSUN

🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند

🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»

🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما

📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)

📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571

#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems

👍1🔥1👏1

133 views14:15

About

Blog

Apps

Platform