🧠 فرمت ONNX — زبان مشترک مدلهای هوش مصنوعی
در دنیای یادگیری عمیق، هر فریمورک (مثل PyTorch، TensorFlow یا Scikit-learn) مدلها را به فرمت مخصوص خودش ذخیره میکند.
اما اگر بخواهیم مدلی را در پایتورچ آموزش دهیم و بعد در محیط دیگری مثل OpenCV، C++، یا موبایل اجرا کنیم چه؟ 🤔
🔹 پاسخ: ONNX (Open Neural Network Exchange)
فرمت ONNX یک فرمت استاندارد و متنباز است که برای انتقال و اجرای مدلهای هوش مصنوعی در پلتفرمهای مختلف طراحی شده است.
💡 به زبان ساده:
فرمت ONNX مثل فایل PDF برای مدلهای هوش مصنوعی است —
فرقی نمیکند در چه فریمورکی ساخته شده، در هر جایی باز و اجرا میشود.
⚙️ مزایا:
♻️انتقال آسان مدلها بین فریمورکها (PyTorch → TensorFlow → OpenCV) 🔄
♻️اجرا روی دستگاههای مختلف (CPU، GPU، موبایل، Edge) ⚙️
♻️پشتیبانی از بهینهسازها مثل ONNX Runtime برای سرعت بیشتر 🚀
♻️پشتیبانی رسمی توسط شرکتهایی مثل Microsoft, NVIDIA, Meta و Intel 💼
📦 مثال:
در پایتورچ، میتوان مدل را با یک خط کد به ONNX صادر کرد:
و سپس با ONNX Runtime در هر محیطی اجرا کرد:
🌍 کاربردهای رایج:
♻️بهکارگیری مدلها در سیستمهای صنعتی
♻️اجرای مدلها روی وب یا موبایل
♻️ترکیب مدلهای ساختهشده در فریمورکهای مختلف
📌 فرمتONNX پلی است میان آموزش و استقرار —
به کمک آن، مدل شما میتواند از آزمایشگاه تا دنیای واقعی سفر کند 🌐
@rss_ai_ir
#هوش_مصنوعی #ONNX #DeepLearning #AI #PyTorch #TensorFlow #MachineLearning #EdgeAI
در دنیای یادگیری عمیق، هر فریمورک (مثل PyTorch، TensorFlow یا Scikit-learn) مدلها را به فرمت مخصوص خودش ذخیره میکند.
اما اگر بخواهیم مدلی را در پایتورچ آموزش دهیم و بعد در محیط دیگری مثل OpenCV، C++، یا موبایل اجرا کنیم چه؟ 🤔
🔹 پاسخ: ONNX (Open Neural Network Exchange)
فرمت ONNX یک فرمت استاندارد و متنباز است که برای انتقال و اجرای مدلهای هوش مصنوعی در پلتفرمهای مختلف طراحی شده است.
💡 به زبان ساده:
فرمت ONNX مثل فایل PDF برای مدلهای هوش مصنوعی است —
فرقی نمیکند در چه فریمورکی ساخته شده، در هر جایی باز و اجرا میشود.
⚙️ مزایا:
♻️انتقال آسان مدلها بین فریمورکها (PyTorch → TensorFlow → OpenCV) 🔄
♻️اجرا روی دستگاههای مختلف (CPU، GPU، موبایل، Edge) ⚙️
♻️پشتیبانی از بهینهسازها مثل ONNX Runtime برای سرعت بیشتر 🚀
♻️پشتیبانی رسمی توسط شرکتهایی مثل Microsoft, NVIDIA, Meta و Intel 💼
📦 مثال:
در پایتورچ، میتوان مدل را با یک خط کد به ONNX صادر کرد:
torch.onnx.export(model, inputs, "model.onnx")
و سپس با ONNX Runtime در هر محیطی اجرا کرد:
import onnxruntime as ort
session = ort.InferenceSession("model.onnx")
outputs = session.run(None, {"input": data})
🌍 کاربردهای رایج:
♻️بهکارگیری مدلها در سیستمهای صنعتی
♻️اجرای مدلها روی وب یا موبایل
♻️ترکیب مدلهای ساختهشده در فریمورکهای مختلف
📌 فرمتONNX پلی است میان آموزش و استقرار —
به کمک آن، مدل شما میتواند از آزمایشگاه تا دنیای واقعی سفر کند 🌐
@rss_ai_ir
#هوش_مصنوعی #ONNX #DeepLearning #AI #PyTorch #TensorFlow #MachineLearning #EdgeAI
❤4🔥2👌2🙏1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ درک شهودی از مکانیزم توجه (Attention Mechanism)
یکی از بهترین و سادهترین بصریسازیهایی که تا حالا از مکانیزم توجه در ترنسفورمرها منتشر شده — مفهومی که خیلی از توسعهدهندگان سالها طول کشید تا بهصورت شهودی آن را درک کنند. 🎯
در نگاه اول، فرمول ساده به نظر میرسد؛
میتوان آن را حفظ کرد و حتی بازنویسی کرد،
اما درک عمیق اینکه چطور Q (Query)، K (Key) و V (Value) با هم تعامل دارند، چیز دیگریست. 🧠
این ویدیو یا شماتیک دقیقاً همان چیزی است که کمک میکند درون ترنسفورمر را «ببینیم» — جایی که مدل یاد میگیرد چگونه توجه را میان بخشهای مختلف داده توزیع کند.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #ترنسفورمر #LLM #Attention #MachineLearning
یکی از بهترین و سادهترین بصریسازیهایی که تا حالا از مکانیزم توجه در ترنسفورمرها منتشر شده — مفهومی که خیلی از توسعهدهندگان سالها طول کشید تا بهصورت شهودی آن را درک کنند. 🎯
در نگاه اول، فرمول ساده به نظر میرسد؛
میتوان آن را حفظ کرد و حتی بازنویسی کرد،
اما درک عمیق اینکه چطور Q (Query)، K (Key) و V (Value) با هم تعامل دارند، چیز دیگریست. 🧠
این ویدیو یا شماتیک دقیقاً همان چیزی است که کمک میکند درون ترنسفورمر را «ببینیم» — جایی که مدل یاد میگیرد چگونه توجه را میان بخشهای مختلف داده توزیع کند.
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #ترنسفورمر #LLM #Attention #MachineLearning
🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
❤1👍1
🤖 سیستم چندعاملی برنامهنویسی (Multi-Agent Coding System)
این پروژه یک سیستم هوش مصنوعی چندعاملی است که از یک ارکستراتور هوشمند برای هماهنگسازی میان عاملهای پژوهشی و کدنویس استفاده میکند.
ارکستراتور وظیفه تقسیم وظایف به زیرمسائل و مدیریت کل فرآیند را بر عهده دارد تا رویکردی راهبردی و ساختاریافته در حل مسائل ایجاد شود.
🚀 ویژگیهای کلیدی:
🧠 دستاورد: کسب رتبهی ۱۲ در TerminalBench و عملکرد بهتر از Claude Code
🎯 ارکستراتور وظایف را بین عاملها تقسیم و نتایج را اعتبارسنجی میکند
🧩 هر عامل (Agent) با زمینه و ابزار اختصاصی کار میکند
🔗 استفاده از حافظهی زمینهای مشترک برای تبادل دانش بین عاملها — رویکردی نوین در همکاری بین هوشها
📌 سورسکد در گیتهاب:
👉 github.com/Danau5tin/multi-agent-coding-system
#AI #Agents #Python #MultiAgent #MachineLearning #هوش_مصنوعی #عامل_هوشمند #کدنویسی
این پروژه یک سیستم هوش مصنوعی چندعاملی است که از یک ارکستراتور هوشمند برای هماهنگسازی میان عاملهای پژوهشی و کدنویس استفاده میکند.
ارکستراتور وظیفه تقسیم وظایف به زیرمسائل و مدیریت کل فرآیند را بر عهده دارد تا رویکردی راهبردی و ساختاریافته در حل مسائل ایجاد شود.
🚀 ویژگیهای کلیدی:
🧠 دستاورد: کسب رتبهی ۱۲ در TerminalBench و عملکرد بهتر از Claude Code
🎯 ارکستراتور وظایف را بین عاملها تقسیم و نتایج را اعتبارسنجی میکند
🧩 هر عامل (Agent) با زمینه و ابزار اختصاصی کار میکند
🔗 استفاده از حافظهی زمینهای مشترک برای تبادل دانش بین عاملها — رویکردی نوین در همکاری بین هوشها
📌 سورسکد در گیتهاب:
👉 github.com/Danau5tin/multi-agent-coding-system
#AI #Agents #Python #MultiAgent #MachineLearning #هوش_مصنوعی #عامل_هوشمند #کدنویسی
❤1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💡 Cursor 2.0 —
جهشی بزرگ در ویرایشگر هوشمند کدنویسی با هوش مصنوعی 🚀
نسخهی جدید Cursor 2.0 معرفی شد و تجربهی کار با عاملهای هوش مصنوعی (AI Agents) و کدنویسی خودکار را به سطحی کاملاً تازه رسانده است.
✨ مهمترین ویژگیهای جدید:
🔹 چندعاملی (Multi-Agents):
اجرای همزمان تا ۸ عامل مستقل، هرکدام در نسخهی جداگانه از کد.
🔹 Composer:
نخستین مدل اختصاصی Cursor برای برنامهنویسی، با ظرفیت کانتکست طولانیتر و تا ۴ برابر سرعت بیشتر نسبت به مدلهای مشابه.
🔹 Backend Abstraction:
جابهجایی آسان بین سیستم محلی، ماشین مجازی یا دیتابیس.
🔹 مرورگر داخلی (Built-in Browser):
عاملها میتوانند وباپلیکیشنها را تست و با عناصر صفحه تعامل کنند.
🔹 Code Review
جدید: مشاهدهی تغییرات بدون نیاز به سوئیچ بین فایلها.
🔹 Sandboxed Terminals:
اجرای امن دستورات بدون دسترسی اینترنت.
🔹 Team Commands:
هماهنگی دستورات و تنظیمات برای کل تیم توسعهدهندگان.
🔹 Voice Mode:
ارسال دستورات و پرسوجوها با صدا 🎙️.
🔹 LSP
سریعتر: تکمیل خودکار و تحلیل کد در پروژههای بزرگ بسیار روانتر شده است.
🔹 Plan Mode
در پسزمینه: امکان برنامهریزی و اجرای همزمان وظایف.
🔹 Cloud Agents:
شروع آنی با پایداری ۹۹.۹٪.
🔹 قابلیتهای سازمانی (Enterprise):
کنترل مرکزی، hooks، و ممیزی فعالیت کاربران.
📎 جزئیات کامل در:
cursor.com/changelog/2-0
@rss_ai_ir
#AI #Coding #Cursor #Agents #Productivity #MachineLearning
جهشی بزرگ در ویرایشگر هوشمند کدنویسی با هوش مصنوعی 🚀
نسخهی جدید Cursor 2.0 معرفی شد و تجربهی کار با عاملهای هوش مصنوعی (AI Agents) و کدنویسی خودکار را به سطحی کاملاً تازه رسانده است.
✨ مهمترین ویژگیهای جدید:
🔹 چندعاملی (Multi-Agents):
اجرای همزمان تا ۸ عامل مستقل، هرکدام در نسخهی جداگانه از کد.
🔹 Composer:
نخستین مدل اختصاصی Cursor برای برنامهنویسی، با ظرفیت کانتکست طولانیتر و تا ۴ برابر سرعت بیشتر نسبت به مدلهای مشابه.
🔹 Backend Abstraction:
جابهجایی آسان بین سیستم محلی، ماشین مجازی یا دیتابیس.
🔹 مرورگر داخلی (Built-in Browser):
عاملها میتوانند وباپلیکیشنها را تست و با عناصر صفحه تعامل کنند.
🔹 Code Review
جدید: مشاهدهی تغییرات بدون نیاز به سوئیچ بین فایلها.
🔹 Sandboxed Terminals:
اجرای امن دستورات بدون دسترسی اینترنت.
🔹 Team Commands:
هماهنگی دستورات و تنظیمات برای کل تیم توسعهدهندگان.
🔹 Voice Mode:
ارسال دستورات و پرسوجوها با صدا 🎙️.
🔹 LSP
سریعتر: تکمیل خودکار و تحلیل کد در پروژههای بزرگ بسیار روانتر شده است.
🔹 Plan Mode
در پسزمینه: امکان برنامهریزی و اجرای همزمان وظایف.
🔹 Cloud Agents:
شروع آنی با پایداری ۹۹.۹٪.
🔹 قابلیتهای سازمانی (Enterprise):
کنترل مرکزی، hooks، و ممیزی فعالیت کاربران.
📎 جزئیات کامل در:
cursor.com/changelog/2-0
@rss_ai_ir
#AI #Coding #Cursor #Agents #Productivity #MachineLearning
🚀 استفاده از مدلهای زبانی در Go با کتابخانهی جدید yzma
کتابخانهی yzma امکان اجرای مدلهای زبانی (LLM)، مدلهای دید-زبان (VLM) و سایر معماریها را بهصورت بومی روی سختافزار خودتان فراهم میکند — با پشتیبانی کامل از شتاب سختافزاری و بدون نیاز به CGo! ⚙️
💡 ویژگیهای کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهرهگیری کامل از شتابدهندههای سختافزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخههای جدید llama.cpp
🔹 همراه با نمونهکدهای آماده برای انواع مدلها
📦 سیستمعاملهای پشتیبانیشده:
Linux 🐧
macOS 🍎
Windows 💻
📌 سورسکد و مستندات:
github.com/hybridgroup/yzma
با yzma، زبان Go بالاخره ابزار قدرتمند و سادهای برای استفاده مستقیم از مدلهای هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀
@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
کتابخانهی yzma امکان اجرای مدلهای زبانی (LLM)، مدلهای دید-زبان (VLM) و سایر معماریها را بهصورت بومی روی سختافزار خودتان فراهم میکند — با پشتیبانی کامل از شتاب سختافزاری و بدون نیاز به CGo! ⚙️
💡 ویژگیهای کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهرهگیری کامل از شتابدهندههای سختافزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخههای جدید llama.cpp
🔹 همراه با نمونهکدهای آماده برای انواع مدلها
📦 سیستمعاملهای پشتیبانیشده:
Linux 🐧
macOS 🍎
Windows 💻
📌 سورسکد و مستندات:
github.com/hybridgroup/yzma
با yzma، زبان Go بالاخره ابزار قدرتمند و سادهای برای استفاده مستقیم از مدلهای هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀
@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Minimax
نسخهی جدید شبکهی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3
شرکت Minimax نسخهی تازهای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژهای بر بهبود فیزیک حرکات و واقعگرایی در ویدیوها دارد — حرکات اکنون طبیعیتر، روانتر و از نظر دینامیکی دقیقتر هستند. ⚙️🎥
📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب میشود و میتواند برای کاربردهایی مانند انیمیشنسازی، تولید محتوای تبلیغاتی، و شبیهسازیهای واقعگرایانه مورد استفاده قرار گیرد.
منبع:
https://hailuoai.video/create/image-to-video
@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
نسخهی جدید شبکهی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3
شرکت Minimax نسخهی تازهای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژهای بر بهبود فیزیک حرکات و واقعگرایی در ویدیوها دارد — حرکات اکنون طبیعیتر، روانتر و از نظر دینامیکی دقیقتر هستند. ⚙️🎥
📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب میشود و میتواند برای کاربردهایی مانند انیمیشنسازی، تولید محتوای تبلیغاتی، و شبیهسازیهای واقعگرایانه مورد استفاده قرار گیرد.
منبع:
https://hailuoai.video/create/image-to-video
@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
👍2🔥1😁1👌1
🧠 پژوهش جدید Anthropic: چگونه مدلهای زبانی یاد میگیرند خود را درک کنند
شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدلهای زبانی بزرگ (LLM) میتوانند از «افکار» و حالتهای درونی خودشان آگاهی پیدا کنند یا نه.
در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورونهای مدل برای القای یک مفهوم مشخص.
🔹 برای نمونه، آنها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعالسازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» دربارهی متنی است که باید با حروف بزرگ نوشته شود.
سپس از مدل پرسیدند:
> «آیا احساس میکنی چیزی درونت تغییر کرده؟»
در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
بهعبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.
در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژهی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر میشود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظهای از تصمیم خود دارد.
مدلها همچنین توانستند تا حدی حالتهای درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش مییافت و با دستور «به این فکر نکن» کاهش پیدا میکرد.
📌 نویسندگان تأکید میکنند:
فرایند «دروننگری» یا Introspection تنها در برخی شرایط کار میکند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همهی مدلها یا وظایف دیگر است.
آنها هشدار میدهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.
🧩 نتیجهی اصلی پژوهش:
اگرچه مدلها هنوز تا دروننگری واقعی (True Introspection) فاصلهی زیادی دارند، اما شواهد نشان میدهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیتهای نورونیشان را به دست آوردهاند.
🔗 متن کامل پژوهش در وبسایت Anthropic
@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning
شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدلهای زبانی بزرگ (LLM) میتوانند از «افکار» و حالتهای درونی خودشان آگاهی پیدا کنند یا نه.
در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورونهای مدل برای القای یک مفهوم مشخص.
🔹 برای نمونه، آنها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعالسازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» دربارهی متنی است که باید با حروف بزرگ نوشته شود.
سپس از مدل پرسیدند:
> «آیا احساس میکنی چیزی درونت تغییر کرده؟»
در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
بهعبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.
در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژهی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر میشود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظهای از تصمیم خود دارد.
مدلها همچنین توانستند تا حدی حالتهای درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش مییافت و با دستور «به این فکر نکن» کاهش پیدا میکرد.
📌 نویسندگان تأکید میکنند:
فرایند «دروننگری» یا Introspection تنها در برخی شرایط کار میکند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همهی مدلها یا وظایف دیگر است.
آنها هشدار میدهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.
🧩 نتیجهی اصلی پژوهش:
اگرچه مدلها هنوز تا دروننگری واقعی (True Introspection) فاصلهی زیادی دارند، اما شواهد نشان میدهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیتهای نورونیشان را به دست آوردهاند.
🔗 متن کامل پژوهش در وبسایت Anthropic
@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning
👍2🔥1👏1
📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
❤2👏1🙏1
📚 بزرگترین دیتاست آموزش مدلهای عامل (Agent LLM) منتشر شد — شامل ۱.۲۷ میلیون مسیر یادگیری و بیش از ۳۶ میلیارد توکن! 🤖📈
تا امروز، آموزش گستردهی supervised fine-tuning برای مدلهای عامل نادر بود — نه به خاطر کمبود داده، بلکه به دلیل پراکندگی و تفاوت فرمتها.
برای حل این مشکل، پژوهشگران Agent Data Protocol (ADP) را معرفی کردهاند — یک استاندارد یکپارچه برای دادههای عاملها که اطلاعات را از منابع مختلف ترکیب میکند:
🧩 کد، مرورگر، API، و ابزارها.
در این پروژه، ۱۳ دیتاست در قالب ADP ترکیب شدهاند و حالا با چندین فریمورک عامل سازگارند.
نتیجه؟ به طور میانگین ۲۰٪ بهبود عملکرد بدون نیاز به تنظیم اختصاصی برای هر دامنه — و رسیدن به سطح SOTA.
این گام راه را برای استاندارد واحد آموزش عاملها و ایجاد پایپلاینهای مقیاسپذیر باز میکند.
📄 مقاله: arxiv.org/abs/2510.24702
🌐 پروژه: agentdataprotocol.com
📡 @rss_ai_ir
#AgentLLM #هوش_مصنوعی #AI #LLM #DataProtocol #MachineLearning #Agents
تا امروز، آموزش گستردهی supervised fine-tuning برای مدلهای عامل نادر بود — نه به خاطر کمبود داده، بلکه به دلیل پراکندگی و تفاوت فرمتها.
برای حل این مشکل، پژوهشگران Agent Data Protocol (ADP) را معرفی کردهاند — یک استاندارد یکپارچه برای دادههای عاملها که اطلاعات را از منابع مختلف ترکیب میکند:
🧩 کد، مرورگر، API، و ابزارها.
در این پروژه، ۱۳ دیتاست در قالب ADP ترکیب شدهاند و حالا با چندین فریمورک عامل سازگارند.
نتیجه؟ به طور میانگین ۲۰٪ بهبود عملکرد بدون نیاز به تنظیم اختصاصی برای هر دامنه — و رسیدن به سطح SOTA.
این گام راه را برای استاندارد واحد آموزش عاملها و ایجاد پایپلاینهای مقیاسپذیر باز میکند.
📄 مقاله: arxiv.org/abs/2510.24702
🌐 پروژه: agentdataprotocol.com
📡 @rss_ai_ir
#AgentLLM #هوش_مصنوعی #AI #LLM #DataProtocol #MachineLearning #Agents
arXiv.org
Agent Data Protocol: Unifying Datasets for Diverse, Effective...
Public research results on large-scale supervised finetuning of AI agents remain relatively rare, since the collection of agent training data presents unique challenges. In this work, we argue...
❤1
🧠 مجموعه Anthropic نسل جدید ایجنتهای هوش مصنوعی را با اجرای کُد از طریق MCP متحول کرد
مجموعه Anthropic آپدیت بسیار مهمی منتشر کرده که شیوهٔ کار ایجنتهای هوش مصنوعی را تغییر میدهد:
اجرای مستقیم کُد از طریق پروتکل MCP (Model Context Protocol) — تغییری که میتواند معماری ایجنتها را وارد یک مرحلهٔ جدید کند.
🔸 در روشهای قدیمی، ایجنتها مجبور بودند برای هر اقدام، چندین فراخوانی ابزار (Tool Call) انجام دهند؛ این کار هم هزینهٔ محاسباتی را بالا میبرد و هم سریع فضای کانتکست را پر میکرد.
🔸 اما در رویکرد جدید، ایجنت مستقیماً کُد مینویسد و اجرا میکند و همان کد از طریق MCP ابزارها را فراخوانی میکند — نتیجه؟
کاهش ۹۸.۷٪ در مصرف توکن!
🔸 گاید رسمی Anthropic شامل نمونهکد، مراحل پیادهسازی و روشهای اتصال به فریمورکهای موجود است.
🔸 خروجی نهایی: ایجنتهایی سریعتر، ارزانتر و بسیار خودمختارتر که میتوانند زنجیرهای از وظایف پیچیده را با کمترین سربار انجام دهند.
این تغییر فقط یک بهینهسازی نیست؛
یک پارادایم جدید برای ساخت ایجنتهای مقیاسپذیر و خودکفا است.
https://www.anthropic.com/engineering/code-execution-with-mcp
---
#هوش_مصنوعی #Anthropic #MCP #AIagents #Claude #ایجنت #کدنویسی #مدل_زبان #خودمختاری #MachineLearning #AIRevolution
مجموعه Anthropic آپدیت بسیار مهمی منتشر کرده که شیوهٔ کار ایجنتهای هوش مصنوعی را تغییر میدهد:
اجرای مستقیم کُد از طریق پروتکل MCP (Model Context Protocol) — تغییری که میتواند معماری ایجنتها را وارد یک مرحلهٔ جدید کند.
🔸 در روشهای قدیمی، ایجنتها مجبور بودند برای هر اقدام، چندین فراخوانی ابزار (Tool Call) انجام دهند؛ این کار هم هزینهٔ محاسباتی را بالا میبرد و هم سریع فضای کانتکست را پر میکرد.
🔸 اما در رویکرد جدید، ایجنت مستقیماً کُد مینویسد و اجرا میکند و همان کد از طریق MCP ابزارها را فراخوانی میکند — نتیجه؟
کاهش ۹۸.۷٪ در مصرف توکن!
🔸 گاید رسمی Anthropic شامل نمونهکد، مراحل پیادهسازی و روشهای اتصال به فریمورکهای موجود است.
🔸 خروجی نهایی: ایجنتهایی سریعتر، ارزانتر و بسیار خودمختارتر که میتوانند زنجیرهای از وظایف پیچیده را با کمترین سربار انجام دهند.
این تغییر فقط یک بهینهسازی نیست؛
یک پارادایم جدید برای ساخت ایجنتهای مقیاسپذیر و خودکفا است.
https://www.anthropic.com/engineering/code-execution-with-mcp
---
#هوش_مصنوعی #Anthropic #MCP #AIagents #Claude #ایجنت #کدنویسی #مدل_زبان #خودمختاری #MachineLearning #AIRevolution