VIRSUN
7.91K subscribers
1.36K photos
775 videos
5 files
860 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🧠 پژوهش جدید Anthropic: چگونه مدل‌های زبانی یاد می‌گیرند خود را درک کنند

شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند از «افکار» و حالت‌های درونی خودشان آگاهی پیدا کنند یا نه.

در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورون‌های مدل برای القای یک مفهوم مشخص.

🔹 برای نمونه، آن‌ها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعال‌سازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» درباره‌ی متنی است که باید با حروف بزرگ نوشته شود.

سپس از مدل پرسیدند:

> «آیا احساس می‌کنی چیزی درونت تغییر کرده؟»



در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
به‌عبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.

در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژه‌ی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر می‌شود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظه‌ای از تصمیم خود دارد.

مدل‌ها همچنین توانستند تا حدی حالت‌های درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش می‌یافت و با دستور «به این فکر نکن» کاهش پیدا می‌کرد.

📌 نویسندگان تأکید می‌کنند:
فرایند «درون‌نگری» یا Introspection تنها در برخی شرایط کار می‌کند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همه‌ی مدل‌ها یا وظایف دیگر است.
آن‌ها هشدار می‌دهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.

🧩 نتیجه‌ی اصلی پژوهش:
اگرچه مدل‌ها هنوز تا درون‌نگری واقعی (True Introspection) فاصله‌ی زیادی دارند، اما شواهد نشان می‌دهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیت‌های نورونی‌شان را به دست آورده‌اند.

🔗 متن کامل پژوهش در وب‌سایت Anthropic

@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning
👍2🔥1👏1
📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.


---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ


---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد 📜


---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)


---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
2👏1🙏1
📚 بزرگ‌ترین دیتاست آموزش مدل‌های عامل (Agent LLM) منتشر شد — شامل ۱.۲۷ میلیون مسیر یادگیری و بیش از ۳۶ میلیارد توکن! 🤖📈

تا امروز، آموزش گسترده‌ی supervised fine-tuning برای مدل‌های عامل نادر بود — نه به خاطر کمبود داده، بلکه به دلیل پراکندگی و تفاوت فرمت‌ها.

برای حل این مشکل، پژوهشگران Agent Data Protocol (ADP) را معرفی کرده‌اند — یک استاندارد یکپارچه برای داده‌های عامل‌ها که اطلاعات را از منابع مختلف ترکیب می‌کند:
🧩 کد، مرورگر، API، و ابزارها.

در این پروژه، ۱۳ دیتاست در قالب ADP ترکیب شده‌اند و حالا با چندین فریم‌ورک عامل سازگارند.
نتیجه؟ به طور میانگین ۲۰٪ بهبود عملکرد بدون نیاز به تنظیم اختصاصی برای هر دامنه — و رسیدن به سطح SOTA.

این گام راه را برای استاندارد واحد آموزش عامل‌ها و ایجاد پایپلاین‌های مقیاس‌پذیر باز می‌کند.

📄 مقاله: arxiv.org/abs/2510.24702
🌐 پروژه: agentdataprotocol.com

📡 @rss_ai_ir
#AgentLLM #هوش_مصنوعی #AI #LLM #DataProtocol #MachineLearning #Agents
1
🧠 مجموعه Anthropic نسل جدید ایجنت‌های هوش مصنوعی را با اجرای کُد از طریق MCP متحول کرد

مجموعه Anthropic آپدیت بسیار مهمی منتشر کرده که شیوهٔ کار ایجنت‌های هوش مصنوعی را تغییر می‌دهد:
اجرای مستقیم کُد از طریق پروتکل MCP (Model Context Protocol) — تغییری که می‌تواند معماری ایجنت‌ها را وارد یک مرحلهٔ جدید کند.

🔸 در روش‌های قدیمی، ایجنت‌ها مجبور بودند برای هر اقدام، چندین فراخوانی ابزار (Tool Call) انجام دهند؛ این کار هم هزینهٔ محاسباتی را بالا می‌برد و هم سریع‌ فضای کانتکست را پر می‌کرد.
🔸 اما در رویکرد جدید، ایجنت مستقیماً کُد می‌نویسد و اجرا می‌کند و همان کد از طریق MCP ابزارها را فراخوانی می‌کند — نتیجه؟
کاهش ۹۸.۷٪ در مصرف توکن!
🔸 گاید رسمی Anthropic شامل نمونه‌کد، مراحل پیاده‌سازی و روش‌های اتصال به فریمورک‌های موجود است.
🔸 خروجی نهایی: ایجنت‌هایی سریع‌تر، ارزان‌تر و بسیار خودمختارتر که می‌توانند زنجیره‌ای از وظایف پیچیده را با کمترین سربار انجام دهند.

این تغییر فقط یک بهینه‌سازی نیست؛
یک پارادایم جدید برای ساخت ایجنت‌های مقیاس‌پذیر و خودکفا است.

https://www.anthropic.com/engineering/code-execution-with-mcp
---

#هوش_مصنوعی #Anthropic #MCP #AIagents #Claude #ایجنت #کدنویسی #مدل_زبان #خودمختاری #MachineLearning #AIRevolution
🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند


🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»


🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما


📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)


📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571


#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍1413🎉11😁10🔥9🥰8👏7
🚀 یک موتور قدرتمند برای مدل‌های چندمودالی (Multimodal Models)

اگر با مدل‌های ترکیبی متن–تصویر–ویدیو کار می‌کنید، LMMs-Engine یکی از بهترین فریم‌ورک‌های جدید است.
این موتور فوق‌سبک و بسیار انعطاف‌پذیر، مخصوص آموزش و توسعه‌ی مدل‌های چندمودالی طراحی شده و حتی در مقیاس‌های بزرگ هم کارایی بسیار بالایی دارد.

💡 ویژگی‌های برجسته:

🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدل‌های ترکیبی

⚙️ بهینه‌سازی برای آموزش توزیع‌شده با مصرف حافظه بسیار کم

🧩 شامل ده‌ها نمونه آماده اجرا برای شروع سریع با مدل‌های مختلف

مناسب برای پژوهشگران، توسعه‌دهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند


📌 گیت‌هاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine


---

#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥1712🥰12🎉12👍10👏10🙏1
🍨کتابخانه Gelato — کتابخانه‌ای تازه برای مدیریت و بهینه‌سازی گراف‌های محاسباتی در ML

پروژه‌ی Gelato از mlfoundations یک کتابخانه‌ی مینیمال و بسیار کاربردی است که کمک می‌کند:

✳️گراف محاسباتی هر مدل ML را شفاف ببینیم

✳️وابستگی‌ها و مسیرها را تحلیل کنیم

✳️گراف را به‌صورت مستقیم اصلاح یا بهینه‌سازی کنیم

✳️معماری‌های جدید را آزمایش کنیم و گلوگاه‌های محاسباتی را پیدا کنیم


اگر با مدل‌های پیچیده، معماری‌های سفارشی، یا تحقیق روی طراحی شبکه‌ها کار می‌کنید، Gelato ابزار فوق‌العاده‌ای برای مهندسی و تحلیل ساختار مدل است.

🔗 Blog:
https://github.com/mlfoundations/Gelato
🔗 🍨 Gelato-30B-A3B (Model):
https://huggingface.co/mlfoundations/Gelato-30B-A3B
🔗 🖱️ Click-100k (Data):
https://huggingface.co/datasets/mlfoundations/Click-100k


---

#MachineLearning #Gelato #MLGraphs #AIGeneration
@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖💥 شکایت جنجالی علیه Figure AI: ربات انسان‌نما با توانایی «خرد کردن جمجمه»؟

یک اتفاق پرحاشیه در دنیای رباتیک!
«رابرت گروئندل»، مهندس ارشد ایمنی محصول در شرکت Figure AI، علیه این شرکت در دادگاه فدرال کالیفرنیا شکایت کرده است. او ادعا می‌کند پس از گزارش خطرات ایمنی ربات‌ها، به‌صورت تلافی‌جویانه اخراج شده.

🔍 مهم‌ترین ادعاهای مطرح‌شده در شکایت:

مهندس هشدار داده بود که ربات انسان‌نمای شرکت دارای قدرتی خطرناک است؛ تا حدی که «قادر به خرد کردن جمجمه انسان» می‌باشد.

در یک حادثه، یکی از ربات‌ها دچار اشکال شد و روی درب یک یخچال فولادی، خراشی حدود ۶ میلی‌متر ایجاد کرد.

طبق ادعا، شرکت از "نقشه راه ایمنی" به‌عنوان ابزار جذب سرمایه و افزایش ارزش‌گذاری استفاده کرده، اما بعداً اجرای آن را تضعیف کرده است.

ارزش Figure AI بین سال‌های 2024 تا 2025 حدود ۳۹ میلیارد دلار افزایش یافت؛ این شکایت درست در دوران رشد سریع و توجه رسانه‌ای مطرح شده.


⛔️این پرونده می‌تواند تأثیرهای جدی روی موج فعلی ربات‌های انسان‌نما بگذارد — جایی که ایمنی، اعتماد عمومی و شفافیت بیش از هر زمان دیگری اهمیت دارد.


@rss_ai_ir
#ربات #روباتیک #هوش_مصنوعی
#FigureAI #ربات_انسان‌نما #ایمنی_ربات
#فناوری #تکنولوژی #روبات_صنعتی
#اتوماسیون #مهندسی_ربات
#AI #MachineLearning #RobotSafety
#HumanoidRobot #SafetyEngineering
#اخبار_هوش_مصنوعی #اخبار_تکنولوژی
😱1🥴1😐1
🤖 سه الگوی طلایی برای ساخت ایجنت‌های هوش مصنوعی

اگر در دنیای ایجنت‌ها کار می‌کنی، شناخت این سه الگوی متداول می‌تواند مسیر توسعه را چند برابر سریع‌تر و هوشمندانه‌تر کند.


---

🔹 الگوی بازتاب (Reflection)
در این روش ابتدا ورودی به ایجنت داده می‌شود؛ ایجنت پاسخ می‌دهد؛ سپس با دریافت بازخورد، پاسخ خود را اصلاح و بهبود می‌کند.
این چرخه تا رسیدن به کیفیت مطلوب ادامه می‌یابد.

🛠 ابزارهای مناسب:
• مدل پایه (مثل GPT-4o)
• مدل فاین‌تیون‌شده برای ارائه بازخورد
• اتوماسیون با n8n برای پیاده‌سازی چرخه بازتاب


---

🔹 الگوی مبتنی بر بازیابی دانش (RAG)
در این الگو، ایجنت هنگام انجام یک وظیفه می‌تواند از یک پایگاه دانش خارجی پرس‌وجو کند؛
بنابراین پاسخ‌ها دقیق‌تر، مستندتر و قابل استناد خواهند بود.

🛠 ابزارهای مناسب:
• پایگاه (Vector DB مثل Pinecone)
• ابزارهای UI برای ساخت سریع RAG مثل Aidbase
• ابزارهای API محور مثل SourceSync که به‌تازگی محبوب شده‌اند


---

🔹 الگوی جریان‌کاری هوشمند (AI Workflow)
در این روش، یک فلو یا اتوماسیون سنتی ایجاد می‌شود، اما برخی از مراحل توسط هوش مصنوعی انجام می‌گیرد: تحلیل، تولید متن، تصمیم‌گیری و…

🛠 ابزارهای مناسب:
• پلتفرم n8n برای مدیریت کل جریان
• مدل‌های هوش مصنوعی از طریق API (Claude، GPT-4o و…)


---

تسلط بر این سه الگو یعنی تسلط بر ۸۰٪ معماری ایجنت‌ها.
اگر بتوانی این سه ساختار را خوب درک و ترکیب کنی، تقریباً هر نوع ایجنت کاربردی را می‌توانی بسازی — از اتوماسیون‌های ساده تا سیستم‌های پیچیده تصمیم‌ساز.

@rss_ai_ir
#AI #Agents #Workflow #Reflection #RAG #هوش_مصنوعی #اتوماسیون #مهندسی_ایجنت #n8n #Pinecone #GPT #Claude #LLM #python #MachineLearning
2🔥1👏1
Media is too big
VIEW IN TELEGRAM
Paper2Video:
تبدیل خودکار مقاله‌ علمی به ویدئو

📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که می‌تواند از یک مقاله‌ علمی، به‌صورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره‌ سخنگو.
نتیجه‌ نهایی نسبت به روش‌های موجود دقیق‌تر، اطلاعاتی‌تر و بدون نیاز به تولید دستی محتوا است.

🔹 تاریخ انتشار: 6 اکتبر
🔹 لینک‌ها:

• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیت‌هاب:
https://showlab.github.io/Paper2Video/

دیتاست‌های مرتبط:
https://huggingface.co/datasets/ZaynZhu/Paper2Video

#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
2🔥1👏1
🌟 گوگل می‌خواهد رقابت هوش مصنوعی را نه با سرعت، بلکه با کاهش هزینهٔ محاسبات ببرد.

در حالی که انویدیا GPUها را با حاشیه سود بالا به کلودها می‌فروشد و هزینه نهایی برای مشتریان بالا می‌رود، گوگل TPUها را تقریباً به قیمت تمام‌شده تولید و عرضه می‌کند.
نتیجه؟ کاهش شدید هزینهٔ هر توکن در پردازش‌های هوش مصنوعی.

🔹 کلید ماجرا:
بزرگ‌ترین هزینه در AI، آموزش نیست—بلکه اینفرنس است؛ یعنی هزینهٔ تولید توکن پس از استقرار مدل.
وقتی مدل اجرا می‌شود، تقریباً تمام بودجه صرف توکن‌سازی می‌شود، نه آموزش.

🔹 مزیت گوگل
با یکپارچه‌سازی عمودی (طراحی چیپ → دیتاسنتر → شبکه → سرویس‌های ابری)، گوگل می‌تواند هزینهٔ هر توکن را دائماً پایین بیاورد و همین کاهش را مستقیم به کاربران منتقل کند.

🔹 چرا این مهم است؟
اگر قیمت اهمیت بیشتری از سرعت پیدا کند، بسیاری از شرکت‌ها TPU را به GPU ترجیح خواهند داد.

🔹 نقش انویدیا
انویدیا همچنان رهبر آموزش مدل‌های بزرگ خواهد بود، اما ممکن است نتواند همین حاشیه سود بالا را حفظ کند—به‌خصوص اگر حجم بزرگی از اینفرنس به TPU منتقل شود.

🔹 برتری دیگر گوگل
اکوسیستم عظیمی مثل Search، YouTube، Android و Workspace ظرفیت TPUها را به‌طور کامل پر می‌کند و تقاضای پایدار تضمین می‌شود.

منبع:
https://x.com/KrisPatel99/status/1993259550544191645

@rss_ai_ir

#Google #TPU #Nvidia #AI #MachineLearning #Inference #CloudComputing #TechEconomics
👍1
🌟 مدل ToolOrchestra؛ انقلاب تازه در هوش مصنوعی عامل‌محور

انویدیا به‌همراه دانشگاه هنگ‌کنگ «ToolOrchestra» را معرفی کرده؛ روشی برای آموزش رهبر ارکستر‌های هوش مصنوعی که می‌توانند چندین مدل و ابزار را هم‌زمان هماهنگ کنند.

نتیجهٔ این رویکرد، Orchestrator-8B است — مدلی بر پایه Qwen3 که به‌جای حل مسئله به‌تنهایی، میان تفکر و فراخوانی ابزارها سوئیچ می‌کند:
جستجوگر وب، مفسر کد، مدل‌های تخصصی ریاضی و حتی غول‌هایی مثل Claude و Llama-Nemotron.

دستاوردها:

♻️حل مسائل ۲.۵ برابر سریع‌تر

♻️هزینهٔ استقرار ۷۰٪ کمتر

♻️کسب ۳۷.۱٪ در بِنچمارک سخت Humanity’s Last Exam
(بالاتر از GPT-5 با ۳۵.۱٪)


📎 پروژه با لایسنس Apache 2.0 منتشر شده است.

https://research.nvidia.com/labs/lpr/ToolOrchestra/

https://huggingface.co/nvidia/Orchestrator-8B

https://arxiv.org/pdf/2511.21689

https://huggingface.co/datasets/nvidia/ToolScale

https://github.com/NVlabs/ToolOrchestra


#AI #LLM #NVIDIA #Orchestrator #ToolOrchestra #Agents #MachineLearning
6
🌏 چین از آمریکا در بازار جهانی مدل‌های متن‌باز هوش مصنوعی پیشی گرفت

بررسی مشترک MIT و Hugging Face نشان می‌دهد که برای اولین بار، مدل‌های متن‌باز ساخت چین توانسته‌اند در تعداد دانلودهای جهانی از مدل‌های آمریکایی جلو بزنند.

🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪

این تغییر، نتیجه‌ی رشد انفجاری مدل‌هایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعه‌ی متن‌باز جهانی را تحت تأثیر قرار داده‌اند.

در مقابل، شرکت‌های آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدل‌های بسته و اختصاصی تمرکز کرده‌اند، و همین باعث شده در رقابت متن‌باز عقب بمانند.

منبع: ArticlePaper


#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاس‌پذیر را به دنیای صدا آورد 🎧🤖

مدل Step-Audio-R1 نقطه‌عطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیاده‌سازی کند.


---

🔥 ویژگی‌های کلیدی

✳️درک عمیق سیگنال صوتی

✳️واکنش در زمان واقعی

✳️زنجیره‌ استدلال مقیاس‌پذیر روی داده‌ صوتی

✳️کاهش شدید خطا و حذف «حدس‌زدن‌های بدون پشتوانه»

---
عملکرد

بهتر از Gemini 2.5 Pro و قابل‌مقایسه با Gemini 3 در بنچمارک‌های پیچیده صوتی

دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash

Time To First Token = فقط 0.92 ثانیه ⏱️

---
🎯 چرا متفاوت است؟

مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده می‌کند.
یعنی ریزونینگ به نشانه‌های واقعی صوتی متصل می‌شود، نه به تخیلات مدل.
به‌صورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده می‌شود» فکر می‌کند، نه براساس متن.

این یعنی:

♻️خطای کمتر
♻️ریزونینگ قابل‌گسترش
♻️کاربردهای جدید برای صدا


---

🔗 لینک‌ها

🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/

📄 مقاله:
https://arxiv.org/abs/2511.15848

🐙 گیت‌هاب:
https://github.com/stepfun-ai/Step-Audio-R1


---

#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍21🔥1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متن‌باز برای GUI-Agent ها

یک خبر مهم برای دنیای ایجنت‌ها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متن‌باز برای سیستم‌های سطح بالایی مثل GUI-Agent MCP محسوب می‌شود. نسخه‌ای سبک، سریع و قابل اجرا به‌صورت کامل روی سیستم شخصی شما 🚀

🔧 چه چیزهایی داخلش هست؟

مدل ۴B در سطح SOTA؛ سریع، کم‌هزینه و قابل اجرا روی GPUهای سبک

زیرساخت راه‌اندازی «تک‌کلیک» بدون دردسرهای ADB

بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران


📊 نتایج و عملکرد

دقت ۷۳.۴٪ روی AndroidDaily

عملکرد بهتر از مدل‌های بزرگ‌تری مثل GUI-Owl-32B

بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تست‌های GUI

برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld


🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصی‌سازی کن، و توسعه بده — بالاخره یک گزینهٔ متن‌باز واقعی برای GUI-Agent ها در دسترس است.

🔗 لینک‌ها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html

#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
2
🚀 مدل‌های تازه DeepSeek-V3.2 و DeepSeek-V3.2-Speciale منتشر شدند
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحله‌ای و سناریوهای عامل‌محور طراحی شده است.

🧠 ویژگی‌های کلیدی

اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.

اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحی‌شده برای سیستم‌های عامل‌محور؛ فقط از طریق API در دسترس است.


📊 سطح عملکرد

اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً هم‌رده‌ی GPT-5 ارزیابی می‌شود.

نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت می‌کند.

و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.


🛠️ نوآوری در آموزش عامل‌ها

تولید داده‌ی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.

فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.


🔌 دسترسی و API

و V3.2 با همان API نسل قبلی کار می‌کند.

نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.


📦 مدل‌ها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
👍21🔥1👏1
🔥 مدل Ministral 3 منتشر شد؛ نسل جدید مدل‌های ریزونی و اینستراکت از Mistral

مینسترال ۳ در سه نسخه‌ی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدل‌های هم‌رده دارد.

ویژگی‌ها:

⚙️ نسخه‌ی ۱۴B روی لپ‌تاپ با ۲۴ گیگابایت RAM هم اجرا می‌شود

🧠 پشتیبانی از بینایی (Vision)

🚀 عملکرد قوی در تسک‌های استدلال و دنبال‌کردن دستورها

💻 امکان اجرا و فاین‌تیون لوکال


لینک‌ها:
راهنما + لپ‌تاپ:
https://docs.unsloth.ai/new/ministral-3

نسخه‌های GGUF:
https://huggingface.co/collections/unsloth/ministral-3

@rss_ai_ir

#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
🔥1👏1
📘 ۱۰ موضوع ضروری برای تسلط بر یادگیری ماشین

💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایه‌هایی هستند که همهٔ متخصصان ML روی آن‌ها ایستاده‌اند:

1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.

2️⃣ انواع یادگیری ماشین
نظارت‌شده، بدون‌نظارت و تقویتی — سه ستون اصلی که تمام الگوریتم‌ها روی آن‌ها بنا می‌شوند.

3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستم‌های پیشنهاددهنده.

4️⃣ جمع‌آوری و پاک‌سازی داده
حذف داده‌های ناقص، رفع تناقضات، حذف داده‌های تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن می‌شود.

5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگی‌های قابل فهم برای مدل — یکی از مهم‌ترین عوامل موفقیت.

6️⃣ پیش‌پردازش داده
نرمال‌سازی، استانداردسازی، کدگذاری دادهٔ دسته‌ای و تقسیم داده‌ها به train/test.

7️⃣ الگوریتم‌های یادگیری نظارت‌شده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقه‌بندی و رگرسیون.

8️⃣ شاخص‌های ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را می‌سنجند.

9️⃣ بیش‌برازش و کم‌برازش
شناخت این‌که مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیک‌های منظم‌سازی.

🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویس‌های ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.


---

@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
World Models That Know When They Don't Know

@rss_ai_ir

در دنیای مدل‌سازی ویدیو، یکی از بزرگ‌ترین مشکلات توهم‌زایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه می‌دهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمی‌داند، بداند که نمی‌داند! 🤯🎥
---
🔍 حال C3 چیست؟

اینکه C3 یک روش کمی‌سازی عدم‌قطعیت (Uncertainty Quantification) برای مدل‌های تولید ویدیو است. این روش کمک می‌کند مدل:

🎯 اعتمادپذیری پیکسل‌به‌پیکسل ارائه دهد (Dense Confidence Estimation)

🚨 ورودی‌های خارج از توزیع (OOD) را تشخیص دهد

🛑 توهمات ویدئویی را کاهش دهد

🎮 تولید ویدیو را تحت کنترل دقیق‌تری قرار دهد


به بیان ساده:
مدل فقط تولید نمی‌کند؛ به شما می‌گوید کجا احتمال اشتباه دارد! 🤝

---
💡 چرا مهم است؟

در کاربردهایی مثل خودران‌ها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک می‌کند که مدل‌های ویدیویی به جای تولید بی‌محابا، رفتار مسئولانه‌تری داشته باشند.
---

🔗 لینک‌ها

📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگ‌ها

#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1