🍨کتابخانه Gelato — کتابخانهای تازه برای مدیریت و بهینهسازی گرافهای محاسباتی در ML
پروژهی Gelato از mlfoundations یک کتابخانهی مینیمال و بسیار کاربردی است که کمک میکند:
✳️گراف محاسباتی هر مدل ML را شفاف ببینیم
✳️وابستگیها و مسیرها را تحلیل کنیم
✳️گراف را بهصورت مستقیم اصلاح یا بهینهسازی کنیم
✳️معماریهای جدید را آزمایش کنیم و گلوگاههای محاسباتی را پیدا کنیم
اگر با مدلهای پیچیده، معماریهای سفارشی، یا تحقیق روی طراحی شبکهها کار میکنید، Gelato ابزار فوقالعادهای برای مهندسی و تحلیل ساختار مدل است.
🔗 Blog:
https://github.com/mlfoundations/Gelato
🔗 🍨 Gelato-30B-A3B (Model):
https://huggingface.co/mlfoundations/Gelato-30B-A3B
🔗 🖱️ Click-100k (Data):
https://huggingface.co/datasets/mlfoundations/Click-100k
---
#MachineLearning #Gelato #MLGraphs #AIGeneration
@rss_ai_ir
پروژهی Gelato از mlfoundations یک کتابخانهی مینیمال و بسیار کاربردی است که کمک میکند:
✳️گراف محاسباتی هر مدل ML را شفاف ببینیم
✳️وابستگیها و مسیرها را تحلیل کنیم
✳️گراف را بهصورت مستقیم اصلاح یا بهینهسازی کنیم
✳️معماریهای جدید را آزمایش کنیم و گلوگاههای محاسباتی را پیدا کنیم
اگر با مدلهای پیچیده، معماریهای سفارشی، یا تحقیق روی طراحی شبکهها کار میکنید، Gelato ابزار فوقالعادهای برای مهندسی و تحلیل ساختار مدل است.
🔗 Blog:
https://github.com/mlfoundations/Gelato
🔗 🍨 Gelato-30B-A3B (Model):
https://huggingface.co/mlfoundations/Gelato-30B-A3B
🔗 🖱️ Click-100k (Data):
https://huggingface.co/datasets/mlfoundations/Click-100k
---
#MachineLearning #Gelato #MLGraphs #AIGeneration
@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖💥 شکایت جنجالی علیه Figure AI: ربات انساننما با توانایی «خرد کردن جمجمه»؟
یک اتفاق پرحاشیه در دنیای رباتیک!
«رابرت گروئندل»، مهندس ارشد ایمنی محصول در شرکت Figure AI، علیه این شرکت در دادگاه فدرال کالیفرنیا شکایت کرده است. او ادعا میکند پس از گزارش خطرات ایمنی رباتها، بهصورت تلافیجویانه اخراج شده.
🔍 مهمترین ادعاهای مطرحشده در شکایت:
مهندس هشدار داده بود که ربات انساننمای شرکت دارای قدرتی خطرناک است؛ تا حدی که «قادر به خرد کردن جمجمه انسان» میباشد.
در یک حادثه، یکی از رباتها دچار اشکال شد و روی درب یک یخچال فولادی، خراشی حدود ۶ میلیمتر ایجاد کرد.
✅طبق ادعا، شرکت از "نقشه راه ایمنی" بهعنوان ابزار جذب سرمایه و افزایش ارزشگذاری استفاده کرده، اما بعداً اجرای آن را تضعیف کرده است.
❌ارزش Figure AI بین سالهای 2024 تا 2025 حدود ۳۹ میلیارد دلار افزایش یافت؛ این شکایت درست در دوران رشد سریع و توجه رسانهای مطرح شده.
⛔️این پرونده میتواند تأثیرهای جدی روی موج فعلی رباتهای انساننما بگذارد — جایی که ایمنی، اعتماد عمومی و شفافیت بیش از هر زمان دیگری اهمیت دارد.
@rss_ai_ir
#ربات #روباتیک #هوش_مصنوعی
#FigureAI #ربات_انساننما #ایمنی_ربات
#فناوری #تکنولوژی #روبات_صنعتی
#اتوماسیون #مهندسی_ربات
#AI #MachineLearning #RobotSafety
#HumanoidRobot #SafetyEngineering
#اخبار_هوش_مصنوعی #اخبار_تکنولوژی
یک اتفاق پرحاشیه در دنیای رباتیک!
«رابرت گروئندل»، مهندس ارشد ایمنی محصول در شرکت Figure AI، علیه این شرکت در دادگاه فدرال کالیفرنیا شکایت کرده است. او ادعا میکند پس از گزارش خطرات ایمنی رباتها، بهصورت تلافیجویانه اخراج شده.
🔍 مهمترین ادعاهای مطرحشده در شکایت:
مهندس هشدار داده بود که ربات انساننمای شرکت دارای قدرتی خطرناک است؛ تا حدی که «قادر به خرد کردن جمجمه انسان» میباشد.
در یک حادثه، یکی از رباتها دچار اشکال شد و روی درب یک یخچال فولادی، خراشی حدود ۶ میلیمتر ایجاد کرد.
✅طبق ادعا، شرکت از "نقشه راه ایمنی" بهعنوان ابزار جذب سرمایه و افزایش ارزشگذاری استفاده کرده، اما بعداً اجرای آن را تضعیف کرده است.
❌ارزش Figure AI بین سالهای 2024 تا 2025 حدود ۳۹ میلیارد دلار افزایش یافت؛ این شکایت درست در دوران رشد سریع و توجه رسانهای مطرح شده.
⛔️این پرونده میتواند تأثیرهای جدی روی موج فعلی رباتهای انساننما بگذارد — جایی که ایمنی، اعتماد عمومی و شفافیت بیش از هر زمان دیگری اهمیت دارد.
@rss_ai_ir
#ربات #روباتیک #هوش_مصنوعی
#FigureAI #ربات_انساننما #ایمنی_ربات
#فناوری #تکنولوژی #روبات_صنعتی
#اتوماسیون #مهندسی_ربات
#AI #MachineLearning #RobotSafety
#HumanoidRobot #SafetyEngineering
#اخبار_هوش_مصنوعی #اخبار_تکنولوژی
😱1🥴1😐1
🤖 سه الگوی طلایی برای ساخت ایجنتهای هوش مصنوعی
اگر در دنیای ایجنتها کار میکنی، شناخت این سه الگوی متداول میتواند مسیر توسعه را چند برابر سریعتر و هوشمندانهتر کند.
---
🔹 الگوی بازتاب (Reflection)
در این روش ابتدا ورودی به ایجنت داده میشود؛ ایجنت پاسخ میدهد؛ سپس با دریافت بازخورد، پاسخ خود را اصلاح و بهبود میکند.
این چرخه تا رسیدن به کیفیت مطلوب ادامه مییابد.
🛠 ابزارهای مناسب:
• مدل پایه (مثل GPT-4o)
• مدل فاینتیونشده برای ارائه بازخورد
• اتوماسیون با n8n برای پیادهسازی چرخه بازتاب
---
🔹 الگوی مبتنی بر بازیابی دانش (RAG)
در این الگو، ایجنت هنگام انجام یک وظیفه میتواند از یک پایگاه دانش خارجی پرسوجو کند؛
بنابراین پاسخها دقیقتر، مستندتر و قابل استناد خواهند بود.
🛠 ابزارهای مناسب:
• پایگاه (Vector DB مثل Pinecone)
• ابزارهای UI برای ساخت سریع RAG مثل Aidbase
• ابزارهای API محور مثل SourceSync که بهتازگی محبوب شدهاند
---
🔹 الگوی جریانکاری هوشمند (AI Workflow)
در این روش، یک فلو یا اتوماسیون سنتی ایجاد میشود، اما برخی از مراحل توسط هوش مصنوعی انجام میگیرد: تحلیل، تولید متن، تصمیمگیری و…
🛠 ابزارهای مناسب:
• پلتفرم n8n برای مدیریت کل جریان
• مدلهای هوش مصنوعی از طریق API (Claude، GPT-4o و…)
---
✨ تسلط بر این سه الگو یعنی تسلط بر ۸۰٪ معماری ایجنتها.
اگر بتوانی این سه ساختار را خوب درک و ترکیب کنی، تقریباً هر نوع ایجنت کاربردی را میتوانی بسازی — از اتوماسیونهای ساده تا سیستمهای پیچیده تصمیمساز.
@rss_ai_ir
#AI #Agents #Workflow #Reflection #RAG #هوش_مصنوعی #اتوماسیون #مهندسی_ایجنت #n8n #Pinecone #GPT #Claude #LLM #python #MachineLearning
اگر در دنیای ایجنتها کار میکنی، شناخت این سه الگوی متداول میتواند مسیر توسعه را چند برابر سریعتر و هوشمندانهتر کند.
---
🔹 الگوی بازتاب (Reflection)
در این روش ابتدا ورودی به ایجنت داده میشود؛ ایجنت پاسخ میدهد؛ سپس با دریافت بازخورد، پاسخ خود را اصلاح و بهبود میکند.
این چرخه تا رسیدن به کیفیت مطلوب ادامه مییابد.
🛠 ابزارهای مناسب:
• مدل پایه (مثل GPT-4o)
• مدل فاینتیونشده برای ارائه بازخورد
• اتوماسیون با n8n برای پیادهسازی چرخه بازتاب
---
🔹 الگوی مبتنی بر بازیابی دانش (RAG)
در این الگو، ایجنت هنگام انجام یک وظیفه میتواند از یک پایگاه دانش خارجی پرسوجو کند؛
بنابراین پاسخها دقیقتر، مستندتر و قابل استناد خواهند بود.
🛠 ابزارهای مناسب:
• پایگاه (Vector DB مثل Pinecone)
• ابزارهای UI برای ساخت سریع RAG مثل Aidbase
• ابزارهای API محور مثل SourceSync که بهتازگی محبوب شدهاند
---
🔹 الگوی جریانکاری هوشمند (AI Workflow)
در این روش، یک فلو یا اتوماسیون سنتی ایجاد میشود، اما برخی از مراحل توسط هوش مصنوعی انجام میگیرد: تحلیل، تولید متن، تصمیمگیری و…
🛠 ابزارهای مناسب:
• پلتفرم n8n برای مدیریت کل جریان
• مدلهای هوش مصنوعی از طریق API (Claude، GPT-4o و…)
---
✨ تسلط بر این سه الگو یعنی تسلط بر ۸۰٪ معماری ایجنتها.
اگر بتوانی این سه ساختار را خوب درک و ترکیب کنی، تقریباً هر نوع ایجنت کاربردی را میتوانی بسازی — از اتوماسیونهای ساده تا سیستمهای پیچیده تصمیمساز.
@rss_ai_ir
#AI #Agents #Workflow #Reflection #RAG #هوش_مصنوعی #اتوماسیون #مهندسی_ایجنت #n8n #Pinecone #GPT #Claude #LLM #python #MachineLearning
❤2🔥1👏1
Media is too big
VIEW IN TELEGRAM
✨ Paper2Video:
تبدیل خودکار مقاله علمی به ویدئو
📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که میتواند از یک مقاله علمی، بهصورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره سخنگو.
نتیجه نهایی نسبت به روشهای موجود دقیقتر، اطلاعاتیتر و بدون نیاز به تولید دستی محتوا است.
🔹 تاریخ انتشار: 6 اکتبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیتهاب:
https://showlab.github.io/Paper2Video/
✨ دیتاستهای مرتبط:
• https://huggingface.co/datasets/ZaynZhu/Paper2Video
#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
تبدیل خودکار مقاله علمی به ویدئو
📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که میتواند از یک مقاله علمی، بهصورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره سخنگو.
نتیجه نهایی نسبت به روشهای موجود دقیقتر، اطلاعاتیتر و بدون نیاز به تولید دستی محتوا است.
🔹 تاریخ انتشار: 6 اکتبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیتهاب:
https://showlab.github.io/Paper2Video/
✨ دیتاستهای مرتبط:
• https://huggingface.co/datasets/ZaynZhu/Paper2Video
#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
❤2🔥1👏1
🌟 گوگل میخواهد رقابت هوش مصنوعی را نه با سرعت، بلکه با کاهش هزینهٔ محاسبات ببرد.
در حالی که انویدیا GPUها را با حاشیه سود بالا به کلودها میفروشد و هزینه نهایی برای مشتریان بالا میرود، گوگل TPUها را تقریباً به قیمت تمامشده تولید و عرضه میکند.
نتیجه؟ کاهش شدید هزینهٔ هر توکن در پردازشهای هوش مصنوعی.
🔹 کلید ماجرا:
بزرگترین هزینه در AI، آموزش نیست—بلکه اینفرنس است؛ یعنی هزینهٔ تولید توکن پس از استقرار مدل.
وقتی مدل اجرا میشود، تقریباً تمام بودجه صرف توکنسازی میشود، نه آموزش.
🔹 مزیت گوگل
با یکپارچهسازی عمودی (طراحی چیپ → دیتاسنتر → شبکه → سرویسهای ابری)، گوگل میتواند هزینهٔ هر توکن را دائماً پایین بیاورد و همین کاهش را مستقیم به کاربران منتقل کند.
🔹 چرا این مهم است؟
اگر قیمت اهمیت بیشتری از سرعت پیدا کند، بسیاری از شرکتها TPU را به GPU ترجیح خواهند داد.
🔹 نقش انویدیا
انویدیا همچنان رهبر آموزش مدلهای بزرگ خواهد بود، اما ممکن است نتواند همین حاشیه سود بالا را حفظ کند—بهخصوص اگر حجم بزرگی از اینفرنس به TPU منتقل شود.
🔹 برتری دیگر گوگل
اکوسیستم عظیمی مثل Search، YouTube، Android و Workspace ظرفیت TPUها را بهطور کامل پر میکند و تقاضای پایدار تضمین میشود.
منبع:
https://x.com/KrisPatel99/status/1993259550544191645
@rss_ai_ir
#Google #TPU #Nvidia #AI #MachineLearning #Inference #CloudComputing #TechEconomics
در حالی که انویدیا GPUها را با حاشیه سود بالا به کلودها میفروشد و هزینه نهایی برای مشتریان بالا میرود، گوگل TPUها را تقریباً به قیمت تمامشده تولید و عرضه میکند.
نتیجه؟ کاهش شدید هزینهٔ هر توکن در پردازشهای هوش مصنوعی.
🔹 کلید ماجرا:
بزرگترین هزینه در AI، آموزش نیست—بلکه اینفرنس است؛ یعنی هزینهٔ تولید توکن پس از استقرار مدل.
وقتی مدل اجرا میشود، تقریباً تمام بودجه صرف توکنسازی میشود، نه آموزش.
🔹 مزیت گوگل
با یکپارچهسازی عمودی (طراحی چیپ → دیتاسنتر → شبکه → سرویسهای ابری)، گوگل میتواند هزینهٔ هر توکن را دائماً پایین بیاورد و همین کاهش را مستقیم به کاربران منتقل کند.
🔹 چرا این مهم است؟
اگر قیمت اهمیت بیشتری از سرعت پیدا کند، بسیاری از شرکتها TPU را به GPU ترجیح خواهند داد.
🔹 نقش انویدیا
انویدیا همچنان رهبر آموزش مدلهای بزرگ خواهد بود، اما ممکن است نتواند همین حاشیه سود بالا را حفظ کند—بهخصوص اگر حجم بزرگی از اینفرنس به TPU منتقل شود.
🔹 برتری دیگر گوگل
اکوسیستم عظیمی مثل Search، YouTube، Android و Workspace ظرفیت TPUها را بهطور کامل پر میکند و تقاضای پایدار تضمین میشود.
منبع:
https://x.com/KrisPatel99/status/1993259550544191645
@rss_ai_ir
#Google #TPU #Nvidia #AI #MachineLearning #Inference #CloudComputing #TechEconomics
👍1
🌟 مدل ToolOrchestra؛ انقلاب تازه در هوش مصنوعی عاملمحور
انویدیا بههمراه دانشگاه هنگکنگ «ToolOrchestra» را معرفی کرده؛ روشی برای آموزش رهبر ارکسترهای هوش مصنوعی که میتوانند چندین مدل و ابزار را همزمان هماهنگ کنند.
نتیجهٔ این رویکرد، Orchestrator-8B است — مدلی بر پایه Qwen3 که بهجای حل مسئله بهتنهایی، میان تفکر و فراخوانی ابزارها سوئیچ میکند:
جستجوگر وب، مفسر کد، مدلهای تخصصی ریاضی و حتی غولهایی مثل Claude و Llama-Nemotron.
✨ دستاوردها:
♻️حل مسائل ۲.۵ برابر سریعتر
♻️هزینهٔ استقرار ۷۰٪ کمتر
♻️کسب ۳۷.۱٪ در بِنچمارک سخت Humanity’s Last Exam
(بالاتر از GPT-5 با ۳۵.۱٪)
📎 پروژه با لایسنس Apache 2.0 منتشر شده است.
https://research.nvidia.com/labs/lpr/ToolOrchestra/
https://huggingface.co/nvidia/Orchestrator-8B
https://arxiv.org/pdf/2511.21689
https://huggingface.co/datasets/nvidia/ToolScale
https://github.com/NVlabs/ToolOrchestra
#AI #LLM #NVIDIA #Orchestrator #ToolOrchestra #Agents #MachineLearning
انویدیا بههمراه دانشگاه هنگکنگ «ToolOrchestra» را معرفی کرده؛ روشی برای آموزش رهبر ارکسترهای هوش مصنوعی که میتوانند چندین مدل و ابزار را همزمان هماهنگ کنند.
نتیجهٔ این رویکرد، Orchestrator-8B است — مدلی بر پایه Qwen3 که بهجای حل مسئله بهتنهایی، میان تفکر و فراخوانی ابزارها سوئیچ میکند:
جستجوگر وب، مفسر کد، مدلهای تخصصی ریاضی و حتی غولهایی مثل Claude و Llama-Nemotron.
✨ دستاوردها:
♻️حل مسائل ۲.۵ برابر سریعتر
♻️هزینهٔ استقرار ۷۰٪ کمتر
♻️کسب ۳۷.۱٪ در بِنچمارک سخت Humanity’s Last Exam
(بالاتر از GPT-5 با ۳۵.۱٪)
📎 پروژه با لایسنس Apache 2.0 منتشر شده است.
https://research.nvidia.com/labs/lpr/ToolOrchestra/
https://huggingface.co/nvidia/Orchestrator-8B
https://arxiv.org/pdf/2511.21689
https://huggingface.co/datasets/nvidia/ToolScale
https://github.com/NVlabs/ToolOrchestra
#AI #LLM #NVIDIA #Orchestrator #ToolOrchestra #Agents #MachineLearning
❤6
🌏 چین از آمریکا در بازار جهانی مدلهای متنباز هوش مصنوعی پیشی گرفت
بررسی مشترک MIT و Hugging Face نشان میدهد که برای اولین بار، مدلهای متنباز ساخت چین توانستهاند در تعداد دانلودهای جهانی از مدلهای آمریکایی جلو بزنند.
🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪
این تغییر، نتیجهی رشد انفجاری مدلهایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعهی متنباز جهانی را تحت تأثیر قرار دادهاند.
در مقابل، شرکتهای آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدلهای بسته و اختصاصی تمرکز کردهاند، و همین باعث شده در رقابت متنباز عقب بمانند.
منبع: Article — Paper
#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
بررسی مشترک MIT و Hugging Face نشان میدهد که برای اولین بار، مدلهای متنباز ساخت چین توانستهاند در تعداد دانلودهای جهانی از مدلهای آمریکایی جلو بزنند.
🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪
این تغییر، نتیجهی رشد انفجاری مدلهایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعهی متنباز جهانی را تحت تأثیر قرار دادهاند.
در مقابل، شرکتهای آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدلهای بسته و اختصاصی تمرکز کردهاند، و همین باعث شده در رقابت متنباز عقب بمانند.
منبع: Article — Paper
#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
✨ مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاسپذیر را به دنیای صدا آورد 🎧🤖
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍2❤1🔥1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متنباز برای GUI-Agent ها
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
❤2
🚀 مدلهای تازه DeepSeek-V3.2 و DeepSeek-V3.2-Speciale منتشر شدند
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحلهای و سناریوهای عاملمحور طراحی شده است.
🧠 ویژگیهای کلیدی
اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.
اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحیشده برای سیستمهای عاملمحور؛ فقط از طریق API در دسترس است.
📊 سطح عملکرد
اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً همردهی GPT-5 ارزیابی میشود.
نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت میکند.
و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.
🛠️ نوآوری در آموزش عاملها
تولید دادهی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.
فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.
🔌 دسترسی و API
و V3.2 با همان API نسل قبلی کار میکند.
نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.
📦 مدلها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحلهای و سناریوهای عاملمحور طراحی شده است.
🧠 ویژگیهای کلیدی
اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.
اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحیشده برای سیستمهای عاملمحور؛ فقط از طریق API در دسترس است.
📊 سطح عملکرد
اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً همردهی GPT-5 ارزیابی میشود.
نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت میکند.
و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.
🛠️ نوآوری در آموزش عاملها
تولید دادهی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.
فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.
🔌 دسترسی و API
و V3.2 با همان API نسل قبلی کار میکند.
نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.
📦 مدلها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
👍2❤1🔥1👏1
🔥 مدل Ministral 3 منتشر شد؛ نسل جدید مدلهای ریزونی و اینستراکت از Mistral
مینسترال ۳ در سه نسخهی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدلهای همرده دارد.
ویژگیها:
⚙️ نسخهی ۱۴B روی لپتاپ با ۲۴ گیگابایت RAM هم اجرا میشود
🧠 پشتیبانی از بینایی (Vision)
🚀 عملکرد قوی در تسکهای استدلال و دنبالکردن دستورها
💻 امکان اجرا و فاینتیون لوکال
لینکها:
راهنما + لپتاپ:
https://docs.unsloth.ai/new/ministral-3
نسخههای GGUF:
https://huggingface.co/collections/unsloth/ministral-3
@rss_ai_ir
#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
مینسترال ۳ در سه نسخهی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدلهای همرده دارد.
ویژگیها:
⚙️ نسخهی ۱۴B روی لپتاپ با ۲۴ گیگابایت RAM هم اجرا میشود
🧠 پشتیبانی از بینایی (Vision)
🚀 عملکرد قوی در تسکهای استدلال و دنبالکردن دستورها
💻 امکان اجرا و فاینتیون لوکال
لینکها:
راهنما + لپتاپ:
https://docs.unsloth.ai/new/ministral-3
نسخههای GGUF:
https://huggingface.co/collections/unsloth/ministral-3
@rss_ai_ir
#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
🔥1👏1
📘 ۱۰ موضوع ضروری برای تسلط بر یادگیری ماشین
💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایههایی هستند که همهٔ متخصصان ML روی آنها ایستادهاند:
1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.
2️⃣ انواع یادگیری ماشین
نظارتشده، بدوننظارت و تقویتی — سه ستون اصلی که تمام الگوریتمها روی آنها بنا میشوند.
3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستمهای پیشنهاددهنده.
4️⃣ جمعآوری و پاکسازی داده
حذف دادههای ناقص، رفع تناقضات، حذف دادههای تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن میشود.
5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگیهای قابل فهم برای مدل — یکی از مهمترین عوامل موفقیت.
6️⃣ پیشپردازش داده
نرمالسازی، استانداردسازی، کدگذاری دادهٔ دستهای و تقسیم دادهها به train/test.
7️⃣ الگوریتمهای یادگیری نظارتشده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقهبندی و رگرسیون.
8️⃣ شاخصهای ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را میسنجند.
9️⃣ بیشبرازش و کمبرازش
شناخت اینکه مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیکهای منظمسازی.
🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویسهای ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.
---
@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایههایی هستند که همهٔ متخصصان ML روی آنها ایستادهاند:
1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.
2️⃣ انواع یادگیری ماشین
نظارتشده، بدوننظارت و تقویتی — سه ستون اصلی که تمام الگوریتمها روی آنها بنا میشوند.
3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستمهای پیشنهاددهنده.
4️⃣ جمعآوری و پاکسازی داده
حذف دادههای ناقص، رفع تناقضات، حذف دادههای تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن میشود.
5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگیهای قابل فهم برای مدل — یکی از مهمترین عوامل موفقیت.
6️⃣ پیشپردازش داده
نرمالسازی، استانداردسازی، کدگذاری دادهٔ دستهای و تقسیم دادهها به train/test.
7️⃣ الگوریتمهای یادگیری نظارتشده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقهبندی و رگرسیون.
8️⃣ شاخصهای ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را میسنجند.
9️⃣ بیشبرازش و کمبرازش
شناخت اینکه مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیکهای منظمسازی.
🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویسهای ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.
---
@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
❤3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ World Models That Know When They Don't Know
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Relational Visual Similarity
📝 Summary:
اینکه Vision-Language مدلهای آموزشدیده روی کپشنهای ناشناسشده میتوانند شباهت رابطهای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.
🔹 Publication Date: Dec 8
🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
📝 Summary:
اینکه Vision-Language مدلهای آموزشدیده روی کپشنهای ناشناسشده میتوانند شباهت رابطهای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.
🔹 Publication Date: Dec 8
🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
Media is too big
VIEW IN TELEGRAM
🌐 گراند اسلو، موو فست — مدل پایهای دوگانه برای ناوبری ویژنی-زبانی
📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:
1. یک برنامهریز جهانی مبتنی بر VLM برای فهم سطح بالا،
2. یک سیاست محلی سریع برای اجرای روانِ اکشنها.
این ترکیب باعث میشود رباتها بتوانند در محیطهای پویا، در زمان واقعی و در مأموریتهای طولانیمدت با پایداری بالا حرکت کنند.
🔹 تاریخ انتشار: 9 دسامبر
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/
• Github:
https://github.com/InternRobotics/InternNav
🔗 مدلهای مرتبط:
• https://huggingface.co/InternRobotics/InternVLA-N1-System2
• https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
• https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:
1. یک برنامهریز جهانی مبتنی بر VLM برای فهم سطح بالا،
2. یک سیاست محلی سریع برای اجرای روانِ اکشنها.
این ترکیب باعث میشود رباتها بتوانند در محیطهای پویا، در زمان واقعی و در مأموریتهای طولانیمدت با پایداری بالا حرکت کنند.
🔹 تاریخ انتشار: 9 دسامبر
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/
• Github:
https://github.com/InternRobotics/InternNav
🔗 مدلهای مرتبط:
• https://huggingface.co/InternRobotics/InternVLA-N1-System2
• https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
• https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Unified Video Editing with Temporal Reasoner
📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش میدهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسکدهی توسط کاربر، نواحی مربوطه را تشخیص میدهد و ویرایش دقیقتری ارائه میکند.
AI-generated summary
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF
🔹 مدلهایی که به این مقاله ارجاع دادهاند:
• https://huggingface.co/XiangpengYang/VideoCoF
==================================
#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش میدهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسکدهی توسط کاربر، نواحی مربوطه را تشخیص میدهد و ویرایش دقیقتری ارائه میکند.
AI-generated summary
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF
🔹 مدلهایی که به این مقاله ارجاع دادهاند:
• https://huggingface.co/XiangpengYang/VideoCoF
==================================
#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖