VIRSUN
7.89K subscribers
1.37K photos
788 videos
5 files
872 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🍨کتابخانه Gelato — کتابخانه‌ای تازه برای مدیریت و بهینه‌سازی گراف‌های محاسباتی در ML

پروژه‌ی Gelato از mlfoundations یک کتابخانه‌ی مینیمال و بسیار کاربردی است که کمک می‌کند:

✳️گراف محاسباتی هر مدل ML را شفاف ببینیم

✳️وابستگی‌ها و مسیرها را تحلیل کنیم

✳️گراف را به‌صورت مستقیم اصلاح یا بهینه‌سازی کنیم

✳️معماری‌های جدید را آزمایش کنیم و گلوگاه‌های محاسباتی را پیدا کنیم


اگر با مدل‌های پیچیده، معماری‌های سفارشی، یا تحقیق روی طراحی شبکه‌ها کار می‌کنید، Gelato ابزار فوق‌العاده‌ای برای مهندسی و تحلیل ساختار مدل است.

🔗 Blog:
https://github.com/mlfoundations/Gelato
🔗 🍨 Gelato-30B-A3B (Model):
https://huggingface.co/mlfoundations/Gelato-30B-A3B
🔗 🖱️ Click-100k (Data):
https://huggingface.co/datasets/mlfoundations/Click-100k


---

#MachineLearning #Gelato #MLGraphs #AIGeneration
@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖💥 شکایت جنجالی علیه Figure AI: ربات انسان‌نما با توانایی «خرد کردن جمجمه»؟

یک اتفاق پرحاشیه در دنیای رباتیک!
«رابرت گروئندل»، مهندس ارشد ایمنی محصول در شرکت Figure AI، علیه این شرکت در دادگاه فدرال کالیفرنیا شکایت کرده است. او ادعا می‌کند پس از گزارش خطرات ایمنی ربات‌ها، به‌صورت تلافی‌جویانه اخراج شده.

🔍 مهم‌ترین ادعاهای مطرح‌شده در شکایت:

مهندس هشدار داده بود که ربات انسان‌نمای شرکت دارای قدرتی خطرناک است؛ تا حدی که «قادر به خرد کردن جمجمه انسان» می‌باشد.

در یک حادثه، یکی از ربات‌ها دچار اشکال شد و روی درب یک یخچال فولادی، خراشی حدود ۶ میلی‌متر ایجاد کرد.

طبق ادعا، شرکت از "نقشه راه ایمنی" به‌عنوان ابزار جذب سرمایه و افزایش ارزش‌گذاری استفاده کرده، اما بعداً اجرای آن را تضعیف کرده است.

ارزش Figure AI بین سال‌های 2024 تا 2025 حدود ۳۹ میلیارد دلار افزایش یافت؛ این شکایت درست در دوران رشد سریع و توجه رسانه‌ای مطرح شده.


⛔️این پرونده می‌تواند تأثیرهای جدی روی موج فعلی ربات‌های انسان‌نما بگذارد — جایی که ایمنی، اعتماد عمومی و شفافیت بیش از هر زمان دیگری اهمیت دارد.


@rss_ai_ir
#ربات #روباتیک #هوش_مصنوعی
#FigureAI #ربات_انسان‌نما #ایمنی_ربات
#فناوری #تکنولوژی #روبات_صنعتی
#اتوماسیون #مهندسی_ربات
#AI #MachineLearning #RobotSafety
#HumanoidRobot #SafetyEngineering
#اخبار_هوش_مصنوعی #اخبار_تکنولوژی
😱1🥴1😐1
🤖 سه الگوی طلایی برای ساخت ایجنت‌های هوش مصنوعی

اگر در دنیای ایجنت‌ها کار می‌کنی، شناخت این سه الگوی متداول می‌تواند مسیر توسعه را چند برابر سریع‌تر و هوشمندانه‌تر کند.


---

🔹 الگوی بازتاب (Reflection)
در این روش ابتدا ورودی به ایجنت داده می‌شود؛ ایجنت پاسخ می‌دهد؛ سپس با دریافت بازخورد، پاسخ خود را اصلاح و بهبود می‌کند.
این چرخه تا رسیدن به کیفیت مطلوب ادامه می‌یابد.

🛠 ابزارهای مناسب:
• مدل پایه (مثل GPT-4o)
• مدل فاین‌تیون‌شده برای ارائه بازخورد
• اتوماسیون با n8n برای پیاده‌سازی چرخه بازتاب


---

🔹 الگوی مبتنی بر بازیابی دانش (RAG)
در این الگو، ایجنت هنگام انجام یک وظیفه می‌تواند از یک پایگاه دانش خارجی پرس‌وجو کند؛
بنابراین پاسخ‌ها دقیق‌تر، مستندتر و قابل استناد خواهند بود.

🛠 ابزارهای مناسب:
• پایگاه (Vector DB مثل Pinecone)
• ابزارهای UI برای ساخت سریع RAG مثل Aidbase
• ابزارهای API محور مثل SourceSync که به‌تازگی محبوب شده‌اند


---

🔹 الگوی جریان‌کاری هوشمند (AI Workflow)
در این روش، یک فلو یا اتوماسیون سنتی ایجاد می‌شود، اما برخی از مراحل توسط هوش مصنوعی انجام می‌گیرد: تحلیل، تولید متن، تصمیم‌گیری و…

🛠 ابزارهای مناسب:
• پلتفرم n8n برای مدیریت کل جریان
• مدل‌های هوش مصنوعی از طریق API (Claude، GPT-4o و…)


---

تسلط بر این سه الگو یعنی تسلط بر ۸۰٪ معماری ایجنت‌ها.
اگر بتوانی این سه ساختار را خوب درک و ترکیب کنی، تقریباً هر نوع ایجنت کاربردی را می‌توانی بسازی — از اتوماسیون‌های ساده تا سیستم‌های پیچیده تصمیم‌ساز.

@rss_ai_ir
#AI #Agents #Workflow #Reflection #RAG #هوش_مصنوعی #اتوماسیون #مهندسی_ایجنت #n8n #Pinecone #GPT #Claude #LLM #python #MachineLearning
2🔥1👏1
Media is too big
VIEW IN TELEGRAM
Paper2Video:
تبدیل خودکار مقاله‌ علمی به ویدئو

📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که می‌تواند از یک مقاله‌ علمی، به‌صورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره‌ سخنگو.
نتیجه‌ نهایی نسبت به روش‌های موجود دقیق‌تر، اطلاعاتی‌تر و بدون نیاز به تولید دستی محتوا است.

🔹 تاریخ انتشار: 6 اکتبر
🔹 لینک‌ها:

• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیت‌هاب:
https://showlab.github.io/Paper2Video/

دیتاست‌های مرتبط:
https://huggingface.co/datasets/ZaynZhu/Paper2Video

#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
2🔥1👏1
🌟 گوگل می‌خواهد رقابت هوش مصنوعی را نه با سرعت، بلکه با کاهش هزینهٔ محاسبات ببرد.

در حالی که انویدیا GPUها را با حاشیه سود بالا به کلودها می‌فروشد و هزینه نهایی برای مشتریان بالا می‌رود، گوگل TPUها را تقریباً به قیمت تمام‌شده تولید و عرضه می‌کند.
نتیجه؟ کاهش شدید هزینهٔ هر توکن در پردازش‌های هوش مصنوعی.

🔹 کلید ماجرا:
بزرگ‌ترین هزینه در AI، آموزش نیست—بلکه اینفرنس است؛ یعنی هزینهٔ تولید توکن پس از استقرار مدل.
وقتی مدل اجرا می‌شود، تقریباً تمام بودجه صرف توکن‌سازی می‌شود، نه آموزش.

🔹 مزیت گوگل
با یکپارچه‌سازی عمودی (طراحی چیپ → دیتاسنتر → شبکه → سرویس‌های ابری)، گوگل می‌تواند هزینهٔ هر توکن را دائماً پایین بیاورد و همین کاهش را مستقیم به کاربران منتقل کند.

🔹 چرا این مهم است؟
اگر قیمت اهمیت بیشتری از سرعت پیدا کند، بسیاری از شرکت‌ها TPU را به GPU ترجیح خواهند داد.

🔹 نقش انویدیا
انویدیا همچنان رهبر آموزش مدل‌های بزرگ خواهد بود، اما ممکن است نتواند همین حاشیه سود بالا را حفظ کند—به‌خصوص اگر حجم بزرگی از اینفرنس به TPU منتقل شود.

🔹 برتری دیگر گوگل
اکوسیستم عظیمی مثل Search، YouTube، Android و Workspace ظرفیت TPUها را به‌طور کامل پر می‌کند و تقاضای پایدار تضمین می‌شود.

منبع:
https://x.com/KrisPatel99/status/1993259550544191645

@rss_ai_ir

#Google #TPU #Nvidia #AI #MachineLearning #Inference #CloudComputing #TechEconomics
👍1
🌟 مدل ToolOrchestra؛ انقلاب تازه در هوش مصنوعی عامل‌محور

انویدیا به‌همراه دانشگاه هنگ‌کنگ «ToolOrchestra» را معرفی کرده؛ روشی برای آموزش رهبر ارکستر‌های هوش مصنوعی که می‌توانند چندین مدل و ابزار را هم‌زمان هماهنگ کنند.

نتیجهٔ این رویکرد، Orchestrator-8B است — مدلی بر پایه Qwen3 که به‌جای حل مسئله به‌تنهایی، میان تفکر و فراخوانی ابزارها سوئیچ می‌کند:
جستجوگر وب، مفسر کد، مدل‌های تخصصی ریاضی و حتی غول‌هایی مثل Claude و Llama-Nemotron.

دستاوردها:

♻️حل مسائل ۲.۵ برابر سریع‌تر

♻️هزینهٔ استقرار ۷۰٪ کمتر

♻️کسب ۳۷.۱٪ در بِنچمارک سخت Humanity’s Last Exam
(بالاتر از GPT-5 با ۳۵.۱٪)


📎 پروژه با لایسنس Apache 2.0 منتشر شده است.

https://research.nvidia.com/labs/lpr/ToolOrchestra/

https://huggingface.co/nvidia/Orchestrator-8B

https://arxiv.org/pdf/2511.21689

https://huggingface.co/datasets/nvidia/ToolScale

https://github.com/NVlabs/ToolOrchestra


#AI #LLM #NVIDIA #Orchestrator #ToolOrchestra #Agents #MachineLearning
6
🌏 چین از آمریکا در بازار جهانی مدل‌های متن‌باز هوش مصنوعی پیشی گرفت

بررسی مشترک MIT و Hugging Face نشان می‌دهد که برای اولین بار، مدل‌های متن‌باز ساخت چین توانسته‌اند در تعداد دانلودهای جهانی از مدل‌های آمریکایی جلو بزنند.

🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪

این تغییر، نتیجه‌ی رشد انفجاری مدل‌هایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعه‌ی متن‌باز جهانی را تحت تأثیر قرار داده‌اند.

در مقابل، شرکت‌های آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدل‌های بسته و اختصاصی تمرکز کرده‌اند، و همین باعث شده در رقابت متن‌باز عقب بمانند.

منبع: ArticlePaper


#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاس‌پذیر را به دنیای صدا آورد 🎧🤖

مدل Step-Audio-R1 نقطه‌عطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیاده‌سازی کند.


---

🔥 ویژگی‌های کلیدی

✳️درک عمیق سیگنال صوتی

✳️واکنش در زمان واقعی

✳️زنجیره‌ استدلال مقیاس‌پذیر روی داده‌ صوتی

✳️کاهش شدید خطا و حذف «حدس‌زدن‌های بدون پشتوانه»

---
عملکرد

بهتر از Gemini 2.5 Pro و قابل‌مقایسه با Gemini 3 در بنچمارک‌های پیچیده صوتی

دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash

Time To First Token = فقط 0.92 ثانیه ⏱️

---
🎯 چرا متفاوت است؟

مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده می‌کند.
یعنی ریزونینگ به نشانه‌های واقعی صوتی متصل می‌شود، نه به تخیلات مدل.
به‌صورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده می‌شود» فکر می‌کند، نه براساس متن.

این یعنی:

♻️خطای کمتر
♻️ریزونینگ قابل‌گسترش
♻️کاربردهای جدید برای صدا


---

🔗 لینک‌ها

🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/

📄 مقاله:
https://arxiv.org/abs/2511.15848

🐙 گیت‌هاب:
https://github.com/stepfun-ai/Step-Audio-R1


---

#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍21🔥1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متن‌باز برای GUI-Agent ها

یک خبر مهم برای دنیای ایجنت‌ها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متن‌باز برای سیستم‌های سطح بالایی مثل GUI-Agent MCP محسوب می‌شود. نسخه‌ای سبک، سریع و قابل اجرا به‌صورت کامل روی سیستم شخصی شما 🚀

🔧 چه چیزهایی داخلش هست؟

مدل ۴B در سطح SOTA؛ سریع، کم‌هزینه و قابل اجرا روی GPUهای سبک

زیرساخت راه‌اندازی «تک‌کلیک» بدون دردسرهای ADB

بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران


📊 نتایج و عملکرد

دقت ۷۳.۴٪ روی AndroidDaily

عملکرد بهتر از مدل‌های بزرگ‌تری مثل GUI-Owl-32B

بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تست‌های GUI

برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld


🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصی‌سازی کن، و توسعه بده — بالاخره یک گزینهٔ متن‌باز واقعی برای GUI-Agent ها در دسترس است.

🔗 لینک‌ها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html

#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
2
🚀 مدل‌های تازه DeepSeek-V3.2 و DeepSeek-V3.2-Speciale منتشر شدند
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحله‌ای و سناریوهای عامل‌محور طراحی شده است.

🧠 ویژگی‌های کلیدی

اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.

اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحی‌شده برای سیستم‌های عامل‌محور؛ فقط از طریق API در دسترس است.


📊 سطح عملکرد

اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً هم‌رده‌ی GPT-5 ارزیابی می‌شود.

نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت می‌کند.

و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.


🛠️ نوآوری در آموزش عامل‌ها

تولید داده‌ی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.

فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.


🔌 دسترسی و API

و V3.2 با همان API نسل قبلی کار می‌کند.

نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.


📦 مدل‌ها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
👍21🔥1👏1
🔥 مدل Ministral 3 منتشر شد؛ نسل جدید مدل‌های ریزونی و اینستراکت از Mistral

مینسترال ۳ در سه نسخه‌ی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدل‌های هم‌رده دارد.

ویژگی‌ها:

⚙️ نسخه‌ی ۱۴B روی لپ‌تاپ با ۲۴ گیگابایت RAM هم اجرا می‌شود

🧠 پشتیبانی از بینایی (Vision)

🚀 عملکرد قوی در تسک‌های استدلال و دنبال‌کردن دستورها

💻 امکان اجرا و فاین‌تیون لوکال


لینک‌ها:
راهنما + لپ‌تاپ:
https://docs.unsloth.ai/new/ministral-3

نسخه‌های GGUF:
https://huggingface.co/collections/unsloth/ministral-3

@rss_ai_ir

#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
🔥1👏1
📘 ۱۰ موضوع ضروری برای تسلط بر یادگیری ماشین

💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایه‌هایی هستند که همهٔ متخصصان ML روی آن‌ها ایستاده‌اند:

1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.

2️⃣ انواع یادگیری ماشین
نظارت‌شده، بدون‌نظارت و تقویتی — سه ستون اصلی که تمام الگوریتم‌ها روی آن‌ها بنا می‌شوند.

3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستم‌های پیشنهاددهنده.

4️⃣ جمع‌آوری و پاک‌سازی داده
حذف داده‌های ناقص، رفع تناقضات، حذف داده‌های تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن می‌شود.

5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگی‌های قابل فهم برای مدل — یکی از مهم‌ترین عوامل موفقیت.

6️⃣ پیش‌پردازش داده
نرمال‌سازی، استانداردسازی، کدگذاری دادهٔ دسته‌ای و تقسیم داده‌ها به train/test.

7️⃣ الگوریتم‌های یادگیری نظارت‌شده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقه‌بندی و رگرسیون.

8️⃣ شاخص‌های ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را می‌سنجند.

9️⃣ بیش‌برازش و کم‌برازش
شناخت این‌که مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیک‌های منظم‌سازی.

🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویس‌های ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.


---

@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
World Models That Know When They Don't Know

@rss_ai_ir

در دنیای مدل‌سازی ویدیو، یکی از بزرگ‌ترین مشکلات توهم‌زایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه می‌دهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمی‌داند، بداند که نمی‌داند! 🤯🎥
---
🔍 حال C3 چیست؟

اینکه C3 یک روش کمی‌سازی عدم‌قطعیت (Uncertainty Quantification) برای مدل‌های تولید ویدیو است. این روش کمک می‌کند مدل:

🎯 اعتمادپذیری پیکسل‌به‌پیکسل ارائه دهد (Dense Confidence Estimation)

🚨 ورودی‌های خارج از توزیع (OOD) را تشخیص دهد

🛑 توهمات ویدئویی را کاهش دهد

🎮 تولید ویدیو را تحت کنترل دقیق‌تری قرار دهد


به بیان ساده:
مدل فقط تولید نمی‌کند؛ به شما می‌گوید کجا احتمال اشتباه دارد! 🤝

---
💡 چرا مهم است؟

در کاربردهایی مثل خودران‌ها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک می‌کند که مدل‌های ویدیویی به جای تولید بی‌محابا، رفتار مسئولانه‌تری داشته باشند.
---

🔗 لینک‌ها

📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگ‌ها

#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Relational Visual Similarity

📝 Summary:
اینکه Vision-Language مدل‌های آموزش‌دیده روی کپشن‌های ناشناس‌شده می‌توانند شباهت رابطه‌ای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.

🔹 Publication Date: Dec 8

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim

==================================


#AI #DataScience #MachineLearning #HuggingFace #Research
Media is too big
VIEW IN TELEGRAM
🌐 گراند اسلو، موو فست — مدل پایه‌ای دوگانه برای ناوبری ویژنی-زبانی

📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:

1. یک برنامه‌ریز جهانی مبتنی بر VLM برای فهم سطح بالا،


2. یک سیاست محلی سریع برای اجرای روانِ اکشن‌ها.



این ترکیب باعث می‌شود ربات‌ها بتوانند در محیط‌های پویا، در زمان واقعی و در مأموریت‌های طولانی‌مدت با پایداری بالا حرکت کنند.

🔹 تاریخ انتشار: 9 دسامبر

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/

• Github:
https://github.com/InternRobotics/InternNav

🔗 مدل‌های مرتبط:
https://huggingface.co/InternRobotics/InternVLA-N1-System2
https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN

==================================


#AI #DataScience #MachineLearning #HuggingFace #Research
This media is not supported in your browser
VIEW IN TELEGRAM
Unified Video Editing with Temporal Reasoner

📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش می‌دهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسک‌دهی توسط کاربر، نواحی مربوطه را تشخیص می‌دهد و ویرایش دقیق‌تری ارائه می‌کند.
AI-generated summary

🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینک‌های مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF

🔹 مدل‌هایی که به این مقاله ارجاع داده‌اند:
https://huggingface.co/XiangpengYang/VideoCoF

==================================

#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖