🌏 چین از آمریکا در بازار جهانی مدلهای متنباز هوش مصنوعی پیشی گرفت
بررسی مشترک MIT و Hugging Face نشان میدهد که برای اولین بار، مدلهای متنباز ساخت چین توانستهاند در تعداد دانلودهای جهانی از مدلهای آمریکایی جلو بزنند.
🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪
این تغییر، نتیجهی رشد انفجاری مدلهایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعهی متنباز جهانی را تحت تأثیر قرار دادهاند.
در مقابل، شرکتهای آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدلهای بسته و اختصاصی تمرکز کردهاند، و همین باعث شده در رقابت متنباز عقب بمانند.
منبع: Article — Paper
#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
بررسی مشترک MIT و Hugging Face نشان میدهد که برای اولین بار، مدلهای متنباز ساخت چین توانستهاند در تعداد دانلودهای جهانی از مدلهای آمریکایی جلو بزنند.
🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪
این تغییر، نتیجهی رشد انفجاری مدلهایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعهی متنباز جهانی را تحت تأثیر قرار دادهاند.
در مقابل، شرکتهای آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدلهای بسته و اختصاصی تمرکز کردهاند، و همین باعث شده در رقابت متنباز عقب بمانند.
منبع: Article — Paper
#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
✨ مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاسپذیر را به دنیای صدا آورد 🎧🤖
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
❤2👍2🔥1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متنباز برای GUI-Agent ها
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
❤2
🚀 مدلهای تازه DeepSeek-V3.2 و DeepSeek-V3.2-Speciale منتشر شدند
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحلهای و سناریوهای عاملمحور طراحی شده است.
🧠 ویژگیهای کلیدی
اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.
اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحیشده برای سیستمهای عاملمحور؛ فقط از طریق API در دسترس است.
📊 سطح عملکرد
اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً همردهی GPT-5 ارزیابی میشود.
نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت میکند.
و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.
🛠️ نوآوری در آموزش عاملها
تولید دادهی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.
فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.
🔌 دسترسی و API
و V3.2 با همان API نسل قبلی کار میکند.
نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.
📦 مدلها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحلهای و سناریوهای عاملمحور طراحی شده است.
🧠 ویژگیهای کلیدی
اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.
اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحیشده برای سیستمهای عاملمحور؛ فقط از طریق API در دسترس است.
📊 سطح عملکرد
اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً همردهی GPT-5 ارزیابی میشود.
نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت میکند.
و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.
🛠️ نوآوری در آموزش عاملها
تولید دادهی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.
فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.
🔌 دسترسی و API
و V3.2 با همان API نسل قبلی کار میکند.
نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.
📦 مدلها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
👍2❤1🔥1👏1
🔥 مدل Ministral 3 منتشر شد؛ نسل جدید مدلهای ریزونی و اینستراکت از Mistral
مینسترال ۳ در سه نسخهی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدلهای همرده دارد.
ویژگیها:
⚙️ نسخهی ۱۴B روی لپتاپ با ۲۴ گیگابایت RAM هم اجرا میشود
🧠 پشتیبانی از بینایی (Vision)
🚀 عملکرد قوی در تسکهای استدلال و دنبالکردن دستورها
💻 امکان اجرا و فاینتیون لوکال
لینکها:
راهنما + لپتاپ:
https://docs.unsloth.ai/new/ministral-3
نسخههای GGUF:
https://huggingface.co/collections/unsloth/ministral-3
@rss_ai_ir
#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
مینسترال ۳ در سه نسخهی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدلهای همرده دارد.
ویژگیها:
⚙️ نسخهی ۱۴B روی لپتاپ با ۲۴ گیگابایت RAM هم اجرا میشود
🧠 پشتیبانی از بینایی (Vision)
🚀 عملکرد قوی در تسکهای استدلال و دنبالکردن دستورها
💻 امکان اجرا و فاینتیون لوکال
لینکها:
راهنما + لپتاپ:
https://docs.unsloth.ai/new/ministral-3
نسخههای GGUF:
https://huggingface.co/collections/unsloth/ministral-3
@rss_ai_ir
#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
🔥1👏1
📘 ۱۰ موضوع ضروری برای تسلط بر یادگیری ماشین
💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایههایی هستند که همهٔ متخصصان ML روی آنها ایستادهاند:
1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.
2️⃣ انواع یادگیری ماشین
نظارتشده، بدوننظارت و تقویتی — سه ستون اصلی که تمام الگوریتمها روی آنها بنا میشوند.
3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستمهای پیشنهاددهنده.
4️⃣ جمعآوری و پاکسازی داده
حذف دادههای ناقص، رفع تناقضات، حذف دادههای تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن میشود.
5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگیهای قابل فهم برای مدل — یکی از مهمترین عوامل موفقیت.
6️⃣ پیشپردازش داده
نرمالسازی، استانداردسازی، کدگذاری دادهٔ دستهای و تقسیم دادهها به train/test.
7️⃣ الگوریتمهای یادگیری نظارتشده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقهبندی و رگرسیون.
8️⃣ شاخصهای ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را میسنجند.
9️⃣ بیشبرازش و کمبرازش
شناخت اینکه مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیکهای منظمسازی.
🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویسهای ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.
---
@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایههایی هستند که همهٔ متخصصان ML روی آنها ایستادهاند:
1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.
2️⃣ انواع یادگیری ماشین
نظارتشده، بدوننظارت و تقویتی — سه ستون اصلی که تمام الگوریتمها روی آنها بنا میشوند.
3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستمهای پیشنهاددهنده.
4️⃣ جمعآوری و پاکسازی داده
حذف دادههای ناقص، رفع تناقضات، حذف دادههای تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن میشود.
5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگیهای قابل فهم برای مدل — یکی از مهمترین عوامل موفقیت.
6️⃣ پیشپردازش داده
نرمالسازی، استانداردسازی، کدگذاری دادهٔ دستهای و تقسیم دادهها به train/test.
7️⃣ الگوریتمهای یادگیری نظارتشده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقهبندی و رگرسیون.
8️⃣ شاخصهای ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را میسنجند.
9️⃣ بیشبرازش و کمبرازش
شناخت اینکه مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیکهای منظمسازی.
🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویسهای ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.
---
@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
❤3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ World Models That Know When They Don't Know
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Relational Visual Similarity
📝 Summary:
اینکه Vision-Language مدلهای آموزشدیده روی کپشنهای ناشناسشده میتوانند شباهت رابطهای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.
🔹 Publication Date: Dec 8
🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
📝 Summary:
اینکه Vision-Language مدلهای آموزشدیده روی کپشنهای ناشناسشده میتوانند شباهت رابطهای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.
🔹 Publication Date: Dec 8
🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
👍1
Media is too big
VIEW IN TELEGRAM
🌐 گراند اسلو، موو فست — مدل پایهای دوگانه برای ناوبری ویژنی-زبانی
📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:
1. یک برنامهریز جهانی مبتنی بر VLM برای فهم سطح بالا،
2. یک سیاست محلی سریع برای اجرای روانِ اکشنها.
این ترکیب باعث میشود رباتها بتوانند در محیطهای پویا، در زمان واقعی و در مأموریتهای طولانیمدت با پایداری بالا حرکت کنند.
🔹 تاریخ انتشار: 9 دسامبر
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/
• Github:
https://github.com/InternRobotics/InternNav
🔗 مدلهای مرتبط:
• https://huggingface.co/InternRobotics/InternVLA-N1-System2
• https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
• https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:
1. یک برنامهریز جهانی مبتنی بر VLM برای فهم سطح بالا،
2. یک سیاست محلی سریع برای اجرای روانِ اکشنها.
این ترکیب باعث میشود رباتها بتوانند در محیطهای پویا، در زمان واقعی و در مأموریتهای طولانیمدت با پایداری بالا حرکت کنند.
🔹 تاریخ انتشار: 9 دسامبر
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/
• Github:
https://github.com/InternRobotics/InternNav
🔗 مدلهای مرتبط:
• https://huggingface.co/InternRobotics/InternVLA-N1-System2
• https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
• https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Unified Video Editing with Temporal Reasoner
📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش میدهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسکدهی توسط کاربر، نواحی مربوطه را تشخیص میدهد و ویرایش دقیقتری ارائه میکند.
AI-generated summary
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF
🔹 مدلهایی که به این مقاله ارجاع دادهاند:
• https://huggingface.co/XiangpengYang/VideoCoF
==================================
#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش میدهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسکدهی توسط کاربر، نواحی مربوطه را تشخیص میدهد و ویرایش دقیقتری ارائه میکند.
AI-generated summary
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF
🔹 مدلهایی که به این مقاله ارجاع دادهاند:
• https://huggingface.co/XiangpengYang/VideoCoF
==================================
#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
✨ روش COREA: همترازی سهبعدی Coarse-to-Fine بین Gaussianهای سهبعدی قابلنوردهی مجدد و SDF با نظارت دوطرفه 3D-to-3D
📝 خلاصه:
روش COREA یک چارچوب نوآورانه است که نمایش سهبعدی Gaussians و توابع فاصله علامتدار (SDF) را بهصورت دقیق و مرحلهبهمرحله (coarse-to-fine) با یکدیگر همتراز میکند.
این مدل یادگیری هندسه را مستقیماً در فضای سهبعدی انجام میدهد و با نظارت دوطرفه 3D-to-3D، محدودیتهای روشهای قبلی را برطرف میکند.
🔍 مزایا و دستاوردها:
♻️تولید هندسه بسیار دقیقتر
♻️نورپردازی مجدد طبیعیتر و سازگارتر
بهبود چشمگیر در
• ساخت مش (Mesh Reconstruction)
• رندرینگ فیزیکی مبتنی بر نور (PBR)
• بازسازی دیدهای جدید (Novel View Synthesis)
یکپارچهسازی Gaussian Splatting با نمایش SDF
---
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینک مقالهها و پروژه
• Arxiv:
https://arxiv.org/abs/2512.07107
• PDF:
https://arxiv.org/pdf/2512.07107
• Project Page:
https://cau-vilab.github.io/COREA/
• Github:
https://github.com/CAU-VILab/COREA-arXiv
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research
📝 خلاصه:
روش COREA یک چارچوب نوآورانه است که نمایش سهبعدی Gaussians و توابع فاصله علامتدار (SDF) را بهصورت دقیق و مرحلهبهمرحله (coarse-to-fine) با یکدیگر همتراز میکند.
این مدل یادگیری هندسه را مستقیماً در فضای سهبعدی انجام میدهد و با نظارت دوطرفه 3D-to-3D، محدودیتهای روشهای قبلی را برطرف میکند.
🔍 مزایا و دستاوردها:
♻️تولید هندسه بسیار دقیقتر
♻️نورپردازی مجدد طبیعیتر و سازگارتر
بهبود چشمگیر در
• ساخت مش (Mesh Reconstruction)
• رندرینگ فیزیکی مبتنی بر نور (PBR)
• بازسازی دیدهای جدید (Novel View Synthesis)
یکپارچهسازی Gaussian Splatting با نمایش SDF
---
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینک مقالهها و پروژه
• Arxiv:
https://arxiv.org/abs/2512.07107
• PDF:
https://arxiv.org/pdf/2512.07107
• Project Page:
https://cau-vilab.github.io/COREA/
• Github:
https://github.com/CAU-VILab/COREA-arXiv
==================================
#AI #DataScience #MachineLearning #HuggingFace #Research