VIRSUN
7.13K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Relational Visual Similarity

📝 Summary:
اینکه Vision-Language مدل‌های آموزش‌دیده روی کپشن‌های ناشناس‌شده می‌توانند شباهت رابطه‌ای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.

🔹 Publication Date: Dec 8

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim

==================================


#AI #DataScience #MachineLearning #HuggingFace #Research
👍1
🚀 به‌روزرسانی بزرگ Qwen3-Omni-Flash (نسخه ۲۰۲۵-۱۲-۰۱) منتشر شد!

🔹 چه چیزهایی تغییر کرده؟

🎙️ گفتگو با صدا و ویدیو طبیعی‌تر از قبل شده است
مدل حالا مکالمات صوتی و تصویری را روان‌تر، پیوسته‌تر و شبیه انسان پردازش می‌کند.

امکان تعیین شخصیت و سبک تعاملِ هوش مصنوعی
فقط با یک System Prompt می‌توانید نقش، لحن، شخصیت یا سبک گفتار مدل را مشخص کنید.

🗣️ پشتیبانی زبانی گسترده‌تر
۱۱۹ زبان نوشتاری و ۱۹ زبان صوتی!

😊 صداها بسیار واقعی‌تر شده‌اند
تقریباً مشابه صدای انسان — مناسب برای دستیارهای صوتی حرفه‌ای.


---

🔹 کجا می‌توان آن را تست کرد؟

🎙️ در Qwen Chat — گزینه VoiceChat یا VideoChat
https://chat.qwen.ai

📝 توضیحات کامل در بلاگ
https://qwen.ai/blog?id=qwen3-omni-20251201

🎧 دمو آنلاین در Hugging Face
https://hf.co/spaces/Qwen/Qwen3-Omni-Demo

🎧 دمو دوم در ModelScope
https://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo

Realtime API
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-realtime-2025-12-01

📥 Offline API
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-2025-12-01


---

#Qwen #هوش_مصنوعی #LLM #مولتی_مودال #AI
1👍1
📸 زی‌اِمیج توربو در صدر مدل‌های متن‌باز تولید تصویر

مدل Z-Image Turbo اکنون در رتبه اول میان تمام مدل‌های متن‌باز تولید تصویر قرار گرفته و تنها مدل کاملاً متن‌باز است که توانسته وارد ۱۰ مدل برتر کل صنعت شود (رتبه ۸ جهانی).
در رده‌بندی کلی، Nanobanana در رتبه نخست و Flux.2.Pro در رتبه دوم قرار دارند.

در بخش دیگر مدل‌ها، کاربران گزارش می‌دهند که SeaDream 4.0 هنوز عملکرد بهتری نسبت به نسخه 4.5 دارد و نسخه جدید دچار سانسور شدید شده است.

جامعه کاربران همچنان منتظر انتشار نسخه‌های Base و Edit مدل Z-Image است تا تصویر کامل‌تری از قدرت نسل جدید این معماری ارائه شود.

@rss_ai_ir

#هوش_مصنوعی #مولد_تصویر #مدل_متن_باز #ZImage #Nanobanana #Flux #SeaDream
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 رباتBoston Dynamics ربات Atlas را با مغز هوش‌مصنوعی از نوع Large Behavior Model به نمایش گذاشت.

ربات اکنون می‌تواند وظایف کامل انبارداری را انجام دهد؛ مثل چیدن منظم جعبه‌ها.
یک مدل واحد تمام حرکات را کنترل می‌کند: راه‌رفتن، نشستن، بلندکردن بار و حفظ تعادل.
هیچ حرکت از پیش برنامه‌ریزی نشده و Atlas همهٔ مهارت‌ها را از دموهای انسانی یاد گرفته است.

این یعنی گذر از «حرکات اسکریپتی» به رفتارهای خودمختار؛
سیستمی یکپارچه که توانایی یادگیری و اجرای وظایف پیچیدهٔ حرکتی را دارد.

@rss_ai_ir

#هوش_مصنوعی #رباتیک 🤖 #BostonDynamics #AI #Robotics


---
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘

👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سه‌بعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم می‌کند. ریپازیتوری منتشر شد 💙

👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA

#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
🔥 سیستم RGMP — نسل جدید فهم و تصمیم‌گیری ربات‌ها 🤖
#رباتیک #هوش‌مصنوعی #اتوماسیون #AI #Robotics

سیستمی تازه‌ معرفی شده که آینده ربات‌های همه‌فن‌حریف را یک قدم بزرگ جلوتر برده است. RGMP سه چیز را هم‌زمان یاد می‌گیرد:
1️⃣ درک دقیق هندسه و ساختار اشیا
2️⃣ انتخاب مهارت مناسب برای هر نوع شیء
3️⃣ برنامه‌ریزی برای بهترین حرکت در همان لحظه

و نتیجه؟ 🚀 ۵ برابر کارآمدتر از روش‌های قبلی و دستیابی به ۸۷٪ موفقیت حتی روی وظایفی که ربات قبلاً هرگز ندیده بود.

این یعنی ربات‌ها می‌توانند:
• بدون تنظیمات دستی، اشیای جدید را درک کنند 🧩
• مهارت مناسب را خودکار انتخاب کنند
• در محیط‌های تازه عملکرد قابل‌اعتماد داشته باشند ⚙️

راه ربات‌های واقعاً عمومی — که مثل انسان بتوانند با هر شیء جدید کار کنند — دیگر یک رؤیا نیست، بسیار نزدیک است.

لینک خبر:
🔗 https://techxplore.com/news/2025-11-humanoid-robots-reliably-success-framework.html
1👍1
🔥 مدل مرموز AlphaArena لو رفت — و معلوم شد Grok 4.20 بوده! 🔵


در پلتفرم AlphaArena — جایی که مدل‌های هوش مصنوعی با سرمایهٔ ۱۰ هزار دلاری در معاملات واقعی کریپتو و سهام رقابت می‌کنند — معمولاً همهٔ مدل‌ها در نهایت وارد ضرر می‌شوند.

اما چند روز پیش یک مدل جدید با نام رمز mystery model ظاهر شد که ناگهان از همه جلو زد:

♻️با جسارت معامله می‌کرد

♻️دقیقاً روی قله‌ها سود می‌گرفت

♻️و عملکردش به‌طرز مشکوکی بهتر از بقیه بود


🔍 بعداً مشخص شد که این مدل در اصل نسخهٔ تستی Grok 4.20 بوده — بله همان «۴.۲۰» که بی‌دلیل انتخاب نشده.
این موضوع را ایلان ماسک شخصاً در X تأیید کرد.

زمان انتشار رسمی هنوز اعلام نشده،
اما اگر بخواهد آخر سال یک هدیهٔ درست‌وحسابی از xAI برسد… احتمالاً همین خواهد بود. 🎁

#هوش_مصنوعی #Grok #مدل‌های_زبان #معاملات_خودکار #xAI
👍3🔥1
🔥 آنتروپیک اعلام کرد که کارمندانش اکنون حدود ۶۰٪ کارهای روزانه خود را به کلود می‌سپارند

این رقم فقط یک سال قبل حدود ۲۸٪ بود، اما حالا به شکلی انفجاری رشد کرده است.
به گفته شرکت، هوش مصنوعی بهره‌وری مهندسان را نیز حدود ۳۰ واحد درصد افزایش داده است.

یک عامل جالب هم نقش دارد:
بین کارکنان آنتروپیک یک قانون نانوشته شکل گرفته —
«اول از هوش مصنوعی بپرس، بعد از همکار.»
همین موضوع بارِ کاری و نیاز به تعاملات داخلی را در بسیاری از بخش‌ها کاهش داده است.

🔗 منبع:
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic

#هوش_مصنوعی #کلود #آنتروپیک #بهره‌وری #AI 🚀
👍2
Media is too big
VIEW IN TELEGRAM
🌐 گراند اسلو، موو فست — مدل پایه‌ای دوگانه برای ناوبری ویژنی-زبانی

📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:

1. یک برنامه‌ریز جهانی مبتنی بر VLM برای فهم سطح بالا،


2. یک سیاست محلی سریع برای اجرای روانِ اکشن‌ها.



این ترکیب باعث می‌شود ربات‌ها بتوانند در محیط‌های پویا، در زمان واقعی و در مأموریت‌های طولانی‌مدت با پایداری بالا حرکت کنند.

🔹 تاریخ انتشار: 9 دسامبر

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/

• Github:
https://github.com/InternRobotics/InternNav

🔗 مدل‌های مرتبط:
https://huggingface.co/InternRobotics/InternVLA-N1-System2
https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN

==================================


#AI #DataScience #MachineLearning #HuggingFace #Research
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
⚠️ ویدئوی جدیدی منتشر شده که رباتی را نشان می‌دهد که خیلی‌ها فکر می‌کردند CGI است — اما واقعی از آب درآمد!
در تصاویر تازه، آدم‌ها طوری واکنش نشان می‌دهند انگار واقعاً از ترس جانشان می‌دوند 😅🤖🔥
این ربات همان مدلی است که قبلاً تصور می‌شد یک ترفند گرافیکی باشد، اما ویدئوهای خام ثابت کرده‌اند که کاملاً واقعی و عملیاتی است.

#رباتیک #هوش_مصنوعی #فناوری #روبات_پیشرفته
👍3
🔹 آمازون نسل تازه‌ای از ابزارهای هوش مصنوعی خود را معرفی کرد: Nova 2 و Agentic-AI
@rss_ai_ir

🚀 این حرکت آمازون یک تغییر مهم در رقابت مدل‌های بزرگ هوش مصنوعی است و سه بخش اصلی دارد:

Nova 2
خانواده‌ای از مدل‌های قدرتمند برای پردازش متن، تصویر، ویدئو و وظایف چندحالته.
این مدل‌ها برای طیف گسترده‌ای از کاربردهای سازمانی طراحی شده‌اند و روی سرویس Bedrock عرضه می‌شوند.

🤖 Nova Act
عامل‌های هوشمندی که می‌توانند در مرورگر کار انجام دهند:
کلیک، پر کردن فرم‌ها، پیمایش رابط‌ها و اتوماسیون کامل فرآیندهایی که قبلاً نیازمند نیروی انسانی بودند.

🛠️ Nova Forge
پلتفرمی برای ساخت مدل‌های اختصاصی سازمانی:
پیش‌تمرین، فاین‌تیون، سفارشی‌سازی، و ساخت مدل‌های سبک‌تر یا تخصصی روی داده‌های داخلی.

🔍 چرا این مهم است؟
• افزایش بهره‌وری و حذف کارهای تکراری
• توانایی ساخت مدل‌های بومی بدون نیاز به زیرساخت سنگین
• قیمت رقابتی در برابر دیگر ارائه‌دهندگان مدل‌های بزرگ
• یکپارچگی با اکوسیستم ابری آمازون برای مقیاس‌پذیری سازمانی

لینک منبع:
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

#هوش_مصنوعی #AWS #مدل_های_تولیدی #عامل_هوشمند #اتوماسیون @rss_ai_ir
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 تاکسی‌ربات Waymo وسط بازداشت پلیس وارد صحنه شد!

در لس‌آنجلس یک خودروی خودران Waymo که مسافر هم داخلش بود، مستقیم وارد منطقه‌ای شد که پلیس در حال بازداشت یک مظنون روی زمین بود — و فقط یک متر مانده به او توقف کرد! پلیس سر خودرو فریاد می‌زد اما ماشین نه متوجه شد و نه ایستاد.

نکات مهم ماجرا:

رباتاکسی بدون توجه به وضعیت، وارد محدوده‌ی مسدودشده شد و پلیس مجبور شد در حالی که مظنون را کنترل می‌کرد، دور خودرو حرکت کند.

اینکه، Waymo می‌گوید سیستم هیچ علامت دیجیتال یا سیگنالی دریافت نکرده بود که این منطقه را محدود نشان دهد، بنابراین مسیر عادی‌اش را ادامه داده است.

مسافر داخل خودرو کاملاً گیج شده بود، و مظنون هم وقتی فهمید یک تاکسی خودران وسط صحنه آمده، واکنشی داد که در ویدیو وایرال شده است.


این حادثه یک واقعیت مهم را دوباره یادآوری می‌کند:
خودران‌ها در رانندگی روزمره خوب عمل می‌کنند، اما اتفاقات غیرمنتظره‌ی انسانی همچنان بزرگ‌ترین چالش آن‌هاست.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Wan-Move؛ نسل تازهٔ کنترل حرکت در ویدئوهای هوش مصنوعی

مدل Wan-Move امکان کنترل دقیق و مقیاس‌پذیر حرکت در ویدئوهای تولیدشده توسط هوش مصنوعی را فراهم می‌کند.
این سیستم مسیر حرکت اشیا را به فضای نهفته منتقل می‌کند و از آن برای ساخت ویژگی‌های motion-aware استفاده می‌کند—بدون اینکه نیازی به تغییر معماری مدل اصلی باشد.

🔹 خروجی: ویدئوهای 480p با کنترل حرکت بسیار دقیق
🔹 کیفیت: رقابت مستقیم با ابزارهای تجاری سطح بالا
🔹 کاربرد: مناسب برای ساخت صحنه‌های سینمایی، انیمیشن، تدوین تبلیغاتی و ویدئوهای خلاقانه با حرکت کنترل‌شده

لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.08765
• PDF: https://arxiv.org/pdf/2512.08765
• Repo: https://wan-move.github.io/
• مدل:
https://huggingface.co/Ruihang/Wan-Move-14B-480P
• دیتاست:
https://huggingface.co/datasets/Ruihang/MoveBench

#ویدئو #هوش_مصنوعی #Ai #ماشین_لرنینگ #ژرف_یادگیری #تولید_ویدئو #Research
👍2
🌐 رشد سالانه مدل‌های Gemini حدود ۴۰۰٪ بوده است.

این عدد یعنی چه؟ یعنی دلیلی که «سم آلتمن» حالت code red اعلام کرد کاملاً قابل درک است.
وقتی یک اکوسیستم مدل‌های هوش مصنوعی با چنین سرعتی رشد می‌کند، رقابت وارد مرحله‌ی بقا می‌شود، نه فقط رقابت تکنولوژیک.

در سال گذشته:

گوگل چند نسل مدل‌های Gemini را عرضه کرد؛

نسخه‌های Pro، Ultra، Nano و Flash تقریباً تمام محصولات گوگل را تغذیه می‌کنند؛

سهم بازار در جستجو، موبایل و سرویس‌های ابری تحت تأثیر هوش مصنوعی افزایش یافته؛

و اکنون Gemini تبدیل به سریع‌ترین رشد در میان مدل‌های مولتی‌مودال شده است.


در چنین شرایطی، هر شرکت بزرگ مجبور است سرعت خود را چند برابر کند.
گپ ۵.۲، فشار روی OpenAI و رقابت شدید xAI همگی نشانه‌ی همین واقعیت‌اند.

🔥 آینده‌ی مدل‌ها نه خطی، بلکه نمایی در حال رشد است.

#AI #Gemini #Google #LLM #TechWar #Innovation
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
📈 گزارش‌ها نشان می‌دهند که SoftBank و NVIDIA به توافق نزدیک شده‌اند تا در استارتاپ Skild AI با ارزش‌گذاری شگفت‌انگیز ۱۴ میلیارد دلار سرمایه‌گذاری کنند؛ یعنی سه برابر بیشتر از ارزش قبلی شرکت.

همچنین ، Skild در حال توسعهٔ چیزی است که آن را «مغز همه‌کاره برای مولتی‌ورس ماشین‌ها» می‌نامد — یک هستهٔ هوشمند واحد که بتواند روی انواع ربات‌ها و سامانه‌های خودکار کار کند.

🚀 اگر این معامله نهایی شود، یکی از بزرگ‌ترین سرمایه‌گذاری‌ها در حوزهٔ رباتیک و هوش مصنوعی شکل خواهد گرفت.

#هوش_مصنوعی #AI #NVIDIA #SoftBank #رباتیک #SkildAI
👍2
🧠 رقابت هوش مصنوعی در حال تغییر است

نمودار جدید نشان می‌دهد که OpenAI دیگر رهبر بلامنازع رقابت AI نیست.
مدل‌های جدید گوگل، Meta و xAI در سال ۲۰۲۵ توانسته‌اند فاصله را کم کرده و حتی در برخی بخش‌ها پیشی بگیرند.

گوگل اکنون با مدل‌های نسل جدید در صدر قرار گرفته؛
در حالی که OpenAI که در سال‌های ۲۰۲۳ و ۲۰۲۴ اختلاف زیادی با رقبا داشت، حالا با چالش جدی مواجه شده است.

این تغییرات یعنی:

✳️سرعت پیشرفت رقبا فوق‌العاده زیاد شده

✳️برتری مدل‌های بزرگ به‌سرعت جابه‌جا می‌شود

✳️سال ۲۰۲۵ رسماً سال نبرد غول‌هاست


@rss_ai_ir

#هوش_مصنوعی #Google #OpenAI #xAI #AIrace #رقابت_هوش_مصنوعی
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Unified Video Editing with Temporal Reasoner

📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش می‌دهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسک‌دهی توسط کاربر، نواحی مربوطه را تشخیص می‌دهد و ویرایش دقیق‌تری ارائه می‌کند.
AI-generated summary

🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینک‌های مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF

🔹 مدل‌هایی که به این مقاله ارجاع داده‌اند:
https://huggingface.co/XiangpengYang/VideoCoF

==================================

#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
👍2