VIRSUN

✨چارچوب H2R-Grounder: تبدیل ویدئوی تعامل انسان به ویدئوی ربات با درک فیزیکی 🤖🎥

📌 یک چارچوب جدید ویدئو به ویدئو معرفی شده که می‌تواند ویدئوهای تعامل انسان–شیء را بدون نیاز به داده‌های جفت‌شده، به ویدئوهای واقع‌گرایانه از دست‌کاری ربات‌ها تبدیل کند.

🧠 ایده‌ی اصلی چیست؟
این روش با استفاده از مدل‌های مولد و آموزش unpaired، رفتار انسان را به شکلی فیزیکی‌محور به رفتار ربات ترجمه می‌کند؛ یعنی ربات‌ها می‌توانند از ویدئوهای انسانی یاد بگیرند، بدون این‌که داده‌ی دقیق انسان–ربات در اختیار باشد.

🚀 چرا مهم است؟
• کاهش شدید هزینه جمع‌آوری داده برای آموزش ربات‌ها
• یادگیری مهارت‌های دست‌کاری از ویدئوهای معمولی انسان
• یک گام جدی به سمت آموزش مقیاس‌پذیر ربات‌ها با داده‌های دنیای واقعی

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.09406
🔹 PDF: https://arxiv.org/pdf/2512.09406
🔹 Project Page: https://showlab.github.io/H2R-Grounder/
🔹 GitHub: https://github.com/showlab/H2R-Grounder

@rss_ai_ir

#AI 🤖 #Robotics 🦾 #MachineLearning 🧠 #ComputerVision 👁️ #Research 📚

❤6🎉6👍4🥰4👏4😁4🔥2

206 views04:49

VIRSUN

✨ دیزنی و OpenAI وارد یک همکاری بزرگ شدند 🎬🤖

💰 دیزنی به‌تازگی اعلام کرده که با OpenAI یک قرارداد سه‌ساله امضا کرده و به اولین شریک بزرگ لایسنس محتوایی Sora تبدیل شده است.

🧠 بر اساس این توافق، مدل Sora می‌تواند ویدیوهای کوتاه مبتنی بر پرامپت کاربران تولید کند که شامل بیش از ۲۰۰ کاراکتر از دنیای دیزنی، مارول، پیکسار و جنگ ستارگان هستند. این ویدیوها برای انتشار و اشتراک‌گذاری در شبکه‌های اجتماعی طراحی شده‌اند.

🎥 این همکاری نشان می‌دهد که آینده تولید محتوا به‌سمت ترکیب مستقیم هوش مصنوعی مولد + IPهای عظیم سرگرمی حرکت می‌کند؛ جایی که طرفداران نه فقط مصرف‌کننده، بلکه خالق روایت‌ها می‌شوند.

🚀 دیزنی عملاً یک قدم جلوتر از بقیه است و Sora را به زمین بازی رسمی فرنچایزهایش تبدیل می‌کند.

@rss_ai_ir

#AI #OpenAI #Disney #Sora #GenerativeAI #Media #Entertainment

👍7🎉7🥰6❤5👏4🔥2😁2

239 views04:50

VIRSUN

Cinematic close-up of a [character] holding a [object] with intent, illuminated by [lighting]. Subtle reflections emphasize their [features/accessories]. [Atmospheric elements] drift through the frame, enhancing the scene's tone. Their eyes convey [emotion]. Hyperreal, ultra-detailed, 8K render, stylized for visual storytelling.

🔥24❤16🥰15👏15🎉14😁13👍11

244 views04:51

VIRSUN

🔥 حالت «بزرگسالان» چت‌جی‌پی‌تی در راه است

به‌گفته‌ی فیدی سیمو، مدیرعامل بخش Applications در OpenAI، انتظار می‌رود Adult Mode در سه‌ماهه‌ی اول سال ۲۰۲۶ به ChatGPT اضافه شود.

🧠 تمرکز اصلی OpenAI قبل از فعال‌سازی این قابلیت:

بهبود تشخیص سن کاربران

اعمال محدودیت‌های دقیق‌تر برای افراد زیر ۱۸ سال

تفکیک شفاف محتوای حساس (رمانتیک، جنسی، خشونت‌آمیز)

📅 زمان‌بندی: Q1 سال ۲۰۲۶
⚠️ اول ایمنی، بعد آزادی بیشتر برای کاربران بزرگسال

@rss_ai_ir

#ChatGPT #OpenAI #AI #AdultMode #هوش_مصنوعی #فناوری

🎉8👍6😁6🔥5❤4🥰1👏1

225 views04:53

VIRSUN

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

یک ربات انسان‌نمای شیک که با حرکات نرم و دقیق، مهارت‌های رقص خود را به نمایش می‌گذارد 🤖✨

#رباتیک #هوش_مصنوعی #ربات_انسان‌نما #رقص #فناوری #AI #Robotics

🥰10👍7🎉7🔥6❤4👏2😁1

246 views04:56

VIRSUN

✨ StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠

🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تک‌تصویری ارائه می‌دهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.

🧩 ایده‌ اصلی این است که مدل با شرط‌دهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنه‌های پیچیده و شلوغ.

🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روش‌های کلاسیک
♻️مقیاس‌پذیر برای کاربردهای AR/VR و نمایش سه‌بعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0

@rss_ai_ir

#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊

😁9👍8🔥6🥰6❤4👏2🎉1

260 views04:58

VIRSUN

🚀 ایده دیتاسنترهای فضایی؛ نگاه آینده‌نگرانه ایلان ماسک

🌌 ایلان ماسک می‌گوید دیتاسنترهای مداری می‌توانند ظرف سه سال آینده از نمونه‌های زمینی مقرون‌به‌صرفه‌تر شوند و بحث تازه‌ای در زیرساخت هوش مصنوعی به راه بیندازند.

🔹 چرا فضا؟
⚡ محدودیت برق، آبِ خنک‌سازی و زمین در دیتاسنترهای زمینی
💧 حذف مصرف آب برای خنک‌سازی
🌡️ دفع مستقیم گرما به فضا و امکان چگالی سخت‌افزاری بالاتر

🔹 اقتصاد و امکان‌پذیری
💸 تا ۴۰٪ هزینه انرژی دیتاسنترهای معمول صرف خنک‌سازی می‌شود
🚀 کاهش هزینه پرتاب با راکت‌های قابل‌استفاده‌مجدد SpaceX
⏳ بارهای کاری بدون نیاز به تأخیر بسیار کم می‌توانند از ۲۰۲۶ به مدار منتقل شوند

🔹 حرکت صنعت و پیامدها
🏗️ شرکت‌هایی مانند StatCloud زیرساخت مداری مستقر کرده‌اند
🧠 گزارش‌ها از بررسی گزینه‌های مشابه توسط Google خبر می‌دهند
📈 پیشگامان می‌توانند مزیت رقابتی بزرگی بسازند و شکاف زیرساختی را افزایش دهند

✨ اگر این مسیر عملی شود، موج بعدی توان محاسباتی شاید واقعاً بالای سر ما باشد.

@rss_ai_ir
#AI #DataCenters #SpaceTech #ElonMusk #Infrastructure #CloudComputing

🔥9😁9👍5❤4👏4🥰3🎉2

256 views07:08

VIRSUN

1:15

This media is not supported in your browser

VIEW IN TELEGRAM

✨ به‌روزرسانی مهم از Runway ML؛ Demo Day تحقیقاتی که بی‌سروصدا برگزار شد 🎥🤖

مدتی است Runway ML آرام و بدون هیاهو جلو می‌رود، اما در Research Demo Day اخیرشان چند نکته مهم مطرح شد که ارزش توجه دارد 👇

🧠 Gen-4.5
در نسخه‌های آینده امکان ساخت و ویرایش صدا و همچنین ادیت ویدیو با طول دلخواه و حتی مونتاژ چندشاتی (multi-shot editing) فراهم می‌شود 🎬🔊

🌍 GWM-1 | General World Model
مدلی خودبازگشتی که فریم‌به‌فریم آینده را پیش‌بینی می‌کند. کاربر می‌تواند وسط کار دخالت کند:
حرکت در فضا، کنترل ربات، یا تعامل با عامل‌ها. خروجی فعلی: 720p و 24fps ⏱️
یک بازیگر جدی دیگر در میدان «مدل‌های جهان».

🤖 GWM Robotics
شبیه‌ساز قابل‌آموزش برای تولید داده مصنوعی و آموزش مقیاس‌پذیر ربات‌ها، ساخته‌شده روی GWM-1.

🌐 GWM Worlds
مدل جهان برای شبیه‌سازی محیط به‌صورت بلادرنگ و بی‌نهایت.
از یک صحنه ثابت شروع می‌کند و جهانی قابل کاوش با هندسه، نورپردازی و فیزیک می‌سازد.
می‌توانی انسان باشی، پهپاد، حیوان یا ربات — هر نقشی که بخواهی 🏙️🛸

🗣️ GWM Avatars
آواتارهای سخنگو شبیه Hedra و Live Avatars؛
نه فقط انسان، بلکه موجودات، شخصیت‌ها و حیوانات، با ویدیوهای طولانی در 720p 🎭

⚠️ اسپویل مهم
هیچ‌کدام از این‌ها هنوز آماده نیستند و زمانی برای عرضه اعلام نشده.
اینکه Runway از نظر ایده جلو بوده، اما از نظر سرعت آپدیت‌ها کمی عقب افتاده است.

📺 ویدیو کامل:
https://www.youtube.com/watch?v=OnXu-6xecxM

🌐 وب‌سایت:
https://runwayml.com/

@rss_ai_ir

#AI #RunwayML #WorldModels #GenerativeAI #VideoGeneration #Robotics #Simulation

🥰6👏6❤5👍4😁4🔥3🎉3

261 viewsedited 07:12

VIRSUN

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

Visionary:
حامل مدل جهان مبتنی بر Gaussian Splatting با قدرت WebGPU

یک «اسمبلر جهان» متن‌باز از چین.

اول وسوسه شدم بگم «ژنراتور جهان»، اما در واقع بیشتر شبیه یک ابزار حرفه‌ای برای سرهم‌کردن دارایی‌های سه‌بعدی و هر چیزی است که در فضای 3D حرکت می‌کند:

اسپلت‌ها:

❌3DGS

❌MLP-based 3DGS

❌4DGS

❌Neural Avatars

❌PLY, SPLAT, KSplat, SPZ, SOG

مش‌ها:

✳️GLB

✳️GLTF

✳️FBX

✳️OBJ

⛔️نکته جالب اینه که ویرایشگر آنلاین دنیاها هم دارد، یعنی می‌شود مستقیماً در مرورگر جهان سه‌بعدی را ساخت و دستکاری کرد.

در حال حاضر بیشتر شبیه یک پروتوتایپ نزدیک به پروداکشن است، اما:

✅کاملاً متن‌باز است

✅دموهای قابل‌استفاده دارد
و همین باعث می‌شود پروژه واقعاً امیدوارکننده به نظر برسد.

زیرساخت فنی:

♻️WebGPU
♻️ONNX Runtime

🔗 پروژه:
https://visionary-laboratory.github.io/visionary/

💻 کد:
https://github.com/Visionary-Laboratory/visionary

🎮 دمو:
https://ai4sports.opengvlab.com/index_visionary.html

@rss_ai_ir

👍7❤6👏6😁5🔥4🥰3🎉2

257 viewsedited 07:14

VIRSUN

⭐️مجموعه Nous Research کد منبع Nomos 1 را به‌صورت متن‌باز منتشر کرد

با وجود اندازه نسبتاً کوچک ۳۰ میلیارد پارامتر، این مدل موفق شد امتیاز 87 از 120 را در آزمون Putnam کسب کند؛ یکی از معتبرترین و سخت‌ترین مسابقات ریاضی جهان.

🔹 چنین امتیازی معادل رتبه دوم در میان ۳۹۸۸ شرکت‌کننده در Putnam 2024 است.
🔹 مدل Nomos 1 هشت حل کاملاً بی‌نقص ارائه داده است.
🔹 برای مقایسه، Qwen3-30B در همان شرایط تنها 24 از 120 امتیاز گرفت؛ موضوعی که نشان می‌دهد برتری Nomos بیشتر به کیفیت داده و فرایند آموزش برمی‌گردد، نه شرایط آزمون.

📌 نکته مهم:
ارزیابی پاسخ‌ها به‌صورت کور (Blind Review) انجام شده و توسط یک شرکت‌کننده واقعی Putnam از میان ۲۰۰ نفر برتر صورت گرفته که پاسخ‌های ناشناس را بررسی کرده است.

⏱ شرایط زمانی نیز کاملاً واقعی بوده:
— برای هر بخش، ۳ ساعت زمان دقیقاً مشابه شرکت‌کنندگان انسانی.

🧠 ساختار استدلال Nomos:

ابتدا چند «worker» مسائل سخت‌تر را حل می‌کنند و خودشان راه‌حل‌ها را ارزیابی می‌کنند

سپس در مرحله نهایی، سیستم پاسخ‌ها را تجمیع کرده و بهترین نتیجه را انتخاب می‌کند

🔗 لینک‌ها:
▪ HuggingFace: https://huggingface.co/NousResearch/nomos-1
▪ GitHub: https://github.com/NousResearch/nomos

@rss_ai_ir

#AI #LLM #MachineLearning #Math #OpenSource

👏14🥰10😁9👍7🎉7❤5🔥2

1.45K views07:18

VIRSUN

✨ رقابت هوش مصنوعی فقط دو بازیگر واقعی دارد و داده‌ها کاملاً این را نشان می‌دهند

📊 با نگاه به نقشه نویسندگان NeurIPS، عملاً یک پیش‌بینی از آینده اقتصاد جهان می‌بینیم:
چین تقریباً نیمی از میدان را در اختیار دارد، آمریکا نیم دیگر را.
اروپا—چه آگاهانه، چه از سر inertia—عملاً از رقابت کنار رفته است.

🔍 قدرت‌ها کجا هستند؟
🇺🇸 آمریکا پیشتاز در لَب‌های مرزی هوش مصنوعی، چیپ‌های پیشرفته، سرمایه در مقیاس تریلیون‌دلاری و بزرگ‌ترین بازار نرم‌افزار جهان است.
🇨🇳 چین پیشتاز در رباتیک، تولید سخت‌افزار و چرخه‌های استقرار بسیار سریع.
📉 جایگاه‌ها ممکن است جابه‌جا شوند، اما الگو روشن است: «سومیِ معنادار» وجود ندارد. دیگران از عقب می‌دوند، بدون مسیر واقعی برای حاکمیت فناورانه.

🇪🇺 نقش اتحادیه اروپا در یک تصویر
نمودار دوم از هر سند سیاستی گویاتر است:
درآمد اروپا از جریمه‌ها و تنظیم‌گری شرکت‌های فناوری، بسیار بیشتر از مالیات شرکت‌های فناوریِ ساخته‌شده در خود اروپاست.
📜 تنظیم‌گری شد مدل کسب‌وکار؛ نوآوری نه.

🌍 جمع‌بندی
نظم اقتصادی بعدی را کسانی می‌سازند که مدل‌ها را آموزش می‌دهند و ربات‌ها را می‌سازند.

@rss_ai_ir
#AI #هوش_مصنوعی #NeurIPS #China #USA #Robotics #LLM #Innovation #Geopolitics

❤13👍12🔥10👏9🎉9🥰8😁6

1.58K views07:20

⛔️ترکیب داده، رویکردی بر مبنای هوش مصنوعی جهت پردازش داده

✅انجمن ملی هوش مصنوعی ایران

@rss_ai_ir 🔍🤖

#هوش_مصنوعی ⚙️ #رباتیک #تکنولوژی #پیشرفت_علمی #AI

🎉10👏5😁5❤4👍4🥰4🔥1🙏1

1.45K views12:33

VIRSUN

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

♻️ هر روز پیشرفت ربات ها را شاهدیم.

@rss_ai_ir
#AI #هوش_مصنوعی #NeurIPS #China #USA #Robotics #LLM #Innovation #Geopolitics

1.37K views14:21

VIRSUN

⚡️ بازار شرکتی LLM: آنتروپیک در حال تبدیل‌شدن به رهبر اصلی است

📊 تصویر بازار در دو سال گذشته به‌طور جدی تغییر کرده است. اعداد به‌وضوح نشان می‌دهند که توازن قدرت دیگر مثل قبل نیست.

🔢 اعداد کلیدی بازار:
• حدود ۴۰٪ از کل هزینه‌کرد شرکت‌ها برای LLM حالا به Anthropic می‌رسد (در مقایسه با ۲۴٪ سال گذشته و فقط ۱۲٪ در ۲۰۲۳)
• سهم OpenAI تقریباً نصف شده: از ۵۰٪ در ۲۰۲۳ به ۲۷٪ امروز
• و Google سریع‌ترین رشد را دارد: از ۷٪ در ۲۰۲۳ به ۲۱٪ در ۲۰۲۵

🧠 در عمل چه اتفاقی افتاده؟
• شرکت‌ها به‌صورت گسترده بودجه‌های خود را به سمت Anthropic و Google جابه‌جا کرده‌اند
• حال OpenAI جایگاه مسلطی را از دست می‌دهد که تا دو سال پیش دست‌نیافتنی به نظر می‌رسید
• بازار در حال تمرکز شدید است: Anthropic، OpenAI و Google در مجموع ۸۸٪ مصرف APIهای LLM سازمانی را در اختیار دارند

🏢 جمع‌بندی:
هوش مصنوعی سازمانی از فاز آزمایش عبور کرده و وارد مرحله انتخاب‌های واقع‌گرایانه شده است. برنده‌ها الزاماً پرسر‌وصداترین مدل‌ها نیستند، بلکه آن‌هایی هستند که پایداری، امنیت و کیفیت قابل پیش‌بینی در مقیاس بزرگ ارائه می‌دهند.

@rss_ai_ir

#AI #LLM #Anthropic #OpenAI #Google #EnterpriseAI #TechTrends 🚀

1.41K views14:24

VIRSUN

🌟 دیتاست OMC25: یک دیتاست عظیم برای شیمی محاسباتی

🔬 دیتاست OMC25 بزرگ‌ترین مجموعه‌داده‌ی بلورهای مولکولی است که با روش DFT و با استفاده از بسته‌ی VASP محاسبه شده است.

🧪 پایه‌ی این دیتاست بر ساختارهایی استوار است که از مسیرهای ریلکسیشن بلورهای مولکولی به‌دست آمده‌اند. بلورهای اولیه با ابزار Genarris 3.0 تولید شده‌اند؛ ابزاری که خود از مولکول‌های دیتاست شناخته‌شده‌ی OE62 استفاده می‌کند. این موضوع هم تداوم علمی داده‌ها را تضمین می‌کند و هم آن‌ها را به ساختارهای شیمیایی معتبر پیوند می‌زند — البته در مقیاسی بسیار بزرگ‌تر.

📊 مقیاس داده‌ها واقعاً چشمگیر است:

بخش آموزشی شامل حدود ۲۵ میلیون فریم

مربوط به ۲۰۷ هزار بلور مولکولی

مشتق‌شده از ۴۴ هزار مولکول منحصربه‌فرد

🧾 بخش اعتبارسنجی (Validation) کوچک‌تر است اما همچنان سنگین: حدود ۱.۴ میلیون فریم.
داده‌ها در قالب ase-db و به‌صورت LMDBDatabase بسته‌بندی شده‌اند که در یادگیری ماشینِ شیمی محاسباتی یک استاندارد رایج محسوب می‌شود.

⚙️ کار با این دیتاست از طریق کتابخانه‌ی fairchem انجام می‌شود. هر ساختار به‌صورت یک شیء ASE Atoms ذخیره شده که برای پژوهشگران مدل‌سازی اتمی کاملاً آشناست.

📐 برچسب‌های کلیدی برای آموزش مدل‌ها شامل:

انرژی کل DFT

نیروهای وارد بر اتم‌ها

تانسور تنش

این سه‌گانه، هسته‌ی اصلی آموزش پتانسیل‌های بین‌اتمی را تشکیل می‌دهد. علاوه بر این، متادیتاهای حیاتی در بخش atoms.info ذخیره شده‌اند.

🤖 در کنار دیتاست، نویسندگان یک چک‌پوینت پایه به نام eSEN-S را هم منتشر کرده‌اند که روی کل OMC25 آموزش دیده است.

📌 لایسنس: CC-BY-4.0

https://huggingface.co/datasets/facebook/OMC25

🟡 دیتاست
🟡 مدل
🖥 GitHub

@ai_machinelearning_big_data

#AI #ML #Dataset #FAIR #Chemistry

❤1

1.41K views14:28

VIRSUN

⚠️ اوپن‌ای‌آی از دردسر حقوقی عبور کرد؛ دیزنی تمرکز را روی گوگل گذاشت 🧑‍⚖️🎬

پس از اعلام همکاری یک‌میلیارددلاری دیزنی با OpenAI برای حضور شخصیت‌های دیزنی در محصولات Sora، انتظار می‌رفت دعوای کپی‌رایت داغ شود؛ اما دیزنی مسیر دیگری را انتخاب کرد.

🔎 چه اتفاقی افتاده؟
دیزنی به‌جای OpenAI، به‌صورت رسمی گوگل را متهم کرده که با استفاده از مدل‌های هوش مصنوعی‌اش تصاویر و ویدئوهای غیرمجاز مبتنی بر IPهای دیزنی را تولید و توزیع می‌کند.

📄 در نامه‌ای به گوگل، دیزنی این شرکت را «دستگاه فروش مجازی» توصیف کرده که می‌تواند شخصیت‌های دارای حق‌نشر را در مقیاس وسیع بازتولید کند. همچنین اشاره شده که بسیاری از خروجی‌های ادعاً ناقض، با لوگوی Google Gemini منتشر شده‌اند؛ موضوعی که به‌گفته دیزنی، این تصور غلط را ایجاد می‌کند که استفاده از این شخصیت‌ها مورد تأیید بوده است.

🗣️ واکنش گوگل:
گوگل به جزئیات اتهامات پاسخ نداده و تنها بر «روابط دیرینه و سودمند دوجانبه» با دیزنی تأکید کرده است.

📌 جمع‌بندی:
نبرد کپی‌رایت در عصر مولدها وارد فاز تازه‌ای شده؛ همکاری‌های رسمی یک‌سو، و فشارهای حقوقی بر تولیدکنندگان خروجی‌های بدون مجوز سوی دیگر.

@rss_ai_ir
#AI #Copyright #OpenAI #Google #Disney #Sora #Gemini #GenerativeAI

1.44K views14:29

About

Blog

Apps

Platform