VIRSUN
6.08K subscribers
1.07K photos
626 videos
5 files
689 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
🚀 علی‌بابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯

شرکت Alibaba از سامانه‌ی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراک‌گذاری هوشمند GPU که بهره‌وری در سرویس‌دهی مدل‌های زبانی بزرگ (LLM) را تا ۸ برابر افزایش می‌دهد! ⚙️

📊 نتایج حیرت‌انگیز:

🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا

💡 در آزمایش بتای سه‌ماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر



---

🔥 چطور کار می‌کند؟

در حالت عادی، بسیاری از GPUها در زمان سرویس‌دهی به مدل‌های «سرد» (کم‌استفاده) بلااستفاده می‌مانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواست‌ها را انجام می‌دادند.

💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل می‌کند:

یعنی GPUها می‌توانند در حین تولید پاسخ (در سطح توکن) بین مدل‌ها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️


---

نتیجه:

✳️هر GPU می‌تواند تا ۷ مدل را هم‌زمان پشتیبانی کند (در سیستم‌های دیگر: ۲ تا ۳ مدل)

✳️تأخیر هنگام سوئیچ بین مدل‌ها تا ۹۷٪ کاهش یافته است

✳️مدل‌های «داغ» (پُرکاربرد) در اولویت می‌مانند، مدل‌های «سرد» فقط در لحظه‌های کوتاه منابع می‌گیرند



---

🧩 ویژه برای مرحله استنتاج (Inference):

همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمان‌بندی دقیق بار کاری (load scheduling) بهینه شده است.

در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب می‌شود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایین‌تر. 💰


---

مزایا:

♻️کاهش چشمگیر هزینه‌ی هر توکن
♻️افزایش بهره‌وری سخت‌افزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد


🔗 منبع: South China Morning Post

#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
👍4🔥1
📄 مدل DeepSeek-OCR — شناسایی متن با دقت بالا 🔍

شرکت DeepSeek مدل جدیدی از OCR را معرفی کرده است که می‌تواند تصاویر اسناد را مستقیماً به متن یا فایل Markdown تبدیل کند.

قابلیت‌ها:

♻️تشخیص متن در تصاویر و فایل‌های PDF
♻️پشتیبانی از جداول، نمودارها و قالب‌های پیچیده‌ی اسناد
♻️چهار نسخه‌ی بهینه‌شده: Tiny، Small، Base، Large
♻️سازگار با GPU (PyTorch + CUDA 11.8)
♻️دارای مجوز MIT — استفاده و ویرایش آزادانه


ویژگی کلیدی:
همچنین DeepSeek-OCR با استفاده از فشرده‌سازی توکن‌های تصویری (Visual Tokens Compression)،
به دقت و سرعتی بی‌نظیر دست یافته است.
در بنچمارک OmnidocBench،
این مدل بالاترین دقت را با کمترین مصرف منابع کسب کرده و از سایر مدل‌های OCR موجود سریع‌تر و کارآمدتر عمل می‌کند.

🟠 Hugging Face
🟠 GitHub
🟠 Paper

@rss_ai_ir

#هوش_مصنوعی #OCR #DeepSeek #بینایی_ماشین #AI #متن #تشخیص_متن #مدل_باز
1👍1
📊 ترافیک GenAI — آمار جدید از رقابت غول‌های هوش مصنوعی

📈 داده‌های تازه نشان می‌دهد که تعادل بازار بین مدل‌های تولیدی (Generative AI) در حال تغییر است:

مدل ChatGPT به‌آرامی در حال از دست دادن سهم بازار است.

همچنین Perplexity برای نخستین بار از مرز ۲٪ عبور کرد.


🗓️ یک سال پیش:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%

🗓️ ۶ ماه پیش:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%

🗓️ ۳ ماه پیش:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%

🗓️ ماه گذشته:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%

🗓️ امروز:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%

📊 نتیجه:
بازار به‌تدریج از انحصار ChatGPT خارج می‌شود.
مدل‌های Gemini و Perplexity با رشد پیوسته، جایگاه خود را تقویت کرده‌اند،
و با عرضه‌ی Gemini 3.0 انتظار می‌رود گوگل موقعیت خود را بیش از پیش بهبود بخشد.

@rss_ai_ir

#هوش_مصنوعی #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot #آمار #GenAI #تحلیل_داده
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 City-Tour → Simulation 🦄

پروژه‌ی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیط‌های شبیه‌سازی تعاملی و مبتنی بر فیزیک تبدیل می‌کند.

🎯 هدف اصلی آن، ایجاد بستری مقیاس‌پذیر برای یادگیری ربات‌ها در فضاهای شهری واقعی است — جایی که مدل‌ها بتوانند بین دنیای شبیه‌سازی و واقعیت تعمیم‌پذیری واقعی پیدا کنند.

💡 ویژگی‌ها:

✳️تبدیل ویدیوهای شهری واقعی به شبیه‌سازی‌های فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش ربات‌ها در محیط‌های شهری متنوع و واقعی


📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — به‌زودی منتشر می‌شود

#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation
👏 پژوهش فوق‌العاده از NVIDIA و MIT

پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدل‌های زبانی بزرگ با یادگیری تقویتی ارائه کرده‌اند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته می‌شود.

💡 ایده اصلی:
استفاده از وزن‌های ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث می‌شود مدل‌ها سریع‌تر و کم‌هزینه‌تر یاد بگیرند.

📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rollout‌ها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!

📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.

🔧 نوآوری QeRL:

♻️استفاده از وزن‌های NVFP4 با کمک Marlin

♻️نگهداری LoRA فقط برای گرادیان‌ها (صرفه‌جویی در حافظه)

♻️استفاده از یک نسخه‌ی ۴ بیتی از سیاست (policy) برای هر دو مرحله‌ی rollout و scoring — بدون تکرار حافظه


🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزن‌های کوانتیزه‌شده باعث افزایش تنوع (entropy) در خروجی‌ها می‌شود —
مدل بهتر فضای پاسخ را کاوش می‌کند.
با کاهش تدریجی نویز، پایداری حفظ می‌شود و همه چیز با RMSNorm ادغام می‌گردد — بدون اضافه شدن پارامتر جدید.

📊 نتایج آزمایشی:

پاداش‌ها سریع‌تر رشد می‌کنند

دقت برابر یا بالاتر از مدل‌های LoRA و QLoRA با دقت ۱۶ بیت


خلاصه:
سریع‌تر، کم‌هزینه‌تر و بهینه‌تر از روش‌های قبلی.
اکنون می‌توان مدل‌های بزرگ را واقعاً روی تنها یک GPU آموزش داد.

📄 متن کامل مقاله

#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.


---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪


در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).


---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License


🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub


@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵

📍 مدل DeepDetect یک مدل نوآورانه است که به‌عنوان یک تشخیص‌دهنده‌ی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:

🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel

را در قالب یک شبکه عصبی واحد ترکیب می‌کند.

💬 نویسندگان می‌گویند: این مدل، بازآفرینی عاشقانه‌ای از تمام تکنیک‌های قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.

💙 مجوز: MIT License

🔗 لینک‌ها:
👉 مقاله (arXiv)
👉 مخزن GitHub

#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 احتمال معرفی مرورگر جدید توسط OpenAI

به‌نظر می‌رسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥

شایعات درباره‌ی این مرورگر مدت‌هاست که شنیده می‌شود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو می‌رود.

📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز می‌شود.
در این میان، Perplexity Comet کمی نگران به‌نظر می‌رسد 😄 و بعضی کاربران شوخی می‌کنند که آماده‌ی حذف Arc هستند!

@rss_ai_ir

#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
👍2🔥1
🎙️ VoxCPM —
سامانه‌ای نوآورانه برای تبدیل متن به گفتار (TTS)


⛔️سیستم VoxCPM یک سیستم پیشرفته‌ی تبدیل متن به گفتار بدون نیاز به توکنیزیشن (Tokenization-Free TTS) است که می‌تواند گفتار را به‌صورت آگاه از بافت (Context-Aware) و با کلون‌سازی دقیق صدا تولید کند.

این مدل از معماری دیفیوزنی (Diffusion Architecture) برای ایجاد نمایش‌های پیوسته از گفتار استفاده می‌کند — نتیجه‌ی آن بیان طبیعی‌تر، پایداری بیشتر و صدایی بسیار شبیه انسان است.

🚀 ویژگی‌های کلیدی:
تولید گفتار با لحن طبیعی و آگاهی از متن و بافت.
شبیه‌سازی دقیق صدای فرد فقط با چند نمونه کوتاه.
کارایی بالا در پردازش گفتار و پشتیبانی از استریم زنده (Streaming).

📌 منبع باز (Open Source):

🔗 GitHub - OpenBMB/VoxCPM

#هوش_مصنوعی #TTS #SpeechSynthesis #VoxCPM #Diffusion #AI #Python #VoiceCloning
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Sharpa Robotics
آغاز تولید انبوه دست رباتیک SharpaWave

شرکت Sharpa Robotics با معرفی نسخه‌ی نهایی دست رباتیک SharpaWave وارد مرحله‌ی تولید انبوه شد — مدلی که در کنفرانس ICRA 2025 مورد تحسین قرار گرفت.

🤖 این سامانه یک دست فوق‌دقیق با ابعادی کاملاً برابر با دست انسان است و دارای ۲۲ درجه آزادی (DOF) می‌باشد، که امکان حرکات بسیار ظریف و طبیعی را فراهم می‌کند.

⚙️ نوآوری کلیدی:
فناوری Dynamic Tactile Array (DTA) — هر انگشت به پنل لمسی مجهز است که شامل بیش از ۱۰۰۰ حسگر لمسی با دقت زیر میلی‌متر می‌باشد.
این ویژگی به ربات اجازه می‌دهد در زمان واقعی، بافت و جنس اشیاء را حس کرده و تحلیل کند.

✳️همچنین SharpaWave گامی بزرگ به سوی ربات‌هایی است که نه‌تنها می‌بینند، بلکه احساس هم می‌کنند.

——————————
✔️ دنبال کنید: بهترین کانال درباره‌ی دنیای ربات‌ها و نوآوری‌ها
@rss_ai_ir

#SharpaWave #Robotics #AI #ICRA2025 #TactileSensing #RobotHand #Innovation #هوش_مصنوعی #رباتیک #ربات #فناوری
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 «تکامل یادگیری عمیق» — انیمیشنی هنری درباره‌ی تاریخ هوش مصنوعی

یک هنرمند با انتشار اثری به‌نام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را به‌زیبایی به تصویر کشیده است.

👁️ در این انیمیشن، مسیر از اولین نورون‌های مصنوعی تا معماری‌های پیچیده‌ی امروزی به‌صورت دستی ترسیم شده و بیننده را با تاریخچه‌ی شکل‌گیری دنیای مدرن شبکه‌های عصبی آشنا می‌کند.

هدف اثر — ادای احترام به جفری هینتون، یکی از بنیان‌گذاران یادگیری عمیق و برنده‌ی جایزه نوبل، که با ایده‌هایش راه را برای نسل جدید هوش مصنوعی هموار کرد.

#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
👍2🔥1💩1
💻 Anthropic

قابلیت جدید «Claude Code on the Web» را معرفی کرد!

اکنون می‌توانید وظایف برنامه‌نویسی را مستقیماً از طریق مرورگر به Claude بسپارید — بدون نیاز به ترمینال یا محیط IDE.
این قابلیت در حال حاضر به‌صورت نسخه‌ی آزمایشی (research preview) عرضه شده و در زیرساخت ابری Anthropic کار می‌کند.

⚙️ ویژگی‌های اصلی:

🚀 اجرای هم‌زمان چند پروژه در ریپازیتوری‌های مختلف

📊 نمایش پیشرفت کار به‌صورت لحظه‌ای

🪄 ایجاد خودکار Pull Request با توضیحات شفاف درباره‌ی تغییرات

🧠 پاسخ‌گویی به سؤالات مربوط به ساختار و معماری پروژه‌ها


💡 کاربرد ایده‌آل برای:

♻️رفع باگ‌ها و انجام کارهای تکراری
♻️تغییرات بک‌اند با امکان تست خودکار
♻️تحلیل ساختار کد و وابستگی‌های پروژه


📱 نسخه‌ی iOS هم منتشر شده — می‌توانید با Claude از روی موبایل کدنویسی کنید (فعلاً در مرحله‌ی early preview برای جمع‌آوری بازخورد).

🔒 امنیت بالا:
هر تسک در محیطی ایزوله (sandbox) اجرا می‌شود، با محدودیت شبکه و فایل‌سیستم.
ارتباطات Git از طریق پراکسی امن انجام می‌شود، بنابراین Claude فقط به ریپازیتوری‌های مجاز دسترسی دارد.
می‌توانید قوانین سفارشی شبکه بسازید، مثلاً برای دانلود پکیج‌های npm جهت اجرای تست‌ها.

🟢 دسترسی:
برای کاربران Pro و Max در claude.com/code فعال است.
سهمیه‌ی استفاده بین تمام قابلیت‌های Claude Code مشترک است.

📘 منابع رسمی:
🔗 جزئیات فنی Sandbox
🔗 مستندات کامل

#Claude #Anthropic #AI #Programming #LLM #AItools #Automation #کدنویسی #هوش_مصنوعی
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 RTFM:
مدل جدید WorldLab برای تولید دنیای تعاملی

مدل WorldLab که قبلاً چندین بار درباره‌اش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.

ویژگی‌های اصلی:

🔁 حافظه‌ی بی‌نهایت (infinite context)

🎨 اسکین‌های غیر فتو‌ریالیستی با سبک‌های متنوع

🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت


🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی می‌شود.)

📖 مقاله‌ی رسمی:
worldlabs.ai/blog/rtfm


---

💡 مسئله‌ی اصلی:
تولید «جهان‌های زنده» به کمک مدل‌های مولد به مراتب پرهزینه‌تر از LLMهاست.
اگر بخواهیم مثل مدل‌های ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازه‌ی کل رمان «فرانکشتاین»!
برای تعامل یک‌ساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سخت‌افزاری غیرممکن است.


---

⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا می‌شود و تجربه‌ی تعاملی روان ارائه می‌دهد.

راز کار در این است که به‌جای ذخیره‌ی تمام فریم‌ها، فقط موارد زیر نگهداری می‌شوند:

♻️زاویه‌های دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه به‌طور قابل توجهی تغییر کند، مدل فریم‌ها را از نو می‌سازد — صرفه‌جویی عظیم در حافظه!


---

🎥 نتیجه:
مدل RTFM می‌تواند صحنه‌هایی با جزئیات بالا، بازتاب‌ها، سطوح براق، سایه‌ها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آن‌قدر چشم‌گیر است که این جزئیات کوچک به چشم نمی‌آیند.


---

📌 جمع‌بندی:
WorldLab با RTFM نشان می‌دهد که آینده‌ی مدل‌های مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.

@rss_ai_ir

#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SAM 2++:
رهگیری هرچیز در هر سطحی! 🔥

🧠 مدل SAM 2++ نسخه‌ای پیشرفته از سیستم Segment Anything است که به‌صورت یکپارچه می‌تواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢

📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده

@rss_ai_ir

#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
1