VIRSUN

🤖 گوگل مدل جدیدی معرفی کرد: SOTA Computer Use بر پایه‌ی Gemini 2.5 🚀

مدل جدید گوگل توانسته در بسیاری از بنچمارک‌های اصلی، عملکردی به‌مراتب بهتر از ChatGPT (Agent Mode) و حتی Claude Sonnet 4 / 4.5 داشته باشد — با تأخیر (latency) بسیار پایین‌تر.

📱 این مدل برای کار با وب و اپلیکیشن‌های موبایل بهینه شده و در سیستم‌عامل‌های دسکتاپ معمولی عملکرد متوسطی دارد.

🔍 درون‌مایه فنی:
در واقع، این نسخه نوعی نسخه‌ی پیشرفته از tool use مدل Gemini 2.5 است.
در هر گام مدل، یک اسکرین‌شات از صفحه دریافت می‌کند و سپس با توابعی مثل clicking() یا typing() تعامل انجام می‌دهد.

🧠 ویژگی‌های امنیتی کلیدی:
1️⃣ در system prompt می‌توان مشخص کرد که کدام اقدامات نیاز به تأیید کاربر دارند.
2️⃣ یک ارزیاب خارجی خودکار هر مرحله را به‌صورت مستقل بررسی می‌کند تا اگر مدل کاری غیرمنتظره انجام داد، هشدار بدهد.

🔸 مدل اکنون در حالت Public Preview از طریق API در دسترس است.
🔸 و شایعه شده که گوگل تا پایان همین هفته نسخه‌ی بعدی یعنی Gemini 3.0 را نیز منتشر خواهد کرد 👀

@rss_ai_ir
#Google #Gemini #AIagents #LLM #هوش_مصنوعی #ChatGPT #Claude #ComputerUse #Automation

1.52K views17:21

VIRSUN

🛠️📊 ابزار Dev3000 برای لاگ‌گیری توسعه با پشتیبانی هوش مصنوعی

✅ابزار Dev3000 یک ابزار نوآورانه است که کل تاریخچه‌ی توسعه‌ی وب‌اپ شما را ثبت می‌کند — از لاگ‌های سرور و رویدادهای مرورگر گرفته تا اسکرین‌شات‌های خودکار.
این ابزار فرآیند دیباگ (رفع خطا) را به‌شدت ساده می‌کند، چون به دستیارهای هوش مصنوعی مانند Claude اجازه می‌دهد همه داده‌ها را در یک محیط واحد تحلیل کنند 🤖

🚀 ویژگی‌های کلیدی:

♻️ثبت کامل لاگ‌ها با مهر زمانی (Timestamp) برای دسترسی سریع‌تر.

♻️ایجاد اسکرین‌شات خودکار هنگام پیمایش یا بروز خطا.

♻️ادغام مستقیم با AI برای تحلیل و رفع خطا در لحظه.

♻️امکان فیلتر و جستجو در میان لاگ‌ها.

♻️رابط کاربری بصری و تمیز برای مشاهده و مرور لاگ‌ها.

📌 سورس‌کد در گیت‌هاب:
https://github.com/vercel-labs/dev3000

@rss_ai_ir
#هوش_مصنوعی #AItools #برنامه_نویسی #DevOps #Claude #دیباگ #توسعه_وب #Vercel

1.45K views17:23

VIRSUN

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

⚙️ اپلیکیشن‌های Booking.com، Spotify و Figma به ChatGPT اضافه شدند! 🎯

🔹 حالا این اپ‌ها به‌صورت ادغام بومی (Native Integration) در چت کار می‌کنند — بدون نیاز به نصب یا تغییر حالت.

🔹همچنین OpenAI همچنین از SDK جدید برای توسعه‌ی اپ‌های چت‌محور رونمایی کرده است تا برنامه‌نویس‌ها بتوانند اپ‌های اختصاصی خود را بسازند.

🔹 در واقع، این نسخه جدیدی از سیستم «پلاگین‌ها» است — اما پایدارتر و عمیق‌تر یکپارچه شده با محیط ChatGPT.

🔹 هنوز امکان درآمدزایی مستقیم فعال نشده، اما سم آلتمن وعده داده که «راه‌های مختلفی برای کسب درآمد» در آینده ارائه خواهد شد.

🔹 هنوز مشخص نیست برندها می‌توانند برای نمایش بهتر یا اولویت بالاتر در نتایج چت، هزینه پرداخت کنند یا خیر.

به‌عبارتی ساده، OpenAI دوباره دارد رویای پلاگین‌ها را زنده می‌کند — این بار با امید به اینکه اپلیکیشن‌های درون ChatGPT موفق‌تر از نسل قبلی پلاگین‌ها عمل کنند 💬

@rss_ai_ir
#ChatGPT #OpenAI #AIapps #Spotify #Figma #Booking #هوش_مصنوعی #پلاگین #SDK

2.68K views17:28

VIRSUN

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

این پرامپت یکی از حرفه‌ای‌ترین نمونه‌های پرامپت‌نویسی برای Sora یا هر مدل ویدیو‌ژنراتور فوتورئالیستیک است 🎬

🎥 پرامپت برای تولید ویدیوی واقعی (Photoreal Live-Action)

🎬 نوع شات:
یک برداشت (single take)، بدون هیچ برش یا تغییر زاویه (NO CUTS).
سرعت: 24 فریم در ثانیه با motion blur طبیعی (شاتر 180 درجه).
دوربین روی گیمبال به‌صورت dolly به عقب حرکت می‌کند با لرزش بسیار جزئی (کمتر از ۱٫۵٪).

📷 قاب‌بندی:
مدیوم شات (از سینه به بالا)، شخصیت در مرکز قاب و اندازه‌اش در کل ویدیو ثابت می‌ماند.

🎞️ لنز و فوکوس:
لنز کروی (spherical) معادل 28–35mm
عمق میدان کم (DOF کم) — چشم‌ها شارپ، پس‌زمینه مات با بوکه طبیعی و وینیت ملایم.

💡 نورپردازی و رنگ:
نور طبیعی روز با نوری نرم از بالای برگ‌ها.
رنگ پوست گرم و طبیعی، grain سینمایی ملایم، بدون افکت کارتونی یا خطوط طراحی.

---

🌳 مفهوم (Concept):
مردی از در خانه تا سطل زباله راه می‌رود.
در طول یک برداشت، پس‌زمینه در حالی‌که او حرکت می‌کند تغییر می‌کند — فصل‌ها، آب‌وهوا و تزئینات خانه‌ها عوض می‌شوند، طوری که انگار یک سال در یک ویدیو فشرده شده است، اما حرکت کاملاً واقعی باقی می‌ماند.

👤 ویژگی شخصیت اصلی:
مردی در حدود ۳۰ ساله، موهای نارنجی کوتاه، کک‌ومک، حلقه‌ی کوچک در گوش، زنجیر طلایی، کت جین و تی‌شرت ساده. چهره‌اش باید در کل ویدیو یکسان بماند.

👥 شخصیت‌های فرعی (همسایه‌ها):

زن ورزشکار با موهای تیره و تی‌شرت صورتی، متین و خوش‌برخورد.

مدیر خودخواه با کت ارزان و کارت شناسایی دور گردن.

---

🧩 تغییرات پیوسته (Continuity Rules):

از ثانیه 2.6 تا 4.6 لباس آبی ورزشی Adidas بپوشد، سپس به لباس قبلی برگردد.

در ثانیه ~4.9 تغییر مو: یا رنگ آبی روشن یا تراشیده کامل. بعد مو به‌تدریج رشد کند.

در ثانیه ~7.6 کبودی زیر چشم ظاهر شود و تا 8.6 کاملاً از بین برود.

---

🌦️ تحول پس‌زمینه (Background Evolution):

هر چند فریم یک‌بار پس‌زمینه کمی تغییر کند:
درختان برگ‌دار → بدون برگ، آفتاب → باران → باد → برف سبک، چراغ‌های کریسمس، چترها، آب‌جمع‌شده روی زمین.
اما مسیر و زاویه دوربین ثابت بماند.

---

⏱️ طرح کلی زمان (Timeline):

0.0–2.4s :
معرفی صحنه با نور تابستانی و لرزش برگ‌ها

2.4–4.8s :
لباس آبی ورزشی، تغییر فصول در پس‌زمینه

4.8–7.2s :
تغییر ناگهانی مو، حس صبح بعد از مهمانی

7.2–9.6s :
کبودی چشم و برف/باران، حضور مدیر

9.6–12.0s :
رسیدن به سطل زباله و پرتاب اشتباه زباله (چند سانتی‌متر خطا)، فریز روی چهره‌ی بی‌احساس

---

🎧 صدا (Audio):
موسیقی تنش‌زا بدون ملودی که به‌تدریج اوج می‌گیرد (Rising suspense bed).
صداهای محیطی واقعی مثل باران، باد و قدم‌ها.
در انتها بدون افکت خاص یا موسیقی پایانی (خشک تمام شود).

---

🚫 قوانین سخت (Hard Constraints):
بدون برش، بدون تایم‌لپس، بدون تغییر سرعت یا فریز.
هویت شخصیت‌ها باید ثابت بماند.
هیچ سبک کارتونی، low-poly یا کمیکی مجاز نیست.

👍5🔥1🙏1

2.7K views17:34

VIRSUN

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

🤖 ربات‌های انسان‌نما حالا می‌توانند پشتک بزنند!

بله، درست خواندی — ربات‌های انسان‌نما حالا نه‌تنها راه می‌روند و حرف می‌زنند، بلکه حرکات آکروباتیک مثل وال‌فلیپ (پشتک از دیوار) را هم انجام می‌دهند 😳

این یعنی کنترل تعادل، درک محیط و هماهنگی عضلانی مصنوعی به سطحی رسیده که از نظر فیزیکی با انسان رقابت می‌کند.
حرکت بعدی؟ شاید پارکور یا رقابت‌های المپیکی مخصوص ربات‌ها! 🏃‍♂️🤸‍♀️

@rss_ai_ir
#ربات #هوش_مصنوعی #Humanoid #AIrobots #پارکور #رباتیک #AI #Robotics #FigureAI #BostonDynamics #FutureTech #AIfuture

👏1🤯1😱1🙏1

1.5K views03:30

VIRSUN

6:00

This media is not supported in your browser

VIEW IN TELEGRAM

😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست

📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana

❤1

1.45K views03:30

VIRSUN

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ کپی صدای شما فقط در ۱۰ ثانیه! 🎙️

سرویسی جدید معرفی شده که می‌تونه صدای هرکسی رو در کمتر از ۱۰ ثانیه ضبط و شبیه‌سازی کنه 😳
بعد از اون، هر متنی رو با همون صدا و لحن طبیعی شما می‌خونه — مستقیم داخل مرورگر، بدون نیاز به نصب هیچ برنامه‌ای.

🎧 ویژگی‌ها:
• فقط ۱۰ ثانیه ضبط صدا برای کپی کامل 🎤
• پشتیبانی از ده‌ها زبان از جمله فارسی 🇮🇷
• صدای طبیعی، دقیق و بدون تأخیر
• مناسب برای ویدیو، پادکست، و پروژه‌های شخصی

🟢 تستش کنید — واقعاً حیرت‌انگیزه!
https://vocloner.com/

@rss_ai_ir
#هوش_مصنوعی #AIvoice #clone #تولید_صدا #VoiceAI #AItools #گویندگی #سنتز_صدا #TextToSpeech

🔥1

1.5K views03:30

VIRSUN

🧠 گزارش ۱۵۰ صفحه‌ای گوگل درباره Health AI Agents منتشر شد!

⛔️گوگل در تازه‌ترین پژوهش خود مسیر جدیدی را برای عامل‌های هوش مصنوعی در حوزه سلامت معرفی کرده است — نه یک Doctor-GPT غول‌پیکر، بلکه مجموعه‌ای از عامل‌های تخصصی با همکاری هوشمند.

🔹 ساختار سیستم Personal Health Agent (PHA):
1️⃣ Data Science Agent → تحلیل داده‌های پوشیدنی و نتایج آزمایشگاهی
2️⃣ Domain Expert Agent → بررسی و تأیید دانش و حقایق پزشکی
3️⃣ Health Coach Agent → گفت‌وگو، تعیین هدف و افزودن حس همدلی

🧩 همه این عامل‌ها توسط یک Orchestrator با حافظه فعال به هم متصل می‌شوند که اهداف، محدودیت‌ها و بینش‌های کاربر را درک و به‌روزرسانی می‌کند.

⚡️ نتایج کلیدی:

✅عملکرد بهتر نسبت به مدل‌های پایه در ۱۰ بنچمارک

✅کاربران واقعی در آزمایش‌ها PHA را به مدل‌های زبانی معمولی ترجیح دادند

✅کارشناسان پزشکی کیفیت پاسخ‌ها را بین ۵٫۷ تا ۳۹٪ بهتر ارزیابی کردند

⚙️ اصول طراحی:

❌تمرکز بر همه نیازهای کاربر، نه فقط پاسخ به سؤال

❌ترکیب پویا بین عامل‌ها بر اساس زمینه

❌جلوگیری از درخواست داده‌هایی که از داده‌های موجود قابل استنتاج‌اند

❌کاهش حداکثری تأخیر و پیچیدگی

🧠 موارد استفاده تست‌شده:

♻️پرسش‌های عمومی سلامت

♻️تفسیر داده‌های دستگاه‌های پوشیدنی و بیومارکرها

♻️توصیه‌های شخصی برای خواب، تغذیه و فعالیت

♻️تحلیل علائم بدون تشخیص نهایی

⚠️ محدودیت‌ها و مسیر آینده:

✳️کندتر از عامل‌های تکی (۲۴۴ ثانیه در برابر ۳۶ ثانیه)

✳️نیاز به ارزیابی سوگیری، حفظ حریم خصوصی و انطباق قانونی

✳️گام بعدی: گفت‌وگوی تطبیقی با تعادل بین همدلی و دقت علمی

💡 جمع‌بندی:
گوگل مسیر آینده هوش مصنوعی را در حوزه سلامت نشان می‌دهد — نه یک پزشک واحد، بلکه تیمی از عامل‌های تخصصی هماهنگ.
پزشکی فقط شروع ماجراست؛ بعد از آن، نوبت به مالی، حقوق، آموزش و علم خواهد رسید.

📄 مطالعه گزارش کامل:
arxiv.org/pdf/2508.20148
@rss_ai_ir
#Google #HealthAI #AgenticAI #هوش_مصنوعی #پزشکی #سلامت #AI #LLM

1.5K views03:34

VIRSUN

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

🤖 ربات پوشیدنی جدید Boston Dynamics با بازوهای ۲۴ درجه آزادی!

این اگزواسکلتون پیشرفته دارای بازوهایی است با ۲۴ درجه آزادی (DoF) که می‌تواند تا ۹۰ کیلوگرم (۲۰۰ پوند) را به‌راحتی بلند کند! 💪

با کمک این بازوهای هوشمند، یک نفر به‌تنهایی می‌تواند کارهایی انجام دهد که قبلاً نیاز به چندین نفر داشت — از جمله حمل موشک‌ها یا تجهیزات سنگین نظامی و صنعتی.

🔩 سیستم حرکتی با دقت بالا و کنترل تطبیقی طراحی شده تا حرکات انسان را به‌صورت طبیعی دنبال کند، بدون ایجاد فشار یا خستگی.

این فناوری می‌تواند انقلابی در حوزه‌های نظامی، امداد و نجات، و حتی صنایع سنگین ایجاد کند — جایی که ترکیب قدرت ربات و دقت انسان حیاتی است. ⚙️

@rss_ai_ir
#BostonDynamics #Exoskeleton #Robotics #AI #هوش_مصنوعی #رباتیک #فناوری #انسان_ربات

👏3🔥2👍1

1.51K views03:35

VIRSUN

🇵🇱 استارتاپ لهستانی Pathway معماری جدیدی از شبکه‌های عصبی معرفی کرد —

🧬 Biological Dragon Hatchling (BDH)

هدف از این پروژه، ترکیب دو مسیر اصلی تکامل هوش مصنوعی است: ترنسفورمرها و مدل‌های الهام‌گرفته از مغز انسان.
مطالعات (از جمله پژوهش اخیر DeepMind) نشان داده‌اند که بین ساختار مغز و معماری ترنسفورمر شباهت‌های عمیقی وجود دارد — اما مدل‌های زبانی امروزی هنوز فاقد چند ویژگی کلیدی مغز هستند.

در BDH، پژوهشگران Pathway تصمیم گرفتند این شکاف را پر کنند و برخی ویژگی‌های واقعی مغز را درون ترنسفورمر «پیوند» دهند.
نتیجه، یک شبکه گرافی است که در آن:

نورون‌ها → رأس‌ها (nodes)

سیناپس‌ها → یال‌های وزن‌دار (weighted edges) هستند.
هر نورون فقط با همسایگان خود ارتباط دارد — درست مثل مغز انسان 🧠

---

⚙️ روش یادگیری:

در این مدل از قانون هب (Hebb’s Rule) استفاده شده است — همان قانونی که در مغز واقعی هم برقرار است:

> «نورون‌هایی که با هم فعال می‌شوند، ارتباط‌شان قوی‌تر می‌شود.»

اگر دو نورون A و B بارها همزمان فعال شوند، وزن سیناپس بین آنها افزایش می‌یابد.
در عمل، این مکانیزم مشابه نوعی توجه (attention) است.

---

🧠 حافظه کوتاه‌مدت و بلندمدت:

وزن‌ها در این مدل به دو بخش تقسیم می‌شوند:

ثابت (Fixed weights): حافظه بلندمدت؛ فقط در مرحله آموزش به‌روز می‌شوند.

پویا (Dynamic weights): حافظه کوتاه‌مدت؛ در طول فرایند استدلال تغییر می‌کنند.
هر گام استدلال، در واقع نوعی «به‌روزرسانی محلی» در شبکه سیناپسی است.

---

💻 نسخه‌ی تانسوری (BDH-GPU):

✳️برای آموزش سریع‌تر، نسخه‌ای از BDH به‌صورت تانسوری بازنویسی شده که با ماتریس‌ها و وکتورها کار می‌کند — یعنی می‌توان آن را مثل ترنسفورمر معمولی آموزش داد.
✳️ساختار شامل لایه‌های Attention، MLP، ReLU و اکتیواسیون‌های اختصاصی است.

---

📊 نتایج جالب:

1️⃣ قابلیت تفسیر بالا:
هر جفت نورون (i, j) سیناپس مخصوص به خود را دارد و وضعیت آن قابل مشاهده است.
هر نورون معنای مشخصی دارد — واقعاً یک مفهوم واحد را نمایش می‌دهد.

2️⃣ ادغام ساده مدل‌ها:
دو مدل BDH را می‌توان با یک کنکات ساده (concatenation) به هم متصل کرد — فوق‌العاده برای مقیاس‌پذیری.

3️⃣ قانون مقیاس (Scaling Laws):
همچنین BDH همان رفتار مقیاس‌پذیری GPT-2 را نشان می‌دهد، و در تعداد پارامتر برابر، به دقت مشابهی در چندین وظیفه دست یافته است.
این یعنی هسته اصلی توان ترنسفورمر حفظ شده است ⚡

---

🔗 کد منبع در GitHub
📄 مقاله در arXiv

@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Pathway #BDH #AI #DeepLearning #Neuroscience #Transformers

👏2🙏1👌1

4.09K views03:40

VIRSUN

⚡️ معماری Mamba-3 بی‌سروصدا در کنفرانس ICLR منتشر شد — و شاید این آغاز پایان عصر ترنسفورمرها باشد.

✅معماری Mamba-3 نسل جدیدی از معماری‌های مبتنی بر State Space Models (SSM) است که مدل‌ها را هنگام کار با کانتکست‌های طولانی‌تر، سریع‌تر، پایدارتر و کارآمدتر می‌کند.

✅در این معماری دیگر خبری از Attention Layers نیست — مدل به‌جای آن، وضعیت درونی (internal state) خود را در طول زمان ذخیره و به‌روزرسانی می‌کند.

---

📘 مروری کوتاه بر تکامل مامبا:

🔹 Mamba-1:
✳️مفهوم پویایی پیوسته (continuous dynamics) و حافظه انتخابی (selective memory) را معرفی کرد — یعنی مدل می‌توانست به‌صورت هوشمند فقط بخش‌های مهم اطلاعات را به خاطر بسپارد، بدون هزینه سنگین توجه.

🔹 Mamba-2:
✳️نشان داد که به‌روزرسانی وضعیت و مکانیزم توجه، از نظر ریاضی دو روی یک سکه‌اند — و همین کشف باعث شد محاسبات روی GPUها بسیار سریع‌تر شود.

🔹 Mamba-3:
✳️این ایده را به بلوغ رساند. حالا حافظه داخلی مدل به‌صورت پیوسته و نرم‌تر تغییر می‌کند، زیرا به‌جای گام ساده اویلر (Euler Step) از انتگرال‌گیری ذوزنقه‌ای (Trapezoidal Integration) استفاده می‌کند.

✳️در این روش، به‌جای محاسبه‌ی تغییر وضعیت فقط در انتهای بازه، مدل میانگینی از ابتدا و انتها را با ضریب تطبیقی λ لحاظ می‌کند.
نتیجه: دقت بالاتر (تقریب مرتبه دوم) و پویایی طبیعی‌تر حافظه.

---

🧠 چه چیزهایی زیر کاپوت تغییر کرده؟

♻️حافظه به‌صورت ریتمیک (Rhythmic Memory) عمل می‌کند — یعنی می‌تواند الگوهای تکرارشونده و تناوبی را (مثل ساختار زبان یا موسیقی) به‌خوبی یاد بگیرد.

♻️طراحی چندورودی-چندخروجی (MIMO) امکان پردازش موازی چند جریان داده را فراهم کرده — دقیقاً مطابق با ساختار GPUهای مدرن.

---

⚙️ مزایا در عمل:

✅ مدیریت کارآمد توالی‌های طولانی (متن، ژنوم، داده‌های زمانی)
✅ سرعت خطی و تأخیر ثابت — مناسب برای چت‌بات‌ها، ترجمه زنده، و گفتار به گفتار (real-time)
✅ بهره‌وری انرژی بالا و مقیاس‌پذیری عالی — راه را برای هوش مصنوعی روی دستگاه (on-device AI) هموار می‌کند.

---

🚀 معماری Mamba-3 فقط جایگزینی سریع‌تر برای ترنسفورمر نیست — بلکه معماری‌ای تازه است که عمق درک متنی، سرعت و پایداری را هم‌زمان در خود دارد.
از سرورهای عظیم تا گوشی‌های هوشمند.

🟢 جزئیات:
🔗 openreview.net/pdf?id=HwCvaJOiCj

@rss_ai_ir
#هوش_مصنوعی #Mamba3 #SSM #معماری_شبکه_عصبی #LLM #DeepLearning #AI

❤2👍1

2.74K views15:09

VIRSUN

🧩 Segment Anything 3 –
نسل سوم سام از Meta به‌صورت بی‌سر و صدا در ICLR منتشر شد!

📍 اگر SAM 1 فقط اجازه می‌داد با یک کلیک روی تصویر، شیء مورد نظر را بخش‌بندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،

حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی می‌خواهید — مثلاً:

> «اتوبوس زرد مدرسه»، «گربه راه‌راه»، «سیب قرمز» 🍎

مدل خودش همه نمونه‌های آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم می‌کند.
به زبان ساده: بخش‌بندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---

💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسم‌های کوتاه، نمونه‌های تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان می‌کنید، مدل خودش تشخیص می‌دهد و مرزها را ترسیم می‌کند.
---

🧠 زیرساخت داده‌ای عظیم پشت این مدل:

♻️۴ میلیون مفهوم منحصربه‌فرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسان‌ها و LLMها (که کار یکدیگر را ارزیابی کرده‌اند)
---

⚙️ نتیجه:

✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً هم‌سطح با انسان در آزمون‌های Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)

---

📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw

@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI

🔥1

2.68K viewsedited 15:12

VIRSUN

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

🎨 Mesh2Motion — نسخه‌ی اپن‌سورس Mixamo در مرورگر!

اگر با Mixamo کار کرده‌اید، حالا می‌توانید نسخه‌ی آزاد و کاملاً تحت وب آن را امتحان کنید:
Mesh2Motion 👇

💡 کافی است مدل سه‌بعدی خود را آپلود کنید —
سیستم به‌صورت خودکار ریگ (Rig) را ایجاد می‌کند، با قابلیت ویرایش دستی،
و سپس می‌توانید انیمیشن دلخواهتان را روی آن اعمال کرده و در نهایت خروجی بگیرید (📦 GLB / GLTF).
---
⚙️ امکانات اصلی:

♻️رینگ خودکار با کنترل‌های دقیق تنظیم دستی
♻️اعمال انیمیشن آماده یا سفارشی
♻️پشتیبانی از مرورگر، بدون نصب هیچ نرم‌افزاری
♻️خروجی سازگار با تمامی موتورهای سه‌بعدی (Blender, Unity, Unreal و غیره)

---

🌐 سایت: mesh2motion.org
🎬 دمو: app.mesh2motion.org
💻 کد منبع: github.com/scottpetrovic/mesh2motion-app

@rss_ai_ir
#3D #Mesh2Motion #Rigging #Animation #OpenSource #Blender #Unreal #Unity #AI #WebTools

👍1👏1

2.64K viewsedited 15:14

VIRSUN

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

🥋 Unitree G1 Kungfu Kid V6.0 —
وقتی ربات‌ها واقعاً “هنرهای رزمی” یاد می‌گیرند!

عنوان را همان‌طور می‌گذاریم: برای تاریخ.
تا بعدها یادمان بماند، وقتی عده‌ای هنوز در کامنت‌ها می‌نوشتند
«این فقط رندر کامپیوتری است!» 😏

اما نه، این بار ویدیو واقعی است —
⛔️ربات Unitree G1 در نسخه‌ی Kungfu Kid V6.0 حالا حرکات نمایشی و تعادلی انجام می‌دهد که حتی برای انسان‌ها سخت است.
چرخش، پرش، عقب‌گرد، دفاع و فلیپ کامل — همه در لحظه و با کنترل فیزیکی واقعی.

🎥 حرکت “فلیپ عقب” (Backflip) هنوز هم نفس‌گیر است —
و حالا دیگر شوخی نیست، این نسل جدید روبات‌های رزمی واقعی است.

⚠️ هنوز می‌خواهید به این موجودات لگد بزنید؟
به‌زودی شاید جواب بدهند. 😄

@rss_ai_ir
#Unitree #G1 #Robot #Humanoid #AI #Kungfu #RobotDynamics #BostonDynamics #FutureTech

❤1👏1

2.69K views15:18

About

Blog

Apps

Platform