VIRSUN
7.6K subscribers
1.39K photos
801 videos
5 files
887 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🌟 مدل MedSAM-3؛ نسخه‌ی پزشکی‌شده‌ی SAM 3 با درک زبان طبیعی

🧠 مدل MedSAM-3 تلاش می‌کند قابلیت‌های قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.

در حالی که SAM 3 در تصاویر روزمره عالی عمل می‌کند، اما روی داده‌های پزشکی مشکلات جدی داشت — از جمله اشتباه‌گرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.

مدل MedSAM-3 دقیقاً همین شکاف را پر می‌کند:
💬 پزشک فقط می‌نویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا می‌کند.


---

🔧 نحوهٔ آموزش مدل

برای دقت بالا در پزشکی، چنین کاری انجام شده:

انکودرهای تصویر و متن منجمد شده‌اند تا توان اصلی SAM 3 حفظ شود

قسمت‌های مربوط به دیتکتور با SFT روی دیتاست‌های پزشکی آموزش دیده‌اند

نتیجه: مدل هویت اصلی SAM 3 را حفظ می‌کند، اما زبان و ساختار پزشکی را هم می‌فهمد



---

📊 نتایج و عملکرد

بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:

جلو بزند از U-Net

جلو بزند از MedSAM نسخه اول

دست‌یابی به:

Dice = 0.7772 روی BUSI

Dice = 0.8064 با کمک Agent و Gemini 3 Pro



این نتایج در پزشکی خیلی قوی محسوب می‌شوند.


---

🤖 مدل Agent هوشمند MedSAM-3

یک ابزار جذاب همراه مدل عرضه شده:

✳️برنامه‌ریز هوشمند با Gemini 3 Pro

✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات

✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیق‌تر

✳️افزایش محسوس دقت (Dice)


✳️این یعنی ورود جدی مدل‌های Vision-Language-Agent به پزشکی.


---

📌 وضعیت انتشار

مدل فعلاً در قالب Tech Report منتشر شده، اما توسعه‌دهندگان قول داده‌اند کد و وزن‌ها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.

https://arxiv.org/pdf/2511.19046

https://github.com/Joey-S-Liu/MedSAM3

---

@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📌 ربات هایUnitree R1 و G1 روی یک صحنه — انتخاب با شما!

🤖 دو ربات انسان‌نمای قدرتمند Unitree هم‌زمان مهارت‌هایشان را به نمایش گذاشتند و حالا سؤال این است: کدام را انتخاب می‌کنید؟

💙 R1
مدل تازه، جمع‌وجور، مقرون‌به‌صرفه‌تر و مناسب برای کاربردهای آموزشی، تحقیقاتی و خانگی.

🔥 G1
مدل پیشرفته‌تر، قدرتمند و حرفه‌ای که در بازار جایگاه خودش را ثابت کرده و همچنان پرچم‌دار خط تولید Unitree است.

هر دو ربات ترکیبی از قدرت، پویایی و هوش مصنوعی مدرن هستند — فقط کافی است انتخاب کنید کدام «مبارز» را می‌خواهید!

#روبات 🤖 #Unitree #هوش_مصنوعی #رباتیک #AI
2👍1🔥1
A stylized sculpture of a [subject], entirely constructed from folded metallic paper with sharp angular forms and crisp edges. The surface reflects light in silver, white, and graphite tones, floating in a minimal neutral void. The design radiates precision, abstraction, and futuristic elegance.
🔥21👏1
🤖 انفجار بی‌سروصدای انویدیا؛ مدل ۸ میلیارد پارامتری که از GPT-5 هم جلو زد!

دنیای هوش مصنوعی یک غافلگیری تازه تجربه کرده است. انویدیا quietly مدلی را معرفی کرده که نقش «مغزِ هماهنگ‌کننده» برای ابزارها و مدل‌های بزرگ‌تر را بازی می‌کند: Orchestrator-8B.

این مدل کوچک تصمیم می‌گیرد چه زمانی خودش پاسخ دهد و چه زمانی سراغ ابزارهایی مثل جستجو، کدنویسی، API یا مدل‌های بزرگ‌تر برود. نتیجه؟
عملکردی شگفت‌انگیز:

🔥 امتیاز ۳۷.۱٪ در Humanity’s Last Exam
(در حالی که GPT-5 تنها ۳۵.۱٪ گرفته!)

و همزمان ۲.۵ برابر سریع‌تر و ارزان‌تر.

🎛️ چگونه کار می‌کند؟

مدل روی دیتاست عظیمی به نام ToolScale آموزش دیده که شامل:

✳️درخواست کاربر

✳️قیمت هر ابزار

✳️بهترین ترتیب فراخوانی ابزارها


✳️مدل Orchestrator-8B یاد می‌گیرد همیشه انتخابی هوشمندانه و اقتصادی انجام دهد، نه این‌که همه چیز را با brute force حل کند.

📊 نتایج کلیدی

در بنچمارک‌هایی مثل HLE، FRAMES و tau²:

♻️عملکرد بهتر از GPT-5 مجهز به ابزارها

♻️عملکرد بهتر از Claude Opus 4.1

♻️عملکرد بهتر از Qwen3-235B

♻️استفاده کمتر از ابزارهای گران

♻️سازگاری بالا با ابزارها و قیمت‌های جدید


🔮 آینده چه می‌گوید؟

مسیر آینده AI Agents کاملاً واضح است:
عصر «ابزارمحور» به‌جای «مدل‌محور» آغاز شده.

https://huggingface.co/datasets/nvidia/ToolScale
---

#هوش_مصنوعی #NVIDIA #Orchestrator8B #ایجنت #مدل_زبانی #AI #ML
🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
🖥️ من اسمش را «بنچمارک پرولتری» می‌گذارم 😄

کاربری یک تست جذاب انجام داده:
او فقط یک پرامپت برای ساخت بازی قدیمی Pinball داد و از چهار مدل برترِ فعلی خواست همین بازی را در قالب یک فایل HTML تولید کنند.

نتیجه؟
به نظر من، Opus-4.5 از بقیه عملکرد بهتری داشت — هم از نظر ساختار کد، هم اجرای روان، هم میزان خطاهای کمتر در منطق بازی.

این سبک تست‌ها خیلی خوب نشان می‌دهد که قدرت واقعی مدل‌ها در «vibecoding» چقدر با هم متفاوت است.

#vibecoding #AI #Opus45 #ChatGPT #Coding #Benchmark
3👍3🔥2👏1
🏠 یک پیمانکار در مهمانی روز شکرگزاری با Nano Banana Pro شگفت‌زده شد!

وقتی برای تست، فقط یک درخواست ساده درباره‌ی خانه‌ای که روی آن کار می‌کرد وارد کرد، مدل در کمتر از یک دقیقه نقشه‌های کامل معماری برای او تولید کرد — دقیق، تمیز و کاملاً قابل استفاده.

🔹 محتوای درخواست:

Draw me architectural plans for a 1600 square foot 3 bedroom house that is two stories in torrance, california

#هوش_مصنوعی #NanoBananaPro #معماری #طراحی_سه‌بعدی #نسل_جدید_AI @rss_ai_ir
3👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 ربات OLi از شرکت LimX Dynamics چین روی زمین‌های ناهموار

این ربات نمونه‌ای از Whole-Body Loco-Manipulation with Active Perception را نشان می‌دهد؛
یعنی OLi می‌تواند با دقت بالا راه برود، خم شود و با تکیه بر حسگرهای خود و بینایی مبتنی بر هوش مصنوعی، در لحظه نسبت به محیط واکنش پویا نشان دهد.

عملکرد کاملاً هماهنگ بین حرکت کل بدن و درک فعال، این ربات را برای عملیات صنعتی و محیط‌های پیچیده به گزینه‌ای بسیار قدرتمند تبدیل کرده است. 🔥

#رباتیک #هوش_مصنوعی #چین #LimXDynamics #روبات_انسان‌نما #روباتیک_صنعتی
🔥2🥰2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵

👉 فریمورک InstanceV اولین فریم‌ورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه می‌دهد هر شیء در ویدئو به‌صورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شده‌اند 💙


🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: به‌زودی

#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متن‌باز برای GUI-Agent ها

یک خبر مهم برای دنیای ایجنت‌ها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متن‌باز برای سیستم‌های سطح بالایی مثل GUI-Agent MCP محسوب می‌شود. نسخه‌ای سبک، سریع و قابل اجرا به‌صورت کامل روی سیستم شخصی شما 🚀

🔧 چه چیزهایی داخلش هست؟

مدل ۴B در سطح SOTA؛ سریع، کم‌هزینه و قابل اجرا روی GPUهای سبک

زیرساخت راه‌اندازی «تک‌کلیک» بدون دردسرهای ADB

بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران


📊 نتایج و عملکرد

دقت ۷۳.۴٪ روی AndroidDaily

عملکرد بهتر از مدل‌های بزرگ‌تری مثل GUI-Owl-32B

بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تست‌های GUI

برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld


🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصی‌سازی کن، و توسعه بده — بالاخره یک گزینهٔ متن‌باز واقعی برای GUI-Agent ها در دسترس است.

🔗 لینک‌ها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html

#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
2
Simple cartoon line drawing of a [character description], [action]. Clean full-body view, no outline around the edges, no shadow. Clipart-style for children's book, soft lighting, solid [background color], clear lines, no internal shadows. Minimalist and playful cartoon aesthetic.
👍1🔥1👌1