✨ مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاسپذیر را به دنیای صدا آورد 🎧🤖
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍2❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 ایلان ماسک: آیندهٔ هوش مصنوعی روی زمین نیست — در فضاست! ✨
به اعتقاد ایلان ماسک، مسیر تکامل هوش مصنوعی خیلی زود از سطح زمین فراتر میرود.
او میگوید تنها فضا انرژی و سرمایشی را فراهم میکند که برای ایجاد «ابرهوشمندی در مقیاس تمدنی» لازم است.
در سطح مصرف انرژی نوع دوم کارداشف، زمین عملاً به سقف فیزیکی خود میرسد.
ماسک پیشبینی میکند که تا ۵ سال آینده، ارزانترین روش اجرای محاسبات AI، ماهوارههای خورشیدی در فضا خواهند بود. ⚡🛰️
🔢 چند عدد تکاندهنده:
🌞 زمین فقط یک دو میلیاردُم از انرژی خورشید را دریافت میکند
❄️ ۹۷.۵٪ جرم رکهای GPU روی زمین برای سیستمهای سرمایش است، نه برای خود محاسبه!
⚡ ۳۰۰ گیگاوات = دو سوم کل مصرف سالانه برق آمریکا
🚫 ایجاد توان محاسباتی ۱ تراواتی روی زمین غیرممکن است
به قول ماسک:
«در فضا همیشه آفتابیه.» ☀️🛰️
---
#هوش_مصنوعی #ایلان_ماسک #محاسبات_فضایی #AI #SpaceAI #Technology 🚀
به اعتقاد ایلان ماسک، مسیر تکامل هوش مصنوعی خیلی زود از سطح زمین فراتر میرود.
او میگوید تنها فضا انرژی و سرمایشی را فراهم میکند که برای ایجاد «ابرهوشمندی در مقیاس تمدنی» لازم است.
در سطح مصرف انرژی نوع دوم کارداشف، زمین عملاً به سقف فیزیکی خود میرسد.
ماسک پیشبینی میکند که تا ۵ سال آینده، ارزانترین روش اجرای محاسبات AI، ماهوارههای خورشیدی در فضا خواهند بود. ⚡🛰️
🔢 چند عدد تکاندهنده:
🌞 زمین فقط یک دو میلیاردُم از انرژی خورشید را دریافت میکند
❄️ ۹۷.۵٪ جرم رکهای GPU روی زمین برای سیستمهای سرمایش است، نه برای خود محاسبه!
⚡ ۳۰۰ گیگاوات = دو سوم کل مصرف سالانه برق آمریکا
🚫 ایجاد توان محاسباتی ۱ تراواتی روی زمین غیرممکن است
به قول ماسک:
«در فضا همیشه آفتابیه.» ☀️🛰️
---
#هوش_مصنوعی #ایلان_ماسک #محاسبات_فضایی #AI #SpaceAI #Technology 🚀
👍3🔥3😁2
📌 مایکروسافت در سکوت یک بات قدرتمند هوش مصنوعی عرضه کرد — حالا کامپیوتر شما فقط با چند کلیک خودش کارها را انجام میدهد
مایکروسافت دستیار جدیدی معرفی کرده که فقط چت نمیکند؛ واقعاً کار انجام میدهد — آن هم مستقیماً روی کامپیوتر شما.
✨ قابلیتهای اصلی:
💼 تحلیل فایلهای داخل سیستم
بدون اینکه شما بین فولدرها بگردید، خودش اسناد، اکسلها و پروژهها را بررسی و خلاصه میکند.
🛒 جستجوی هوشمند خرید ارزانتر
قیمتها را مقایسه میکند و بهترین گزینه را پیشنهاد میدهد — از کالا گرفته تا سرویسهای آنلاین.
🧑💼 کمک برای پیدا کردن شغل
آگهیها را بررسی میکند، رزومه و درخواستها را شخصیسازی میکند و حتی روند ارسال رزومهها را پیگیری میکند.
✈️ مدیریت سفر و رزرو هتل
کارهای خستهکننده سفر را خودش انجام میدهد؛ از رزرو تا مقایسه قیمت.
🔍 عامل تحقیقاتی (Research Agent)
اطلاعات را جمعآوری، بررسی و خلاصه میکند و نتایج دقیق تحویل میدهد.
این بات جدید یک قدم واقعی به سمت حالت Autopilot برای کامپیوتر است — سیستمی که فقط جواب نمیدهد، بهجای شما کار میکند.
https://github.com/microsoft/fara
❤️ @rss_ai_ir
#هوش_مصنوعی 🤖 #مایکروسافت #اتوماسیون #عامل_هوشمند #AI #Autopilot_mode
مایکروسافت دستیار جدیدی معرفی کرده که فقط چت نمیکند؛ واقعاً کار انجام میدهد — آن هم مستقیماً روی کامپیوتر شما.
✨ قابلیتهای اصلی:
💼 تحلیل فایلهای داخل سیستم
بدون اینکه شما بین فولدرها بگردید، خودش اسناد، اکسلها و پروژهها را بررسی و خلاصه میکند.
🛒 جستجوی هوشمند خرید ارزانتر
قیمتها را مقایسه میکند و بهترین گزینه را پیشنهاد میدهد — از کالا گرفته تا سرویسهای آنلاین.
🧑💼 کمک برای پیدا کردن شغل
آگهیها را بررسی میکند، رزومه و درخواستها را شخصیسازی میکند و حتی روند ارسال رزومهها را پیگیری میکند.
✈️ مدیریت سفر و رزرو هتل
کارهای خستهکننده سفر را خودش انجام میدهد؛ از رزرو تا مقایسه قیمت.
🔍 عامل تحقیقاتی (Research Agent)
اطلاعات را جمعآوری، بررسی و خلاصه میکند و نتایج دقیق تحویل میدهد.
این بات جدید یک قدم واقعی به سمت حالت Autopilot برای کامپیوتر است — سیستمی که فقط جواب نمیدهد، بهجای شما کار میکند.
https://github.com/microsoft/fara
❤️ @rss_ai_ir
#هوش_مصنوعی 🤖 #مایکروسافت #اتوماسیون #عامل_هوشمند #AI #Autopilot_mode
👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 ساخت اسلایدهای جذاب با ژنراتور ارائهٔ Kimi و مدل Nano Banana Pro
با استفاده از ژنراتور ارائهٔ Kimi میتوان اسلایدهای بسیار چشمگیر و حرفهای ساخت.
تمام عناصر قابل ویرایش هستند و میتوان آنها را مطابق سلیقه تغییر داد.
در پایان هم فایل نهایی را میشود بهصورت PowerPoint دانلود کرد و در هر نرمافزار دیگری ادامهٔ اصلاحات را انجام داد.
⏳ احتمالا تا آخر یکشنبه این قابلیت بدون محدودیت فعال است.
🔗 آدرس تست در پست اصلی.
https://www.kimi.com/slides
#ارائه #هوش_مصنوعی #kimi #نانوبانانا #پرزنتیشن #ابزارهای_AI @rss_ai_ir
با استفاده از ژنراتور ارائهٔ Kimi میتوان اسلایدهای بسیار چشمگیر و حرفهای ساخت.
تمام عناصر قابل ویرایش هستند و میتوان آنها را مطابق سلیقه تغییر داد.
در پایان هم فایل نهایی را میشود بهصورت PowerPoint دانلود کرد و در هر نرمافزار دیگری ادامهٔ اصلاحات را انجام داد.
⏳ احتمالا تا آخر یکشنبه این قابلیت بدون محدودیت فعال است.
🔗 آدرس تست در پست اصلی.
https://www.kimi.com/slides
#ارائه #هوش_مصنوعی #kimi #نانوبانانا #پرزنتیشن #ابزارهای_AI @rss_ai_ir
👍2🔥1
Industrial design, concept sketches, [Subject], multiple-view drawing, modern minimalism, clean lines, white background
❤3👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 یکی از هیجانانگیزترین لحظههای اتصال انسان و هوش مصنوعی همین الآن در حال رخ دادن است ✨
🧠 راب گراینر توانسته با استفاده از Neuralink و یک کنترلر QuadStick فقط با فکر کردن نشانهگیری در یک بازی اولشخص تیراندازی را انجام دهد.
یعنی هدفگیری بدون دست، فقط با فعالیت مغزی.
این همان مسیری است که ایلیا سوتسکِوِر بارها گفته بود:
«ادغام انسان و هوش مصنوعی آینده اجتنابناپذیر ماست.»
این اتفاق نشان میدهد رابطهای مغز–رایانه نه فقط یک فناوری تجربی، بلکه قدم اول بهسمت نسل بعدی تواناییهای انسانی هستند.
@rss_ai_ir 🚀
#Neuralink #BCI #BrainComputerInterface #AI #NeuroTech
🧠 راب گراینر توانسته با استفاده از Neuralink و یک کنترلر QuadStick فقط با فکر کردن نشانهگیری در یک بازی اولشخص تیراندازی را انجام دهد.
یعنی هدفگیری بدون دست، فقط با فعالیت مغزی.
این همان مسیری است که ایلیا سوتسکِوِر بارها گفته بود:
«ادغام انسان و هوش مصنوعی آینده اجتنابناپذیر ماست.»
این اتفاق نشان میدهد رابطهای مغز–رایانه نه فقط یک فناوری تجربی، بلکه قدم اول بهسمت نسل بعدی تواناییهای انسانی هستند.
@rss_ai_ir 🚀
#Neuralink #BCI #BrainComputerInterface #AI #NeuroTech
🔥3❤1😱1👌1
🦃 ابزار تازهٔ گوگل برای ساخت آنی اپلیکیشنهای وب؛ app.new
@rss_ai_ir
گوگل در روز شکرگزاری بیسروصدا از app.new رونمایی کرد؛ ابزاری سبک، سریع و تمامهوشمند که تنها با یک درخواست متنی، یک اپلیکیشن وب کامل برایتان میسازد و حتی آن را همانجا دیپلوی میکند.
✨ ویژگیهای کلیدی:
فقط توضیح میدهید چه میخواهید، و سیستم در چند ثانیه UI، منطق برنامه و استقرار را انجام میدهد.
درواقع این ابزار «لایهای سرگرمکننده» روی Gemini است، مخصوص ساخت سریع و خلاقانه.
نامگذاری هوشمندانه است؛ همانطور که docs.new و sheets.new فایل جدید باز میکنند، اکنون app.new یک اپ وب تازه میسازد.
تمرکز روی vibecoding است: ساخت سریع، بیدردسر و بدون فرآیندهای سنگین توسعه.
📌 استراتژی گوگل:
هدف این است که توسعهٔ نرمافزار بهاندازهٔ ساخت یک سند جدید ساده شود.
اینکه Gemini تبدیل میشود به موتور اصلیِ خلق نرمافزار در لحظه.
#هوش_مصنوعی #گوگل #اپلیکیشن #برنامهنویسی #Gemini #app_new #vibecoding
@rss_ai_ir
گوگل در روز شکرگزاری بیسروصدا از app.new رونمایی کرد؛ ابزاری سبک، سریع و تمامهوشمند که تنها با یک درخواست متنی، یک اپلیکیشن وب کامل برایتان میسازد و حتی آن را همانجا دیپلوی میکند.
✨ ویژگیهای کلیدی:
فقط توضیح میدهید چه میخواهید، و سیستم در چند ثانیه UI، منطق برنامه و استقرار را انجام میدهد.
درواقع این ابزار «لایهای سرگرمکننده» روی Gemini است، مخصوص ساخت سریع و خلاقانه.
نامگذاری هوشمندانه است؛ همانطور که docs.new و sheets.new فایل جدید باز میکنند، اکنون app.new یک اپ وب تازه میسازد.
تمرکز روی vibecoding است: ساخت سریع، بیدردسر و بدون فرآیندهای سنگین توسعه.
📌 استراتژی گوگل:
هدف این است که توسعهٔ نرمافزار بهاندازهٔ ساخت یک سند جدید ساده شود.
اینکه Gemini تبدیل میشود به موتور اصلیِ خلق نرمافزار در لحظه.
#هوش_مصنوعی #گوگل #اپلیکیشن #برنامهنویسی #Gemini #app_new #vibecoding
❤3🔥2👏1
✨مدل GigaBrain-0؛ مدل ترکیبی بینایی–زبان–عمل مبتنی بر World Model
@rss_ai_ir
🤖 در این پژوهش، مدل GigaBrain-0 بهعنوان یک VLA معرفی شده که با تکیه بر دادههای تولیدشده توسط World Model، محدودیت دادههای ربات واقعی را برطرف میکند و در نتیجه توانایی تعمیم بین وظایف و پایداری سیاست کنترلی را بهطور چشمگیری افزایش میدهد.
🎯 خروجی کار، عملکرد دقیقتر و قابلاعتمادتر رباتها در سناریوهای پیچیدهی دستکاری اجسام است؛ جایی که مدلهای کلاسیک معمولا ضعف دارند.
📄 لینکها
• arXiv:
https://arxiv.org/abs/2510.19430
• PDF:
https://arxiv.org/pdf/2510.19430
• پروژه:
https://gigabrain0.github.io/
• گیتهاب:
https://github.com/open-gigaai/giga-brain-0
• مدل مرتبط:
https://huggingface.co/open-gigaai/GigaBrain-0-3.5B-Base
#رباتیک 🤖 #هوش_مصنوعی #world_model #بینایی_ماشین #ژرف_یادگیری
@rss_ai_ir
🤖 در این پژوهش، مدل GigaBrain-0 بهعنوان یک VLA معرفی شده که با تکیه بر دادههای تولیدشده توسط World Model، محدودیت دادههای ربات واقعی را برطرف میکند و در نتیجه توانایی تعمیم بین وظایف و پایداری سیاست کنترلی را بهطور چشمگیری افزایش میدهد.
🎯 خروجی کار، عملکرد دقیقتر و قابلاعتمادتر رباتها در سناریوهای پیچیدهی دستکاری اجسام است؛ جایی که مدلهای کلاسیک معمولا ضعف دارند.
📄 لینکها
• arXiv:
https://arxiv.org/abs/2510.19430
• PDF:
https://arxiv.org/pdf/2510.19430
• پروژه:
https://gigabrain0.github.io/
• گیتهاب:
https://github.com/open-gigaai/giga-brain-0
• مدل مرتبط:
https://huggingface.co/open-gigaai/GigaBrain-0-3.5B-Base
#رباتیک 🤖 #هوش_مصنوعی #world_model #بینایی_ماشین #ژرف_یادگیری
A [shape/form] made of soft, flowing smoke, captured against a [background type]. Wisps curl gracefully to create a [style/adjective] structure with translucent edges and subtle motion. High-resolution, clean composition, minimalistic elegance, ideal for [purpose/style].
❤2
⚠️ ظرفیت مراکز داده در آمریکا با سرعت سرسامآور در حال رشد است
ظرفیت مراکز دادهای که ساخته شده، در حال ساخت، یا در مرحله برنامهریزی هستند، در سال ۲۰۲۵ به رکورد حدود ۸۰ گیگاوات رسیده است.
برای مقایسه: چنین ظرفیتی بهصورت تئوری میتواند برق ۶۰ میلیون خانه را تأمین کند! 🏠⚡️
این عدد تنها در یک سال بیش از دو برابر شده و نسبت به ۲۰۲۲ تقریباً ۸ برابر افزایش یافته است.
بخش عمده این رشد مربوط به پروژههای برنامهریزیشده است که حدود ۶۵ گیگاوات را تشکیل میدهند — بالاترین رقم تاریخ.
رشد هوش مصنوعی بهزودی کاملاً وابسته به انرژی خواهد شد.
زیرساخت محاسباتی = زیرساخت برق.
@rss_ai_ir
#هوش_مصنوعی ⚡ #مراکز_داده #انرژی #AI #DataCenters
ظرفیت مراکز دادهای که ساخته شده، در حال ساخت، یا در مرحله برنامهریزی هستند، در سال ۲۰۲۵ به رکورد حدود ۸۰ گیگاوات رسیده است.
برای مقایسه: چنین ظرفیتی بهصورت تئوری میتواند برق ۶۰ میلیون خانه را تأمین کند! 🏠⚡️
این عدد تنها در یک سال بیش از دو برابر شده و نسبت به ۲۰۲۲ تقریباً ۸ برابر افزایش یافته است.
بخش عمده این رشد مربوط به پروژههای برنامهریزیشده است که حدود ۶۵ گیگاوات را تشکیل میدهند — بالاترین رقم تاریخ.
رشد هوش مصنوعی بهزودی کاملاً وابسته به انرژی خواهد شد.
زیرساخت محاسباتی = زیرساخت برق.
@rss_ai_ir
#هوش_مصنوعی ⚡ #مراکز_داده #انرژی #AI #DataCenters
👍2👏1🤯1
Media is too big
VIEW IN TELEGRAM
🌟 داستان جالبی از دمیس هاسابیس، مدیرعامل Google DeepMind
در سن ۱۲ سالگی، هاسابیس رتبهٔ دوم جهان را در شطرنج برای گروه سنی خود داشت.
اما وقتی در یک مسابقه، مقابل یک بازیکن ۳۰ ساله شکست خورد، ناگهان از خودش پرسید:
«هدف از تسلط کامل بر یک بازی محدود چیست؟
آیا ذهن انسان برای چیزی بزرگتر ساخته نشده؟»
همان لحظه بود که فهمید شطرنج – با تمام زیباییاش – حد و مرز دارد.
او مسیرش را تغییر داد و تصمیم گرفت وقتش را صرف درک هوش، مغز و ساختن چیزی فراتر از توان شطرنجبازان کند.
این تغییر مسیر کوچک در نوجوانی، بعدها تبدیل شد به تولد DeepMind
و نقطهٔ شروع آثاری مانند AlphaGo، AlphaFold و نسل جدید هوش مصنوعی.
@rss_ai_ir
♟️🤖✨
#DeepMind #DemisHassabis #AI #هوش_مصنوعی #الهامبخش
در سن ۱۲ سالگی، هاسابیس رتبهٔ دوم جهان را در شطرنج برای گروه سنی خود داشت.
اما وقتی در یک مسابقه، مقابل یک بازیکن ۳۰ ساله شکست خورد، ناگهان از خودش پرسید:
«هدف از تسلط کامل بر یک بازی محدود چیست؟
آیا ذهن انسان برای چیزی بزرگتر ساخته نشده؟»
همان لحظه بود که فهمید شطرنج – با تمام زیباییاش – حد و مرز دارد.
او مسیرش را تغییر داد و تصمیم گرفت وقتش را صرف درک هوش، مغز و ساختن چیزی فراتر از توان شطرنجبازان کند.
این تغییر مسیر کوچک در نوجوانی، بعدها تبدیل شد به تولد DeepMind
و نقطهٔ شروع آثاری مانند AlphaGo، AlphaFold و نسل جدید هوش مصنوعی.
@rss_ai_ir
♟️🤖✨
#DeepMind #DemisHassabis #AI #هوش_مصنوعی #الهامبخش
🔥4👏2😁2❤1👎1
🌟 مدل MedSAM-3؛ نسخهی پزشکیشدهی SAM 3 با درک زبان طبیعی
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📌 ربات هایUnitree R1 و G1 روی یک صحنه — انتخاب با شما!
🤖 دو ربات انساننمای قدرتمند Unitree همزمان مهارتهایشان را به نمایش گذاشتند و حالا سؤال این است: کدام را انتخاب میکنید؟
💙 R1
مدل تازه، جمعوجور، مقرونبهصرفهتر و مناسب برای کاربردهای آموزشی، تحقیقاتی و خانگی.
🔥 G1
مدل پیشرفتهتر، قدرتمند و حرفهای که در بازار جایگاه خودش را ثابت کرده و همچنان پرچمدار خط تولید Unitree است.
هر دو ربات ترکیبی از قدرت، پویایی و هوش مصنوعی مدرن هستند — فقط کافی است انتخاب کنید کدام «مبارز» را میخواهید!
#روبات 🤖 #Unitree #هوش_مصنوعی #رباتیک #AI
🤖 دو ربات انساننمای قدرتمند Unitree همزمان مهارتهایشان را به نمایش گذاشتند و حالا سؤال این است: کدام را انتخاب میکنید؟
💙 R1
مدل تازه، جمعوجور، مقرونبهصرفهتر و مناسب برای کاربردهای آموزشی، تحقیقاتی و خانگی.
🔥 G1
مدل پیشرفتهتر، قدرتمند و حرفهای که در بازار جایگاه خودش را ثابت کرده و همچنان پرچمدار خط تولید Unitree است.
هر دو ربات ترکیبی از قدرت، پویایی و هوش مصنوعی مدرن هستند — فقط کافی است انتخاب کنید کدام «مبارز» را میخواهید!
#روبات 🤖 #Unitree #هوش_مصنوعی #رباتیک #AI
❤2👍1🔥1