🔔 پیشرفت بزرگ در هوش مصنوعی الهامگرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! ⚡🧠
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❤1👍1👏1👌1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
❤1
🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU مصرفی! 🤯💪
در پروژهی جدید ModelScope SWIFT، محققان نشان دادند که میتوان مدلهای زبانی بزرگ (LLM) را با کانتکستهای عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آنهم با ترکیب خلاقانهی دو تکنیک: Ulysses + Ring Attention ⚙️
---
🔹 چطور کار میکند:
✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.
✅ Ring Attention —
مقیاسپذیرتر است؛ ارتباطات را بهصورت حلقوی (P2P) بین GPUها برقرار میکند
و با الگوریتم "زیگزاگ" برای مدلهای causal، توازن بهتری ایجاد میکند.
💡 ترکیب این دو روش:
ابتدا Ulysses اجرا میشود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشههای بالای ۸ GPU)، Ring بهصورت خودکار فعال میشود.
---
🔥 نتیجه:
مدل Qwen2.5-3B با طول دنبالهی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀
پشتیبانی کامل از:
♻️SFT / DPO / GRPO
♻️ورودیهای چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention
📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
در پروژهی جدید ModelScope SWIFT، محققان نشان دادند که میتوان مدلهای زبانی بزرگ (LLM) را با کانتکستهای عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آنهم با ترکیب خلاقانهی دو تکنیک: Ulysses + Ring Attention ⚙️
---
🔹 چطور کار میکند:
✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.
✅ Ring Attention —
مقیاسپذیرتر است؛ ارتباطات را بهصورت حلقوی (P2P) بین GPUها برقرار میکند
و با الگوریتم "زیگزاگ" برای مدلهای causal، توازن بهتری ایجاد میکند.
💡 ترکیب این دو روش:
ابتدا Ulysses اجرا میشود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشههای بالای ۸ GPU)، Ring بهصورت خودکار فعال میشود.
---
🔥 نتیجه:
مدل Qwen2.5-3B با طول دنبالهی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀
پشتیبانی کامل از:
♻️SFT / DPO / GRPO
♻️ورودیهای چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention
📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامهنویس ۲۳ ساله از هند دومین مدل متنباز هوش مصنوعی گفتار در جهان را ساختند!
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤🔥5❤1
🎸 Another BRIXEL in the Wall 🎸
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍14❤13🎉11😁10🔥9🥰8👏7
🔍 اگر با NanoBanana کار میکنید، این مطلب برای شماست!
خیلیها مدل NanoBanana را میشناسند و حرفهای از آن استفاده میکنند، اما پیدا کردن تمام تکنیکها و قابلیتهایش در یکجا همیشه سخت بوده.
حالا یک مقالهٔ فوقالعاده منتشر شده که همه چیز را یکجا و کامل توضیح میدهد — از اصول تا ترفندهای پیشرفته.
در این مقاله میبینید:
✨ پرومتنویسی مثل مهندسی
🟣 ساخت تصاویر پیچیده مثل بچهگربههای هتروکرومیا با رنگهای HEX و ترکیببندی سخت
🟣 رندر کامل یک صفحهٔ وب از صفر فقط با HTML + CSS + JS
🟣 تولید یک کاراکتر عجیبوغریب و دقیق با JSON (ترکیب Paladin + Pirate + Barista!)
---
🧩 مینی ریورسانجینیرینگ پرومت سیستم
نویسنده با تکنیک «magnet» تونسته بخشی از system prompt مدل را بیرون بکشد:
✳️سکشنهای Markdown
✳️قوانین با MUST و SHOULD
✳️جلوگیری از استایلهای قدیمی AI-Art
✳️و اینکه چطور مدل را وادار میکند دقیقتر و حرفگوشکنتر باشد
اگر در پرومتدیزاین، توسعه محصول یا ساخت اپهای مولتیمودال با NanoBanana/Gemini فعالیت دارید — این مقاله یک مرجع واقعی است.
📌 گیتهاب ابزارها و مثالها:
https://github.com/minimaxir/gemimg
---
هشتگها:
#AI #NanoBanana #Gemini #PromptEngineering #AIGeneration #DeepLearning #AIArt #Tech
خیلیها مدل NanoBanana را میشناسند و حرفهای از آن استفاده میکنند، اما پیدا کردن تمام تکنیکها و قابلیتهایش در یکجا همیشه سخت بوده.
حالا یک مقالهٔ فوقالعاده منتشر شده که همه چیز را یکجا و کامل توضیح میدهد — از اصول تا ترفندهای پیشرفته.
در این مقاله میبینید:
✨ پرومتنویسی مثل مهندسی
🟣 ساخت تصاویر پیچیده مثل بچهگربههای هتروکرومیا با رنگهای HEX و ترکیببندی سخت
🟣 رندر کامل یک صفحهٔ وب از صفر فقط با HTML + CSS + JS
🟣 تولید یک کاراکتر عجیبوغریب و دقیق با JSON (ترکیب Paladin + Pirate + Barista!)
---
🧩 مینی ریورسانجینیرینگ پرومت سیستم
نویسنده با تکنیک «magnet» تونسته بخشی از system prompt مدل را بیرون بکشد:
✳️سکشنهای Markdown
✳️قوانین با MUST و SHOULD
✳️جلوگیری از استایلهای قدیمی AI-Art
✳️و اینکه چطور مدل را وادار میکند دقیقتر و حرفگوشکنتر باشد
اگر در پرومتدیزاین، توسعه محصول یا ساخت اپهای مولتیمودال با NanoBanana/Gemini فعالیت دارید — این مقاله یک مرجع واقعی است.
📌 گیتهاب ابزارها و مثالها:
https://github.com/minimaxir/gemimg
---
هشتگها:
#AI #NanoBanana #Gemini #PromptEngineering #AIGeneration #DeepLearning #AIArt #Tech
👍39❤36😁36🥰33👏33🎉30🔥24👌1
🚀 یک موتور قدرتمند برای مدلهای چندمودالی (Multimodal Models)
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥17❤12🥰12🎉12👍10👏10🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 مقایسه اندازه مدلهای بزرگ هوش مصنوعی با مغز انسان!
در این کلیپ یک مقایسهٔ دیدنی بین ساختار «شبکههای عصبی» مدلهای معروف هوش مصنوعی و مغز انسان نمایش داده میشود. هرچه پارامترهای یک مدل بیشتر باشد، تعداد ارتباطات عصبی آن بالاتر میرود و قدرت استدلال، خلاقیت و پردازش آن افزایش پیدا میکند.
مدلهایی که در این ویدئو مشاهده میکنید:
🔹 LLaMA 3 – 70B
🔹 Grok-3
🔹 GPT-4o
🔹 Claude 3 Opus
🔸 و در پایان: Human Brain 😍
با وجود این حجم عظیم از پارامترها، هیچ مدلی هنوز به پیچیدگی مغز انسان نزدیک نشده؛
اما سرعت پیشرفت هوش مصنوعی نشان میدهد که عصرهای شگفتانگیزی در راه است… 🚀
@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Llama3 #GPT4o #Claude3 #Grok3 #AI #DeepLearning #مغز_انسان #مدل_زبان_بزرگ
در این کلیپ یک مقایسهٔ دیدنی بین ساختار «شبکههای عصبی» مدلهای معروف هوش مصنوعی و مغز انسان نمایش داده میشود. هرچه پارامترهای یک مدل بیشتر باشد، تعداد ارتباطات عصبی آن بالاتر میرود و قدرت استدلال، خلاقیت و پردازش آن افزایش پیدا میکند.
مدلهایی که در این ویدئو مشاهده میکنید:
🔹 LLaMA 3 – 70B
🔹 Grok-3
🔹 GPT-4o
🔹 Claude 3 Opus
🔸 و در پایان: Human Brain 😍
با وجود این حجم عظیم از پارامترها، هیچ مدلی هنوز به پیچیدگی مغز انسان نزدیک نشده؛
اما سرعت پیشرفت هوش مصنوعی نشان میدهد که عصرهای شگفتانگیزی در راه است… 🚀
@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Llama3 #GPT4o #Claude3 #Grok3 #AI #DeepLearning #مغز_انسان #مدل_زبان_بزرگ
❤6👍6🥰6🔥5🎉5😁3👏2🤯2👌2
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ساخت ویدیو با LongCat-Video؛ غول ۱۳.۶ میلیارد پارامتری تولید ویدیو
مدل LongCat-Video یکی از قدرتمندترین سیستمهای تولید ویدیو است که میتواند متن را به ویدیو، تصویر را به ویدیو و حتی ادامهٔ ویدیو تولید کند — آن هم با کیفیت بالا و بدون افت در ویدیوهای طولانی.
🚀 ویژگیهای کلیدی:
✳️معماری یکپارچه برای تمام وظایف تولید ویدیو
✳️توانایی ساخت ویدیوهایی با مدت چند دقیقه
✳️تولید کارآمد با رزولوشن بالا
✳️کیفیت رقابتی در سطح مدلهای تجاری مطرح
📌 گیتهاب:
https://github.com/meituan-longcat/LongCat-Video
---
#LongCatVideo #AIvideo #VideoGeneration #DeepLearning
@rss_ai_ir
مدل LongCat-Video یکی از قدرتمندترین سیستمهای تولید ویدیو است که میتواند متن را به ویدیو، تصویر را به ویدیو و حتی ادامهٔ ویدیو تولید کند — آن هم با کیفیت بالا و بدون افت در ویدیوهای طولانی.
🚀 ویژگیهای کلیدی:
✳️معماری یکپارچه برای تمام وظایف تولید ویدیو
✳️توانایی ساخت ویدیوهایی با مدت چند دقیقه
✳️تولید کارآمد با رزولوشن بالا
✳️کیفیت رقابتی در سطح مدلهای تجاری مطرح
📌 گیتهاب:
https://github.com/meituan-longcat/LongCat-Video
---
#LongCatVideo #AIvideo #VideoGeneration #DeepLearning
@rss_ai_ir
❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir
🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!
از این به بعد میتونی نوتبوکهای محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠
این یعنی:
⚡ سرعت بیشتر
⚡ محیط کدنویسی حرفهایتر
⚡ اتصال بیواسطه VSCode → Colab Runtime
روش فعالسازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل .ipynb بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!
حالا بهصورت مستقیم از VSCode داری روی Colab کار میکنی 😍
Happy coding 🐝✨
https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/
#هوش_مصنوعی #GoogleColab #VSCode #برنامهنویسی #DeepLearning
@rss_ai_ir
🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!
از این به بعد میتونی نوتبوکهای محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠
این یعنی:
⚡ سرعت بیشتر
⚡ محیط کدنویسی حرفهایتر
⚡ اتصال بیواسطه VSCode → Colab Runtime
روش فعالسازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل .ipynb بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!
حالا بهصورت مستقیم از VSCode داری روی Colab کار میکنی 😍
Happy coding 🐝✨
https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/
#هوش_مصنوعی #GoogleColab #VSCode #برنامهنویسی #DeepLearning
@rss_ai_ir
❤5🔥3👍1
سامانه تشخیص گفتار چندزبانه Omnilingual ASR 🌍🗣️
بیش از ۱۶۰۰ زبان (حتی زبانهای کممنبع و محلی) را پشتیبانی میکند و سعی دارد شکاف زبانی در فناوری گفتار به متن را از بین ببرد.
✨ ویژگیها:
✳️پشتیبانی از زبانهای بسیار متنوع، از رایج تا کاملاً نادر
✳️امکان اضافه کردن زبانهای جدید با دادهی آموزشی بسیار کم (few-shot / zero-shot)
✳️طراحیشده برای دسترسپذیری و شمول جوامع مختلف زبانی
✳️قابل تست و استفاده روی Hugging Face و در دسترس روی گیتهاب
لینک گیتهاب 🔗
https://github.com/facebookresearch/omnilingual-asr
@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #ASR #Multilingual #DeepLearning #SpeechToText
بیش از ۱۶۰۰ زبان (حتی زبانهای کممنبع و محلی) را پشتیبانی میکند و سعی دارد شکاف زبانی در فناوری گفتار به متن را از بین ببرد.
✨ ویژگیها:
✳️پشتیبانی از زبانهای بسیار متنوع، از رایج تا کاملاً نادر
✳️امکان اضافه کردن زبانهای جدید با دادهی آموزشی بسیار کم (few-shot / zero-shot)
✳️طراحیشده برای دسترسپذیری و شمول جوامع مختلف زبانی
✳️قابل تست و استفاده روی Hugging Face و در دسترس روی گیتهاب
لینک گیتهاب 🔗
https://github.com/facebookresearch/omnilingual-asr
@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #ASR #Multilingual #DeepLearning #SpeechToText
GitHub
GitHub - facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages
Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages - facebookresearch/omnilingual-asr
❤1🔥1👏1
✨ سینتتیک-دیتا که بهتر از دادههای واقعی آموزش میدهد!
✅پژوهشگران MIT یک نتیجه عجیب اما فوقالعاده مهم منتشر کردهاند:
گاهی چند تصویر کاملاً مصنوعی میتوانند linear probe ها را بهتر از هزاران تصویر واقعی آموزش دهند.
ایده با روش تازهای بهنام Linear Gradient Matching (LGM) اجرا شده است. روش کار چنین است:
1️⃣ مدل بینایی بزرگ (مثل DINO یا CLIP) را فریز میکنند.
2️⃣ بررسی میکنند که این مدل روی تصاویر واقعی چه گرادیانهایی تولید میکند.
3️⃣ مجموعهای از تصاویر سینتتیک تولید میکنند که دقیقاً همین گرادیانها را بازتولید کنند.
4️⃣ یک linear classifier روی این تصاویر آموزش میدهند — و نتیجه شگفتانگیز است:
عملکرد بهتر از آموزش روی دادههای واقعی!
🔍 چرا این مهم است؟
• سازگار میان مدلهاست: سینتتیکدیتا تولیدشده برای DINO در CLIP هم بهخوبی کار میکند.
• مخصوصاً روی classification های ظریف عملکرد فوقالعاده دارد.
• کمک میکند بفهمیم مدل واقعاً دنبال چه ویژگیهایی میگردد — کلاسترها، همبستگیهای انحرافی، ساختار embedding-space و …
این یافته، تعریف «داده خوب» را عوض میکند.
🟩 گذشته: «برای آموزش باید میلیونها تصویر جمع کنیم.»
🟩 اکنون: «کافی است چند تصویر درست و هدفمند بسازیم.»
@rss_ai_ir
لینک مقاله:
arxiv.org/abs/2511.16674
---
🏷 هشتگها
#داده #دیتاسینتتیک #هوش_مصنوعی #بینایی_ماشین #ML #CLIP #DINO #LGM #DeepLearning #AI
✅پژوهشگران MIT یک نتیجه عجیب اما فوقالعاده مهم منتشر کردهاند:
گاهی چند تصویر کاملاً مصنوعی میتوانند linear probe ها را بهتر از هزاران تصویر واقعی آموزش دهند.
ایده با روش تازهای بهنام Linear Gradient Matching (LGM) اجرا شده است. روش کار چنین است:
1️⃣ مدل بینایی بزرگ (مثل DINO یا CLIP) را فریز میکنند.
2️⃣ بررسی میکنند که این مدل روی تصاویر واقعی چه گرادیانهایی تولید میکند.
3️⃣ مجموعهای از تصاویر سینتتیک تولید میکنند که دقیقاً همین گرادیانها را بازتولید کنند.
4️⃣ یک linear classifier روی این تصاویر آموزش میدهند — و نتیجه شگفتانگیز است:
عملکرد بهتر از آموزش روی دادههای واقعی!
🔍 چرا این مهم است؟
• سازگار میان مدلهاست: سینتتیکدیتا تولیدشده برای DINO در CLIP هم بهخوبی کار میکند.
• مخصوصاً روی classification های ظریف عملکرد فوقالعاده دارد.
• کمک میکند بفهمیم مدل واقعاً دنبال چه ویژگیهایی میگردد — کلاسترها، همبستگیهای انحرافی، ساختار embedding-space و …
این یافته، تعریف «داده خوب» را عوض میکند.
🟩 گذشته: «برای آموزش باید میلیونها تصویر جمع کنیم.»
🟩 اکنون: «کافی است چند تصویر درست و هدفمند بسازیم.»
@rss_ai_ir
لینک مقاله:
arxiv.org/abs/2511.16674
---
🏷 هشتگها
#داده #دیتاسینتتیک #هوش_مصنوعی #بینایی_ماشین #ML #CLIP #DINO #LGM #DeepLearning #AI
👍2❤1👏1
🔥 بحران انرژیِ هوش مصنوعی جدیتر از همیشه شده است
گزارشهای جدید نشان میدهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر میرود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.
در چنین شرایطی یک سؤال بنیادین مطرح میشود:
⚡ کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدلهای عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟
از سوی دیگر، تصمیمهای سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابتپذیری جهانی
• مهاجرت شرکتها به مناطقی با انرژی ارزانتر
• از دست رفتن مشاغل و سرمایهگذاری صنعتی
واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدلهای هوش مصنوعی در حال بلعیدن منابع انرژیاند و بحث «توسعه پایدار» بدون درنظرگرفتن آنها عملاً بیمعناست.
⛔️این تناقض بزرگ سیاستگذاری جهانی را آشکار میکند:
❌کشورهایی که برای اقتصادشان محدودیتهای سنگین وضع کردهاند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکتهای فناوری خارج از مرزهایشان باشند.
@rss_ai_ir
---
🏷 هشتگها
#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
گزارشهای جدید نشان میدهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر میرود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.
در چنین شرایطی یک سؤال بنیادین مطرح میشود:
⚡ کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدلهای عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟
از سوی دیگر، تصمیمهای سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابتپذیری جهانی
• مهاجرت شرکتها به مناطقی با انرژی ارزانتر
• از دست رفتن مشاغل و سرمایهگذاری صنعتی
واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدلهای هوش مصنوعی در حال بلعیدن منابع انرژیاند و بحث «توسعه پایدار» بدون درنظرگرفتن آنها عملاً بیمعناست.
⛔️این تناقض بزرگ سیاستگذاری جهانی را آشکار میکند:
❌کشورهایی که برای اقتصادشان محدودیتهای سنگین وضع کردهاند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکتهای فناوری خارج از مرزهایشان باشند.
@rss_ai_ir
---
🏷 هشتگها
#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکستدهندهٔ بنچمارکها
تنسنت نسخهٔ متنباز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدلهای چندین برابر بزرگتر است. این سیستم بهصورت End-to-End کار میکند و تقریباً همهٔ نیازهای OCR مدرن را پوشش میدهد.
✨ برتری در بنچمارکها
امتیاز 860 در OCRBench بین تمام مدلهای کوچکتر از 3B
امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده
🧠 قابلیتها
مدل برای طیف گستردهای از سناریوهای OCR بهینه شده است:
✳️متن محیطی: تابلو، ویترین، بنر، خیابان
✳️دستخط و فونتهای هنری
✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX
✳️زیرنویس ویدیو
✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحلهای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.
🔗 لینکها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@rss_ai_ir
#OCR #مدل_متنباز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
تنسنت نسخهٔ متنباز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدلهای چندین برابر بزرگتر است. این سیستم بهصورت End-to-End کار میکند و تقریباً همهٔ نیازهای OCR مدرن را پوشش میدهد.
✨ برتری در بنچمارکها
امتیاز 860 در OCRBench بین تمام مدلهای کوچکتر از 3B
امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده
🧠 قابلیتها
مدل برای طیف گستردهای از سناریوهای OCR بهینه شده است:
✳️متن محیطی: تابلو، ویترین، بنر، خیابان
✳️دستخط و فونتهای هنری
✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX
✳️زیرنویس ویدیو
✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحلهای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.
🔗 لینکها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@rss_ai_ir
#OCR #مدل_متنباز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
✨ مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتارشده
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks