VIRSUN
7.51K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📌 انواع روش‌های عمق‌سنجی در بینایی ماشین و صنعت


🔹 ۱. روش‌های سنتی (Geometric Methods):

استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سه‌بعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.


🔹 ۲. سنسوری (Sensor-based):

LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازه‌گیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازه‌گیری تغییر شکل آن‌ها (مثل Kinect قدیمی).
Radar & mmWave:
به‌ویژه در خودروهای خودران و محیط‌های صنعتی پر گردوغبار.


🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):

Monocular Depth Estimation:
آموزش شبکه‌های CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتم‌های هندسی با شبکه‌های عصبی.
Depth Completion:
ترکیب داده‌های ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سه‌بعدی از تصاویر چندگانه با استفاده از شبکه‌های عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریع‌تر و کارآمدتر برای بازسازی صحنه‌ها.


🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):

Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).

Event Cameras + Depth:
استفاده از دوربین‌های رویدادی برای تخمین عمق در صحنه‌های بسیار سریع.

AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشه‌برداری و عمق‌سنجی با یادگیری عمیق.


کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سه‌بعدی).


🔖 هشتگ‌ها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF

@rss_ai_ir
🔥1511😁9👍8🎉6
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».


---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.



---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.



---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.


🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍2523🥰23😁22🔥18👏16
برای تسریع شبکه‌های عصبی کانولوشنی (CNN) روش‌های مختلفی وجود داره که معمولاً در سه دسته‌ی اصلی خلاصه می‌شن:


---

🔹 ۱. بهینه‌سازی معماری (Architecture Optimization)

NAS (Neural Architecture Search):
♻️ جستجوی خودکار برای پیدا کردن معماری سبک‌تر و سریع‌تر.

طراحی دستی سبک‌ها:
♻️مثل MobileNet، ShuffleNet یا EfficientNet که با کانولوشن‌های سبک‌وزن (Depthwise, Pointwise) سرعت رو بالا می‌برن.



---

🔹 ۲. فشرده‌سازی و کاهش پارامترها (Model Compression)

Pruning (هرس کردن):
♻️ حذف کانکشن‌ها، نورون‌ها یا فیلترهای کم‌اهمیت.

Weight Sharing:
♻️ اشتراک‌گذاری وزن‌ها بین فیلترها برای کاهش حافظه.

Knowledge Distillation:
♻️ آموزش یک مدل کوچک (Student) با کمک دانش مدل بزرگ‌تر (Teacher).



---

🔹 ۳. کاهش دقت محاسبات (Quantization & Low-Precision)

Quantization:
♻️ استفاده از نمایش با بیت کمتر (FP16, INT8, حتی FP8) به‌جای FP32.

Binarization / Ternarization:
♻️ محدود کردن وزن‌ها و اکتیویشن‌ها به مقادیر دودویی یا سه‌تایی.

Mixed Precision Training:
♻️استفاده ترکیبی از FP16 و FP32 برای تعادل بین سرعت و دقت.



---

🔹 ۴. بهینه‌سازی سخت‌افزاری و نرم‌افزاری

Fused Operations:
♻️ ادغام چند عملیات (مثلاً Conv + BN + ReLU) در یک کرنل واحد.

CUDA / cuDNN Optimizations:
♻️ استفاده از کتابخانه‌های GPU بهینه‌شده.

Sparse Computation:
♻️ استفاده از ماتریس‌های تنک برای حذف محاسبات بی‌فایده.

Hardware Accelerators:
♻️ استفاده از TPU، NPU یا FPGA برای اجرای سریع‌تر CNN.



---

🔹 ۵. روش‌های سطح سیستم

Batching هوشمند:
♻️ پردازش هم‌زمان چند ورودی برای استفاده بهینه از GPU.

Pipeline Parallelism / Model Parallelism:
♻️ تقسیم مدل یا داده بین چند پردازنده.

Caching و Reuse:
♻️ استفاده مجدد از ویژگی‌ها یا نتایج محاسباتی.



---

👉 در عمل، ترکیبی از این روش‌ها استفاده می‌شه. مثلاً:
یک CNN مثل MobileNetV2 که طراحی سبک داره، می‌تونه بعد از Pruning و Quantization به INT8 روی موبایل یا لبه (Edge) تا چند برابر سریع‌تر بشه بدون افت دقت چشمگیر.

@rss_ai_ir 🤖

#هوش_مصنوعی #CNN #تسریع #کوانتیزیشن #Pruning #NAS #DeepLearning
👏8🥰7👍6😁65🔥5🎉4
🚀 گوگل از EmbeddingGemma رونمایی کرد؛ یک مدل سبک و اوپن‌سورس برای ایجاد امبدینگ‌های متنی.

📌 ویژگی مهم: این مدل را می‌توان مستقیم روی موبایل یا لپ‌تاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.

🟢 چه چیزی داخلش هست؟

✳️308 میلیون پارامتر، اما از همه مدل‌های زیر 500M در کیفیت بهتر عمل می‌کند (طبق MTEB)

✳️سرعت بسیار بالا: کمتر از 15 میلی‌ثانیه روی EdgeTPU (برای 256 توکن)

✳️پشتیبانی از بیش از 100 زبان

✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت

✳️پشتیبانی از کانتکست تا 2000 توکن

✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب


🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدل‌ها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

@rss_ai_ir

#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
19🔥19👍18😁17🎉14🥰13👏13🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧐 جستجوی افراد در ویدیو و عکس با چند کلمه توصیفی!

👨🏻‍💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» می‌تواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریف‌شده.

✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزه‌های امنیت و خرده‌فروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد می‌کند.


---

روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگی‌های توصیفی دقیق بود فاین‌تیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاین‌تیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.


---

🥵 SigLIP Person Finder
🖥 Demo
🖥 Dataset
🐱 GitHub Repo

@rss_ai_ir
---

🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👍24🔥21🥰20👏19😁18🎉1813
This media is not supported in your browser
VIEW IN TELEGRAM
🩸 مدل پایه برای گلبول‌های قرمز خون 🩸

🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبول‌های قرمز (RBC).

📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.

💡 انتشار عمومی:

📄 مقاله
💻 کد
🤗 مدل‌ها

⚙️ لایسنس: Apache 2.0
---

🌐 #هوش_مصنوعی #پزشکی #زیست‌پزشکی #ComputerVision #DeepLearning #RedDino


@rss_ai_ir
🔥30🎉2621👏21🥰20😁19👍14😍8❤‍🔥8🤩7💯3
🚀 مدل Grok 2.5 حالا روی سیستم‌ شخصی هم قابل اجراست!

🔹 تیم Unsloth نسخه‌ای بهینه‌شده از مدل را منتشر کرده که اجرای محلی را ممکن می‌کند:

270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
لایه‌های کلیدی در فرمت 8-bit و سایر بخش‌ها با فشرده‌سازی 3-bit GGUF ذخیره شده‌اند.

📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF

@rss_ai_ir

#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
👍23🥰20🎉2016💯14😁12🔥11🤩8👏7😍7❤‍🔥7
🎯 ۷ گام تا تسلط بر مدل‌های زبانی بزرگ (LLM)

تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشه‌ی راه را نشان می‌دهد؛ از مبانی اولیه تا ساخت اپلیکیشن‌های واقعی:

1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)

2️⃣ بررسی معماری‌های LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet

3️⃣ پیش‌تمرین مدل‌ها
🔹 پیش‌بینی جمله‌ی بعدی
🔹 پیش‌تمرین متضاد زبان–تصویر (Contrastive Pre-training)

4️⃣ فاین‌تیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)

5️⃣ تنظیم و پس‌آموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیح‌پذیری (Explainability)

6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخ‌ها (Relevancy)

7️⃣ ساخت اپلیکیشن‌های LLM
🔹 چت‌بات‌ها
🔹 تولید محتوا
🔹 ترجمه‌ی زبان


---

🌟 اگر این مسیر را دنبال کنید، می‌توانید از درک مبانی تا پیاده‌سازی اپلیکیشن‌های پیشرفته مبتنی بر LLM حرکت کنید.

#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI

@rss_ai_ir
😁9👍8🔥8👏8🎉85🥰4🙏1
🧠 SpikingBrain-7B:
مدل‌های الهام‌گرفته از عصب‌شناسی

مدل SpikingBrain-7B معماری‌ای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژول‌های MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل داده‌ها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارت‌های NVIDIA بهینه‌سازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم می‌کند.

🚀 ویژگی‌های کلیدی:

✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کم‌هزینه با استفاده از کمتر از ۲٪ داده‌ها
✳️بهینه‌سازی‌شده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالی‌های طولانی

⛔️ارائه نسخه‌های آماده در HuggingFace و نسخه کوانتیزه‌شده


📌 GitHub: SpikingBrain-7B

#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
13😍12💯9👍8🔥8🥰6❤‍🔥6🎉5🤩5👏3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 ویدیوهای انسان‌محور با دقت بالا 🐙

محققان دانشگاه Tsinghua و شرکت ByteDance فریم‌ورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگی‌های زیر رو داره:

🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریم‌های مختلف
🔹 حرکت‌های هماهنگ‌شده با صدا (Audio-Driven Motion)
🔹 کنترل‌پذیری و جزئیات ظریف در خروجی

📌 فریم ورک HuMo می‌تونه از ورودی‌های چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورس‌کد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.

🔗 لینک‌ها:

👉 Paper
👉 Project
👉 Repo

#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
12🔥11🥰10👏8👍5🎉5😁4
🚀 Ring-mini-2.0
؛ مدل کوچک اما فوق‌العاده قدرتمند!

💡 این مدل با 16B-A1B پارامتر و بهره‌گیری از استراتژی‌های Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه می‌دهد.
🧠 در منطق و استدلال، از مدل‌های Dense با همین اندازه عملکرد بهتری دارد.
سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریع‌تر از مدل‌های Dense مشابه).

🔥 نمونه‌ای دیگر از اینکه چگونه مدل‌های کوچک‌تر «Thinking Models» روزبه‌روز باهوش‌تر و سریع‌تر می‌شوند!

🔗 مشاهده در HuggingFace
@rss_ai_ir

#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)

✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش می‌کند.
این روش باعث می‌شود شبکه بتواند وابستگی‌های پیچیده‌ی پیکسل‌ها را درک کرده و در کارهایی مثل طبقه‌بندی، تشخیص اشیاء و تولید تصویر عملکردی بی‌رقیب داشته باشد.

@rss_ai_ir

#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁86
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدیو، مفاهیم کلیدی یادگیری ماشین به‌صورت بصری نمایش داده می‌شوند. 📊
از جمله:
🔹 نحوه تغییر وزن‌ها در طول آموزش

🔹 روند بهبود Accuracy در هر Epoch
این نوع ویژوال‌سازی‌ها باعث می‌شوند درک مفاهیم پیچیده‌ی یادگیری ماشین ساده‌تر و عمیق‌تر شود.
@rss_ai_ir

#MachineLearning #DeepLearning #DataScience #AI #Visualization
😁12🎉12👍119🔥8🥰7👏4
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی

الگوریتم‌های Face Recognition با استفاده از شبکه‌های عصبی کانولوشنی (CNN) می‌توانند ویژگی‌های منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.

📌 همانطور که در این ویدیو می‌بینید:

تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه می‌شوند.

مدل CNN Encoder ویژگی‌های کلیدی چهره را به بردار عددی تبدیل می‌کند.

در نهایت، این بردارها با هم مقایسه شده و مشخص می‌شود که هر دو تصویر متعلق به یک فرد هستند یا خیر.


این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشی‌های هوشمند و حتی شبکه‌های اجتماعی استفاده می‌شود.

👁‍🗨 آینده سیستم‌های بینایی ماشین بدون شک با چنین الگوریتم‌هایی گره خورده است.

@rss_ai_ir

#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰1211🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🦠 رهگیری سلول با هوش مصنوعی – بدون نیاز به داده‌های برچسب‌خورده! 🦠

پژوهشگران دانشگاه RWTH یک چارچوب نوآورانه برای Cell Tracking معرفی کرده‌اند که با ترکیب مدل Segment Anything 2 (SAM2) در پایپ‌لاین رهگیری، می‌تواند هر سلول را به‌صورت Zero-Shot بخش‌بندی و رهگیری کند 🚀

🔹 نیازی به داده‌های آموزشی اختصاصی ندارد.
🔹 دقت بالا در شناسایی و دنبال‌کردن سلول‌ها در ویدیوهای میکروسکوپی.
🔹 انتشار کد منبع برای جامعه‌ی علمی 💙

📖
📄 مقاله:
https://arxiv.org/pdf/2509.09943
💻 کد منبع:
https://github.com/zhuchen96/sam4celltracking

@rss_ai_ir

#AI #BioAI #CellTracking #SAM2 #DeepLearning #BiomedicalResearch
🔥15🎉12👍10🥰8😁8👏63🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀

🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کرده‌اند. این ماژول به‌صورت drop-in عمل می‌کند و باعث:

کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)

بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)


💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.

📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo

@rss_ai_ir

#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏1211👍9🔥8🥰6🎉6🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده

🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار می‌کند که چندین شیء سالینت با اندازه‌های بسیار متفاوت در یک تصویر ظاهر می‌شوند.

چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدل‌های سنتی دچار خطا می‌شوند. SI-SOD با طراحی جدید خود می‌تواند تمرکز را روی همه‌ی اشیاء حفظ کند و ناوردا عمل کند.

📌 منابع:

📄 مقاله

🌐 پروژه

💻 کد روی GitHub



💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار می‌کنند می‌تونه ابزار ارزشمندی باشه.

#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR

@rss_ai_ir
7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇

⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی می‌ماند.
همچنین در مرحله‌ی inference از Selective Averaging برای ترکیب پایدار پیش‌بینی‌های مکمل استفاده می‌کند.

📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متن‌باز تحت لایسنس Apache در دسترس است.

📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA

@rss_ai_ir

#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 برنده MOSEv2 Challenge 2025 🏆

🔹 راهکاری کاربردی برای سگمنتیشن پیچیده بر اساس مفهوم جدید Segment Concept (SeC).
این فریم‌ورک مبتنی بر مفهوم، تمرکز را از feature matching سنتی به سمت ساخت تدریجی و بهره‌گیری از نمایش‌های سطح بالا و شیء-محور جابه‌جا می‌کند.

📄 منابع:

مقاله اصلی
مقاله SeC
کد منبع (Apache 2.0)
پروژه


@rss_ai_ir

#هوش_مصنوعی #Segmentation #MOSEv2 #SeC #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سه‌بعدی است به صورت اوپن‌سورس منتشر کرد!

🔹 دو متد کلیدی:

P3-SAM —
مدل سگمنتیشن قطعات در فرمت سه‌بعدی.

X-Part —
مدل تولید قطعات با نتایج عالی در کنترل‌پذیری و کیفیت شکل.


📂 کد: GitHub
📦 وزن‌ها: Hugging Face

🌐 جزئیات بیشتر:

P3-SAM
X-Part


👉 یک گام دیگر برای دسترس‌پذیرتر شدن پایپ‌لاین‌های پیچیده کار با 3D برای جامعه پژوهشگران و توسعه‌دهندگان.

#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning

@rss_ai_ir
1