VIRSUN

🤖 تشخیص چهره با هوش مصنوعی

الگوریتم‌های Face Recognition با استفاده از شبکه‌های عصبی کانولوشنی (CNN) می‌توانند ویژگی‌های منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.

📌 همانطور که در این ویدیو می‌بینید:

✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه می‌شوند.

✅مدل CNN Encoder ویژگی‌های کلیدی چهره را به بردار عددی تبدیل می‌کند.

✅در نهایت، این بردارها با هم مقایسه شده و مشخص می‌شود که هر دو تصویر متعلق به یک فرد هستند یا خیر.

این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشی‌های هوشمند و حتی شبکه‌های اجتماعی استفاده می‌شود.

👁‍🗨 آینده سیستم‌های بینایی ماشین بدون شک با چنین الگوریتم‌هایی گره خورده است.

@rss_ai_ir

#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning

🥰12❤11🔥11🎉10👏8👍7😁6

1.25K views16:38

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🚀👽 DAM for SAM2 Tracking 👽🚀

🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کرده‌اند. این ماژول به‌صورت drop-in عمل می‌کند و باعث:

✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)

✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)

💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.

📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo

@rss_ai_ir

#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA

😁13👏12❤11👍9🔥8🥰6🎉6🤔1

1.24K views07:51

VIRSUN

🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است

👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource

👍8❤6😁5🔥4🎉4🥰3👏3

1.17K views15:47

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده

🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار می‌کند که چندین شیء سالینت با اندازه‌های بسیار متفاوت در یک تصویر ظاهر می‌شوند.

⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدل‌های سنتی دچار خطا می‌شوند. SI-SOD با طراحی جدید خود می‌تواند تمرکز را روی همه‌ی اشیاء حفظ کند و ناوردا عمل کند.

📌 منابع:

📄 مقاله

🌐 پروژه

💻 کد روی GitHub

💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار می‌کنند می‌تونه ابزار ارزشمندی باشه.

#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR

@rss_ai_ir

❤7😁6🔥5🥰4🎉4👍3👏2

1.07K views18:27

VIRSUN

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

🌀 CLOPS:
آواتار مبتنی بر بینایی اول‌شخص 🌀

👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگو‌سنتریک (دید اول‌شخص) محیط اطراف خود را درک کرده و در آن جابجا می‌شود.
این سیستم می‌تواند به‌طور واقع‌گرایانه در صحنه حرکت کند و با چرخه‌ای از ادراک بصری و حرکت هدف خود را بیابد.

🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون داده‌های اضافی، ممکن می‌شود.

📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: به‌زودی

@rss_ai_ir

#AI #Avatar #ComputerVision #Robotics #CLOPS

258 views05:07

VIRSUN

🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.

📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.

You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

✨ نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision

❤1👍1🙏1

1.16K views16:09

VIRSUN

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

👔 LucidFlux:
ترمیم همه‌کاره‌ی تصویر (HKUSTGZ)

⛔️مدل LucidFlux یک فریم‌ورک ترمیم تصویر یونیورسال بر پایه‌ی Diffusion Transformer است که روی عکس‌های واقعی با کیفیت پایین (LQ) خروجی‌های فوتورئالیستی می‌دهد و در انواع خرابی‌ها (نویز، بلور، فشردگی، کم‌نور، آرتیفکت‌ها و …) از مدل‌های SOTA مبتنی بر دیفیوشن بهتر عمل می‌کند.

❌چرا مهمه؟

✅یک مدل برای چندین نوع خرابی (به‌جای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاست‌های تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیش‌ازحد صاف/پلاستیکی»

‼️نکات فنی کوتاه

❎معماری بزرگ‌مقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر

❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)

📄 Paper:
https://arxiv.org/pdf/2509.22414

🌐 Project:
https://w2genai-lab.github.io/LucidFlux/

💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux

#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch

👏4❤1👍1🙏1

254 views12:52

VIRSUN

🚀 YOLO26 – نسل جدید تشخیص اشیاء

🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحی‌شده برای سریع‌تر، سبک‌تر و سازگارتر با Edge Devices

✨ ویژگی‌های کلیدی:

❌ حذف NMS (Non-Maximum Suppression) → پیش‌بینی مستقیم بدون حذف دابل‌ها

❌ حذف DFL → ساده‌تر شدن خروجی و سازگاری بهتر با سخت‌افزار

🆕 سه تکنیک تازه:

ProgLoss → بالانس تدریجی خطاها

STAL → برتری در تشخیص اشیاء خیلی کوچک

MuSGD → الگوریتم بهینه‌سازی الهام‌گرفته از آموزش LLMها

⚡ بهینه‌سازی ویژه برای CPU و دستگاه‌های لبه‌ای با تاخیر کم

⚠️ نکته: هنوز در مرحله پیش‌نمایش است و برخی تست‌ها نشان می‌دهند که دقت آن در بعضی موارد پایین‌تر از YOLO12 است.

📌 با این حال، حذف بخش‌های اضافی و ساده‌تر شدن ساختار، YOLO26 را گزینه‌ای جذاب برای پردازش سریع روی دستگاه‌های صنعتی و قابل حمل می‌کند.
https://docs.ultralytics.com/models/yolo26/

@rss_ai_ir

#YOLO #ComputerVision #AI #YOLO26

🔥1

234 viewsedited 09:58

About

Blog

Apps

Platform