VIRSUN
7.42K subscribers
795 photos
463 videos
3 files
508 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👻 From Skin to Skeleton 👻

مقاله‌ای تازه تلاش کرده مدل شناخته‌شده‌ی SMPL برای بدن انسان را با یک مدل تازه به نام BSM (Biomechanical Skeleton Model) یکپارچه کند. خروجی این تلاش، مدلی به نام SKEL است که مثل SMPL قابل انیمیت‌کردن است، اما با درجات آزادی کمتر و در عین حال سازگارتر با واقعیت بیومکانیکی بدن انسان.

🔹همچنین SKEL به محققان اجازه می‌دهد حرکات بدن را طبیعی‌تر، سبک‌تر و با دقت بیشتری شبیه‌سازی کنند.
🔹 این مدل، داده و کد برای تحقیقات در دسترس است.


🟢 Paper: arxiv.org/pdf/2509.06607
🟢 Project: https://skel.is.tue.mpg.de/

@rss_ai_ir

#AI #ML #ComputerVision #3DHumanModeling #SMPL #SKEL #Research
👏2015👍13😁13🎉13🔥12🥰10
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 FoMo4Wheat؛ مدل پایه‌ای مخصوص گندم 🌱

🔹 تیم PheniX Lab و همکاران، خانواده‌ای نوآورانه از مدل‌های پایه را معرفی کرده‌اند که به‌طور ویژه برای پردازش تصاویر گندم طراحی شده‌اند. این مدل‌ها برای وظایفی مانند طبقه‌بندی، آشکارسازی، شمارش و بخش‌بندی مناسب‌اند.

همه‌چیز به‌صورت متن‌باز و تحت لایسنس MIT منتشر شده: دمو، دیتاست، مدل و کد.

📌 منابع:
👉 مقاله
👉 پروژه
👉 کد
👉 دمو آنلاین

این مدل می‌تونه نقطه‌ی عطفی در هوش مصنوعی کشاورزی باشه، جایی که تحلیل دقیق و خودکار تصاویر گندم می‌تونه به بهبود عملکرد و بهره‌وری کمک بزرگی بکنه. 🌾🤖

@rss_ai_ir

#AI #ML #Agriculture #ComputerVision #FoMo4Wheat #هوش_مصنوعی #کشاورزی
10🥰8🔥7👏7😁6👍5🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)

✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش می‌کند.
این روش باعث می‌شود شبکه بتواند وابستگی‌های پیچیده‌ی پیکسل‌ها را درک کرده و در کارهایی مثل طبقه‌بندی، تشخیص اشیاء و تولید تصویر عملکردی بی‌رقیب داشته باشد.

@rss_ai_ir

#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁86
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعه‌داده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥

📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگ‌مقیاس با حاشیه‌نویسی‌های مکانی صریح است که شامل:
🔹 موقعیت‌های دوربین (Camera Poses)
🔹 نقشه‌های عمق (Depth Maps)
🔹 کپشن‌های ساختاریافته
🔹 دستورالعمل‌های حرکتی سریالی

🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنه‌های پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سه‌بعدی، ویدیو-به-متن و مدل‌سازی حرکت بسیار ارزشمند محسوب می‌شود.

📂 مجوز: Apache-2.0 (کاملاً متن‌باز)


🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID

@rss_ai_ir

#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
9🎉7🔥4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️یک آموزش گرافیکی ساده و جذاب

🎥 در این ویدئو می‌بینیم که الگوریتم YOLO چطور به صورت لحظه‌ای اشیا را تشخیص می‌دهد.

🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان می‌دهد که چطور شبکه‌های عصبی درک بینایی پیدا می‌کنند.

@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
👍12🎉6🔥54😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی

الگوریتم‌های Face Recognition با استفاده از شبکه‌های عصبی کانولوشنی (CNN) می‌توانند ویژگی‌های منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.

📌 همانطور که در این ویدیو می‌بینید:

تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه می‌شوند.

مدل CNN Encoder ویژگی‌های کلیدی چهره را به بردار عددی تبدیل می‌کند.

در نهایت، این بردارها با هم مقایسه شده و مشخص می‌شود که هر دو تصویر متعلق به یک فرد هستند یا خیر.


این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشی‌های هوشمند و حتی شبکه‌های اجتماعی استفاده می‌شود.

👁‍🗨 آینده سیستم‌های بینایی ماشین بدون شک با چنین الگوریتم‌هایی گره خورده است.

@rss_ai_ir

#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰1211🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀

🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کرده‌اند. این ماژول به‌صورت drop-in عمل می‌کند و باعث:

کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)

بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)


💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.

📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo

@rss_ai_ir

#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏1211👍9🔥8🥰6🎉6🤔1
🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است


👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍86😁5🔥4🎉4🥰3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده

🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار می‌کند که چندین شیء سالینت با اندازه‌های بسیار متفاوت در یک تصویر ظاهر می‌شوند.

چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدل‌های سنتی دچار خطا می‌شوند. SI-SOD با طراحی جدید خود می‌تواند تمرکز را روی همه‌ی اشیاء حفظ کند و ناوردا عمل کند.

📌 منابع:

📄 مقاله

🌐 پروژه

💻 کد روی GitHub



💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار می‌کنند می‌تونه ابزار ارزشمندی باشه.

#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR

@rss_ai_ir
7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 CLOPS:
آواتار مبتنی بر بینایی اول‌شخص 🌀

👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگو‌سنتریک (دید اول‌شخص) محیط اطراف خود را درک کرده و در آن جابجا می‌شود.
این سیستم می‌تواند به‌طور واقع‌گرایانه در صحنه حرکت کند و با چرخه‌ای از ادراک بصری و حرکت هدف خود را بیابد.

🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون داده‌های اضافی، ممکن می‌شود.


📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: به‌زودی

@rss_ai_ir

#AI #Avatar #ComputerVision #Robotics #CLOPS
🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.


📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
1👍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همه‌کاره‌ی تصویر (HKUSTGZ)

⛔️مدل LucidFlux یک فریم‌ورک ترمیم تصویر یونیورسال بر پایه‌ی Diffusion Transformer است که روی عکس‌های واقعی با کیفیت پایین (LQ) خروجی‌های فوتورئالیستی می‌دهد و در انواع خرابی‌ها (نویز، بلور، فشردگی، کم‌نور، آرتیفکت‌ها و …) از مدل‌های SOTA مبتنی بر دیفیوشن بهتر عمل می‌کند.

چرا مهمه؟

یک مدل برای چندین نوع خرابی (به‌جای مدل جدا برای هر سناریو)
سازگاری با تصاویر دنیای واقعی، نه فقط دیتاست‌های تمیز
کیفیت بازسازی بالا بدون ظاهر «بیش‌ازحد صاف/پلاستیکی»

‼️نکات فنی کوتاه

معماری بزرگ‌مقیاس Diffusion Transformer
آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر

لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)


📄 Paper:
https://arxiv.org/pdf/2509.22414

🌐 Project:
https://w2genai-lab.github.io/LucidFlux/

💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux

#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏41👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء

🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحی‌شده برای سریع‌تر، سبک‌تر و سازگارتر با Edge Devices

ویژگی‌های کلیدی:

حذف NMS (Non-Maximum Suppression) → پیش‌بینی مستقیم بدون حذف دابل‌ها

حذف DFL → ساده‌تر شدن خروجی و سازگاری بهتر با سخت‌افزار

🆕 سه تکنیک تازه:

ProgLoss → بالانس تدریجی خطاها

STAL → برتری در تشخیص اشیاء خیلی کوچک

MuSGD → الگوریتم بهینه‌سازی الهام‌گرفته از آموزش LLMها


بهینه‌سازی ویژه برای CPU و دستگاه‌های لبه‌ای با تاخیر کم


⚠️ نکته: هنوز در مرحله پیش‌نمایش است و برخی تست‌ها نشان می‌دهند که دقت آن در بعضی موارد پایین‌تر از YOLO12 است.

📌 با این حال، حذف بخش‌های اضافی و ساده‌تر شدن ساختار، YOLO26 را گزینه‌ای جذاب برای پردازش سریع روی دستگاه‌های صنعتی و قابل حمل می‌کند.
https://docs.ultralytics.com/models/yolo26/

@rss_ai_ir

#YOLO #ComputerVision #AI #YOLO26
🔥1