VIRSUN
7.45K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
نتایج SoccerNet 2025!

🔹 رقابت‌های SoccerNet 2025 Challenges یک بنچمارک باز برای پیشبرد تحقیقات در حوزه بینایی کامپیوتری و تحلیل ویدیوهای فوتبال است.
این چالش‌ها روی درک رخدادها، شناسایی بازیکنان و تحلیل بازی تمرکز دارند و نتایج آن راه را برای سیستم‌های هوشمند ورزشی بازتر می‌کنند.

📌 منابع:
👉 Paper (arXiv)
👉 Project Page
👉 GitHub Repo

#AI #ComputerVision #SoccerNet #FootballTech
16🎉11👍10🔥7😁4
This media is not supported in your browser
VIEW IN TELEGRAM
🌈 ردیابی سه‌بعدی چندنما (Multi-View 3D Tracking) 🌈

🔹 پروژه MVTracker به‌عنوان اولین سیستم داده‌محور برای ردیابی نقاط سه‌بعدی دلخواه در چندین دوربین معرفی شد. این روش امکان ردیابی دقیق اشیاء و نقاط را از زوایای مختلف فراهم می‌کند.

📊 دسترسی‌ها:
👉 مقاله (arXiv)
👉 پروژه
👉 مخزن کد (Repo)

#AI #ComputerVision #3DTracking #هوش_مصنوعی #بینایی_ماشین

@rss_ai_ir
🔥9🎉9👍51😁1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WebEyeTrack:
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻

👉 فریم ورک WebEyeTrack یک فریم‌ورک نوآورانه است که مدل‌های سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام می‌کند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب می‌آورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر می‌گیرد.

🟢 کد منبع با لایسنس MIT منتشر شده است 💙


🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack

@rss_ai_ir

#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
🔥19😁14🎉1413👍10👏10🥰6🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
✂️ ابزار متن‌باز برچسب‌گذاری تصاویر با هوش مصنوعی ✂️

👉 ابزار VisioFirm محصول TOELT یک ابزار متن‌باز و هوش‌مصنوعی‌محور برای برچسب‌گذاری سریع تصاویر در پروژه‌های بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبه‌های چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir

#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
😁30🔥2218👍18🎉16👏13🥰12
This media is not supported in your browser
VIEW IN TELEGRAM
🖌️ ویرایش بلادرنگ با Drag 🖌️

👉 آزمایشگاه Visual AI از Inpaint4Drag رونمایی کرد؛ یک فریم‌ورک نوآورانه که فرآیند ویرایش drag-based را به دو بخش warp دوطرفه در فضای پیکسل و inpainting تجزیه می‌کند. الهام‌گرفته از تغییر شکل الاستیک اجسام.

نکته جالب اینجاست که می‌توانید به‌صورت بلادرنگ، اجسام را بکشید و تغییر شکل دهید، بدون از دست رفتن جزئیات.

📌 دمو و کد منتشر شده است (لایسنس هنوز مشخص نیست) 💙


🔗 Paper: https://arxiv.org/pdf/2509.04582
🔗 Project: https://visual-ai.github.io/inpaint4drag/
🔗 Repo: https://github.com/Visual-AI/Inpaint4Drag
🔗 Demo: https://colab.research.google.com/drive/1fzoyNzcJNZjM1_08FE9V2V20EQxGf4PH

@rss_ai_ir

#AI #ML #Inpaint4Drag #Editing #ComputerVision #Realtime
👍27🔥2524😁20🎉18👏17🥰16
This media is not supported in your browser
VIEW IN TELEGRAM
🧐 جستجوی افراد در ویدیو و عکس با چند کلمه توصیفی!

👨🏻‍💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» می‌تواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریف‌شده.

✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزه‌های امنیت و خرده‌فروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد می‌کند.


---

روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگی‌های توصیفی دقیق بود فاین‌تیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاین‌تیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.


---

🥵 SigLIP Person Finder
🖥 Demo
🖥 Dataset
🐱 GitHub Repo

@rss_ai_ir
---

🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👍24🔥21🥰20👏19😁18🎉1813
This media is not supported in your browser
VIEW IN TELEGRAM
🩸 مدل پایه برای گلبول‌های قرمز خون 🩸

🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبول‌های قرمز (RBC).

📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.

💡 انتشار عمومی:

📄 مقاله
💻 کد
🤗 مدل‌ها

⚙️ لایسنس: Apache 2.0
---

🌐 #هوش_مصنوعی #پزشکی #زیست‌پزشکی #ComputerVision #DeepLearning #RedDino


@rss_ai_ir
🔥30🎉2621👏21🥰20😁19👍14😍8❤‍🔥8🤩7💯3
This media is not supported in your browser
VIEW IN TELEGRAM
👻 From Skin to Skeleton 👻

مقاله‌ای تازه تلاش کرده مدل شناخته‌شده‌ی SMPL برای بدن انسان را با یک مدل تازه به نام BSM (Biomechanical Skeleton Model) یکپارچه کند. خروجی این تلاش، مدلی به نام SKEL است که مثل SMPL قابل انیمیت‌کردن است، اما با درجات آزادی کمتر و در عین حال سازگارتر با واقعیت بیومکانیکی بدن انسان.

🔹همچنین SKEL به محققان اجازه می‌دهد حرکات بدن را طبیعی‌تر، سبک‌تر و با دقت بیشتری شبیه‌سازی کنند.
🔹 این مدل، داده و کد برای تحقیقات در دسترس است.


🟢 Paper: arxiv.org/pdf/2509.06607
🟢 Project: https://skel.is.tue.mpg.de/

@rss_ai_ir

#AI #ML #ComputerVision #3DHumanModeling #SMPL #SKEL #Research
👏2015👍13😁13🎉13🔥12🥰10
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 FoMo4Wheat؛ مدل پایه‌ای مخصوص گندم 🌱

🔹 تیم PheniX Lab و همکاران، خانواده‌ای نوآورانه از مدل‌های پایه را معرفی کرده‌اند که به‌طور ویژه برای پردازش تصاویر گندم طراحی شده‌اند. این مدل‌ها برای وظایفی مانند طبقه‌بندی، آشکارسازی، شمارش و بخش‌بندی مناسب‌اند.

همه‌چیز به‌صورت متن‌باز و تحت لایسنس MIT منتشر شده: دمو، دیتاست، مدل و کد.

📌 منابع:
👉 مقاله
👉 پروژه
👉 کد
👉 دمو آنلاین

این مدل می‌تونه نقطه‌ی عطفی در هوش مصنوعی کشاورزی باشه، جایی که تحلیل دقیق و خودکار تصاویر گندم می‌تونه به بهبود عملکرد و بهره‌وری کمک بزرگی بکنه. 🌾🤖

@rss_ai_ir

#AI #ML #Agriculture #ComputerVision #FoMo4Wheat #هوش_مصنوعی #کشاورزی
10🥰8🔥7👏7😁6👍5🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)

✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش می‌کند.
این روش باعث می‌شود شبکه بتواند وابستگی‌های پیچیده‌ی پیکسل‌ها را درک کرده و در کارهایی مثل طبقه‌بندی، تشخیص اشیاء و تولید تصویر عملکردی بی‌رقیب داشته باشد.

@rss_ai_ir

#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁86
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعه‌داده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥

📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگ‌مقیاس با حاشیه‌نویسی‌های مکانی صریح است که شامل:
🔹 موقعیت‌های دوربین (Camera Poses)
🔹 نقشه‌های عمق (Depth Maps)
🔹 کپشن‌های ساختاریافته
🔹 دستورالعمل‌های حرکتی سریالی

🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنه‌های پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سه‌بعدی، ویدیو-به-متن و مدل‌سازی حرکت بسیار ارزشمند محسوب می‌شود.

📂 مجوز: Apache-2.0 (کاملاً متن‌باز)


🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID

@rss_ai_ir

#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
9🎉7🔥4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️یک آموزش گرافیکی ساده و جذاب

🎥 در این ویدئو می‌بینیم که الگوریتم YOLO چطور به صورت لحظه‌ای اشیا را تشخیص می‌دهد.

🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان می‌دهد که چطور شبکه‌های عصبی درک بینایی پیدا می‌کنند.

@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
👍12🎉6🔥54😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی

الگوریتم‌های Face Recognition با استفاده از شبکه‌های عصبی کانولوشنی (CNN) می‌توانند ویژگی‌های منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.

📌 همانطور که در این ویدیو می‌بینید:

تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه می‌شوند.

مدل CNN Encoder ویژگی‌های کلیدی چهره را به بردار عددی تبدیل می‌کند.

در نهایت، این بردارها با هم مقایسه شده و مشخص می‌شود که هر دو تصویر متعلق به یک فرد هستند یا خیر.


این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشی‌های هوشمند و حتی شبکه‌های اجتماعی استفاده می‌شود.

👁‍🗨 آینده سیستم‌های بینایی ماشین بدون شک با چنین الگوریتم‌هایی گره خورده است.

@rss_ai_ir

#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰1211🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀

🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کرده‌اند. این ماژول به‌صورت drop-in عمل می‌کند و باعث:

کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)

بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)


💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.

📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo

@rss_ai_ir

#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏1211👍9🔥8🥰6🎉6🤔1
🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است


👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍86😁5🔥4🎉4🥰3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده

🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار می‌کند که چندین شیء سالینت با اندازه‌های بسیار متفاوت در یک تصویر ظاهر می‌شوند.

چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدل‌های سنتی دچار خطا می‌شوند. SI-SOD با طراحی جدید خود می‌تواند تمرکز را روی همه‌ی اشیاء حفظ کند و ناوردا عمل کند.

📌 منابع:

📄 مقاله

🌐 پروژه

💻 کد روی GitHub



💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار می‌کنند می‌تونه ابزار ارزشمندی باشه.

#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR

@rss_ai_ir
7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 CLOPS:
آواتار مبتنی بر بینایی اول‌شخص 🌀

👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگو‌سنتریک (دید اول‌شخص) محیط اطراف خود را درک کرده و در آن جابجا می‌شود.
این سیستم می‌تواند به‌طور واقع‌گرایانه در صحنه حرکت کند و با چرخه‌ای از ادراک بصری و حرکت هدف خود را بیابد.

🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون داده‌های اضافی، ممکن می‌شود.


📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: به‌زودی

@rss_ai_ir

#AI #Avatar #ComputerVision #Robotics #CLOPS
🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.


📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
1👍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همه‌کاره‌ی تصویر (HKUSTGZ)

⛔️مدل LucidFlux یک فریم‌ورک ترمیم تصویر یونیورسال بر پایه‌ی Diffusion Transformer است که روی عکس‌های واقعی با کیفیت پایین (LQ) خروجی‌های فوتورئالیستی می‌دهد و در انواع خرابی‌ها (نویز، بلور، فشردگی، کم‌نور، آرتیفکت‌ها و …) از مدل‌های SOTA مبتنی بر دیفیوشن بهتر عمل می‌کند.

چرا مهمه؟

یک مدل برای چندین نوع خرابی (به‌جای مدل جدا برای هر سناریو)
سازگاری با تصاویر دنیای واقعی، نه فقط دیتاست‌های تمیز
کیفیت بازسازی بالا بدون ظاهر «بیش‌ازحد صاف/پلاستیکی»

‼️نکات فنی کوتاه

معماری بزرگ‌مقیاس Diffusion Transformer
آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر

لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)


📄 Paper:
https://arxiv.org/pdf/2509.22414

🌐 Project:
https://w2genai-lab.github.io/LucidFlux/

💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux

#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏41👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء

🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحی‌شده برای سریع‌تر، سبک‌تر و سازگارتر با Edge Devices

ویژگی‌های کلیدی:

حذف NMS (Non-Maximum Suppression) → پیش‌بینی مستقیم بدون حذف دابل‌ها

حذف DFL → ساده‌تر شدن خروجی و سازگاری بهتر با سخت‌افزار

🆕 سه تکنیک تازه:

ProgLoss → بالانس تدریجی خطاها

STAL → برتری در تشخیص اشیاء خیلی کوچک

MuSGD → الگوریتم بهینه‌سازی الهام‌گرفته از آموزش LLMها


بهینه‌سازی ویژه برای CPU و دستگاه‌های لبه‌ای با تاخیر کم


⚠️ نکته: هنوز در مرحله پیش‌نمایش است و برخی تست‌ها نشان می‌دهند که دقت آن در بعضی موارد پایین‌تر از YOLO12 است.

📌 با این حال، حذف بخش‌های اضافی و ساده‌تر شدن ساختار، YOLO26 را گزینه‌ای جذاب برای پردازش سریع روی دستگاه‌های صنعتی و قابل حمل می‌کند.
https://docs.ultralytics.com/models/yolo26/

@rss_ai_ir

#YOLO #ComputerVision #AI #YOLO26
🔥1