This media is not supported in your browser
VIEW IN TELEGRAM
⚽ نتایج SoccerNet 2025! ⚽
🔹 رقابتهای SoccerNet 2025 Challenges یک بنچمارک باز برای پیشبرد تحقیقات در حوزه بینایی کامپیوتری و تحلیل ویدیوهای فوتبال است.
این چالشها روی درک رخدادها، شناسایی بازیکنان و تحلیل بازی تمرکز دارند و نتایج آن راه را برای سیستمهای هوشمند ورزشی بازتر میکنند.
📌 منابع:
👉 Paper (arXiv)
👉 Project Page
👉 GitHub Repo
#AI #ComputerVision #SoccerNet #FootballTech
🔹 رقابتهای SoccerNet 2025 Challenges یک بنچمارک باز برای پیشبرد تحقیقات در حوزه بینایی کامپیوتری و تحلیل ویدیوهای فوتبال است.
این چالشها روی درک رخدادها، شناسایی بازیکنان و تحلیل بازی تمرکز دارند و نتایج آن راه را برای سیستمهای هوشمند ورزشی بازتر میکنند.
📌 منابع:
👉 Paper (arXiv)
👉 Project Page
👉 GitHub Repo
#AI #ComputerVision #SoccerNet #FootballTech
❤16🎉11👍10🔥7😁4
This media is not supported in your browser
VIEW IN TELEGRAM
🌈 ردیابی سهبعدی چندنما (Multi-View 3D Tracking) 🌈
🔹 پروژه MVTracker بهعنوان اولین سیستم دادهمحور برای ردیابی نقاط سهبعدی دلخواه در چندین دوربین معرفی شد. این روش امکان ردیابی دقیق اشیاء و نقاط را از زوایای مختلف فراهم میکند.
📊 دسترسیها:
👉 مقاله (arXiv)
👉 پروژه
👉 مخزن کد (Repo)
#AI #ComputerVision #3DTracking #هوش_مصنوعی #بینایی_ماشین
@rss_ai_ir
🔹 پروژه MVTracker بهعنوان اولین سیستم دادهمحور برای ردیابی نقاط سهبعدی دلخواه در چندین دوربین معرفی شد. این روش امکان ردیابی دقیق اشیاء و نقاط را از زوایای مختلف فراهم میکند.
📊 دسترسیها:
👉 مقاله (arXiv)
👉 پروژه
👉 مخزن کد (Repo)
#AI #ComputerVision #3DTracking #هوش_مصنوعی #بینایی_ماشین
@rss_ai_ir
🔥9🎉9👍5❤1😁1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WebEyeTrack:
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻
👉 فریم ورک WebEyeTrack یک فریمورک نوآورانه است که مدلهای سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام میکند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب میآورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر میگیرد.
🟢 کد منبع با لایسنس MIT منتشر شده است 💙
🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack
@rss_ai_ir
#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻
👉 فریم ورک WebEyeTrack یک فریمورک نوآورانه است که مدلهای سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام میکند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب میآورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر میگیرد.
🟢 کد منبع با لایسنس MIT منتشر شده است 💙
🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack
@rss_ai_ir
#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
🔥19😁14🎉14❤13👍10👏10🥰6🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
✂️ ابزار متنباز برچسبگذاری تصاویر با هوش مصنوعی ✂️
👉 ابزار VisioFirm محصول TOELT یک ابزار متنباز و هوشمصنوعیمحور برای برچسبگذاری سریع تصاویر در پروژههای بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبههای چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir
#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
👉 ابزار VisioFirm محصول TOELT یک ابزار متنباز و هوشمصنوعیمحور برای برچسبگذاری سریع تصاویر در پروژههای بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبههای چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir
#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
😁30🔥22❤18👍18🎉16👏13🥰12
This media is not supported in your browser
VIEW IN TELEGRAM
🖌️ ویرایش بلادرنگ با Drag 🖌️
👉 آزمایشگاه Visual AI از Inpaint4Drag رونمایی کرد؛ یک فریمورک نوآورانه که فرآیند ویرایش drag-based را به دو بخش warp دوطرفه در فضای پیکسل و inpainting تجزیه میکند. الهامگرفته از تغییر شکل الاستیک اجسام.
✨ نکته جالب اینجاست که میتوانید بهصورت بلادرنگ، اجسام را بکشید و تغییر شکل دهید، بدون از دست رفتن جزئیات.
📌 دمو و کد منتشر شده است (لایسنس هنوز مشخص نیست) 💙
🔗 Paper: https://arxiv.org/pdf/2509.04582
🔗 Project: https://visual-ai.github.io/inpaint4drag/
🔗 Repo: https://github.com/Visual-AI/Inpaint4Drag
🔗 Demo: https://colab.research.google.com/drive/1fzoyNzcJNZjM1_08FE9V2V20EQxGf4PH
@rss_ai_ir
#AI #ML #Inpaint4Drag #Editing #ComputerVision #Realtime
👉 آزمایشگاه Visual AI از Inpaint4Drag رونمایی کرد؛ یک فریمورک نوآورانه که فرآیند ویرایش drag-based را به دو بخش warp دوطرفه در فضای پیکسل و inpainting تجزیه میکند. الهامگرفته از تغییر شکل الاستیک اجسام.
✨ نکته جالب اینجاست که میتوانید بهصورت بلادرنگ، اجسام را بکشید و تغییر شکل دهید، بدون از دست رفتن جزئیات.
📌 دمو و کد منتشر شده است (لایسنس هنوز مشخص نیست) 💙
🔗 Paper: https://arxiv.org/pdf/2509.04582
🔗 Project: https://visual-ai.github.io/inpaint4drag/
🔗 Repo: https://github.com/Visual-AI/Inpaint4Drag
🔗 Demo: https://colab.research.google.com/drive/1fzoyNzcJNZjM1_08FE9V2V20EQxGf4PH
@rss_ai_ir
#AI #ML #Inpaint4Drag #Editing #ComputerVision #Realtime
👍27🔥25❤24😁20🎉18👏17🥰16
This media is not supported in your browser
VIEW IN TELEGRAM
🧐 جستجوی افراد در ویدیو و عکس با چند کلمه توصیفی!
👨🏻💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» میتواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریفشده.
✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزههای امنیت و خردهفروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد میکند.
---
❓ روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگیهای توصیفی دقیق بود فاینتیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاینتیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.
---
┌ 🥵 SigLIP Person Finder
├ 🖥 Demo
├ 🖥 Dataset
└ 🐱 GitHub Repo
@rss_ai_ir
---
🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👨🏻💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» میتواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریفشده.
✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزههای امنیت و خردهفروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد میکند.
---
❓ روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگیهای توصیفی دقیق بود فاینتیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاینتیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.
---
┌ 🥵 SigLIP Person Finder
├ 🖥 Demo
├ 🖥 Dataset
└ 🐱 GitHub Repo
@rss_ai_ir
---
🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👍24🔥21🥰20👏19😁18🎉18❤13
This media is not supported in your browser
VIEW IN TELEGRAM
🩸 مدل پایه برای گلبولهای قرمز خون 🩸
🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبولهای قرمز (RBC).
📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.
💡 انتشار عمومی:
📄 مقاله
💻 کد
🤗 مدلها
⚙️ لایسنس: Apache 2.0
---
🌐 #هوش_مصنوعی #پزشکی #زیستپزشکی #ComputerVision #DeepLearning #RedDino
@rss_ai_ir
🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبولهای قرمز (RBC).
📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.
💡 انتشار عمومی:
📄 مقاله
💻 کد
🤗 مدلها
⚙️ لایسنس: Apache 2.0
---
🌐 #هوش_مصنوعی #پزشکی #زیستپزشکی #ComputerVision #DeepLearning #RedDino
@rss_ai_ir
🔥30🎉26❤21👏21🥰20😁19👍14😍8❤🔥8🤩7💯3
This media is not supported in your browser
VIEW IN TELEGRAM
👻 From Skin to Skeleton 👻
مقالهای تازه تلاش کرده مدل شناختهشدهی SMPL برای بدن انسان را با یک مدل تازه به نام BSM (Biomechanical Skeleton Model) یکپارچه کند. خروجی این تلاش، مدلی به نام SKEL است که مثل SMPL قابل انیمیتکردن است، اما با درجات آزادی کمتر و در عین حال سازگارتر با واقعیت بیومکانیکی بدن انسان.
🔹همچنین SKEL به محققان اجازه میدهد حرکات بدن را طبیعیتر، سبکتر و با دقت بیشتری شبیهسازی کنند.
🔹 این مدل، داده و کد برای تحقیقات در دسترس است.
🟢 Paper: arxiv.org/pdf/2509.06607
🟢 Project: https://skel.is.tue.mpg.de/
@rss_ai_ir
#AI #ML #ComputerVision #3DHumanModeling #SMPL #SKEL #Research
مقالهای تازه تلاش کرده مدل شناختهشدهی SMPL برای بدن انسان را با یک مدل تازه به نام BSM (Biomechanical Skeleton Model) یکپارچه کند. خروجی این تلاش، مدلی به نام SKEL است که مثل SMPL قابل انیمیتکردن است، اما با درجات آزادی کمتر و در عین حال سازگارتر با واقعیت بیومکانیکی بدن انسان.
🔹همچنین SKEL به محققان اجازه میدهد حرکات بدن را طبیعیتر، سبکتر و با دقت بیشتری شبیهسازی کنند.
🔹 این مدل، داده و کد برای تحقیقات در دسترس است.
🟢 Paper: arxiv.org/pdf/2509.06607
🟢 Project: https://skel.is.tue.mpg.de/
@rss_ai_ir
#AI #ML #ComputerVision #3DHumanModeling #SMPL #SKEL #Research
👏20❤15👍13😁13🎉13🔥12🥰10
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 FoMo4Wheat؛ مدل پایهای مخصوص گندم 🌱
🔹 تیم PheniX Lab و همکاران، خانوادهای نوآورانه از مدلهای پایه را معرفی کردهاند که بهطور ویژه برای پردازش تصاویر گندم طراحی شدهاند. این مدلها برای وظایفی مانند طبقهبندی، آشکارسازی، شمارش و بخشبندی مناسباند.
✨ همهچیز بهصورت متنباز و تحت لایسنس MIT منتشر شده: دمو، دیتاست، مدل و کد.
📌 منابع:
👉 مقاله
👉 پروژه
👉 کد
👉 دمو آنلاین
این مدل میتونه نقطهی عطفی در هوش مصنوعی کشاورزی باشه، جایی که تحلیل دقیق و خودکار تصاویر گندم میتونه به بهبود عملکرد و بهرهوری کمک بزرگی بکنه. 🌾🤖
@rss_ai_ir
#AI #ML #Agriculture #ComputerVision #FoMo4Wheat #هوش_مصنوعی #کشاورزی
🔹 تیم PheniX Lab و همکاران، خانوادهای نوآورانه از مدلهای پایه را معرفی کردهاند که بهطور ویژه برای پردازش تصاویر گندم طراحی شدهاند. این مدلها برای وظایفی مانند طبقهبندی، آشکارسازی، شمارش و بخشبندی مناسباند.
✨ همهچیز بهصورت متنباز و تحت لایسنس MIT منتشر شده: دمو، دیتاست، مدل و کد.
📌 منابع:
👉 مقاله
👉 پروژه
👉 کد
👉 دمو آنلاین
این مدل میتونه نقطهی عطفی در هوش مصنوعی کشاورزی باشه، جایی که تحلیل دقیق و خودکار تصاویر گندم میتونه به بهبود عملکرد و بهرهوری کمک بزرگی بکنه. 🌾🤖
@rss_ai_ir
#AI #ML #Agriculture #ComputerVision #FoMo4Wheat #هوش_مصنوعی #کشاورزی
❤10🥰8🔥7👏7😁6👍5🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
❤9🎉7🔥4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️یک آموزش گرافیکی ساده و جذاب
🎥 در این ویدئو میبینیم که الگوریتم YOLO چطور به صورت لحظهای اشیا را تشخیص میدهد.
🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان میدهد که چطور شبکههای عصبی درک بینایی پیدا میکنند.
@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
🎥 در این ویدئو میبینیم که الگوریتم YOLO چطور به صورت لحظهای اشیا را تشخیص میدهد.
🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان میدهد که چطور شبکههای عصبی درک بینایی پیدا میکنند.
@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
👍12🎉6🔥5❤4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰12❤11🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏12❤11👍9🔥8🥰6🎉6🤔1
🚀 DeepFaceLab —
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍8❤6😁5🔥4🎉4🥰3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
❤7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 CLOPS:
آواتار مبتنی بر بینایی اولشخص 🌀
👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگوسنتریک (دید اولشخص) محیط اطراف خود را درک کرده و در آن جابجا میشود.
این سیستم میتواند بهطور واقعگرایانه در صحنه حرکت کند و با چرخهای از ادراک بصری و حرکت هدف خود را بیابد.
🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون دادههای اضافی، ممکن میشود.
📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: بهزودی
@rss_ai_ir
#AI #Avatar #ComputerVision #Robotics #CLOPS
آواتار مبتنی بر بینایی اولشخص 🌀
👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگوسنتریک (دید اولشخص) محیط اطراف خود را درک کرده و در آن جابجا میشود.
این سیستم میتواند بهطور واقعگرایانه در صحنه حرکت کند و با چرخهای از ادراک بصری و حرکت هدف خود را بیابد.
🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون دادههای اضافی، ممکن میشود.
📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: بهزودی
@rss_ai_ir
#AI #Avatar #ComputerVision #Robotics #CLOPS
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏4❤1👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔥1