This media is not supported in your browser
VIEW IN TELEGRAM
👻 From Skin to Skeleton 👻
مقالهای تازه تلاش کرده مدل شناختهشدهی SMPL برای بدن انسان را با یک مدل تازه به نام BSM (Biomechanical Skeleton Model) یکپارچه کند. خروجی این تلاش، مدلی به نام SKEL است که مثل SMPL قابل انیمیتکردن است، اما با درجات آزادی کمتر و در عین حال سازگارتر با واقعیت بیومکانیکی بدن انسان.
🔹همچنین SKEL به محققان اجازه میدهد حرکات بدن را طبیعیتر، سبکتر و با دقت بیشتری شبیهسازی کنند.
🔹 این مدل، داده و کد برای تحقیقات در دسترس است.
🟢 Paper: arxiv.org/pdf/2509.06607
🟢 Project: https://skel.is.tue.mpg.de/
@rss_ai_ir
#AI #ML #ComputerVision #3DHumanModeling #SMPL #SKEL #Research
مقالهای تازه تلاش کرده مدل شناختهشدهی SMPL برای بدن انسان را با یک مدل تازه به نام BSM (Biomechanical Skeleton Model) یکپارچه کند. خروجی این تلاش، مدلی به نام SKEL است که مثل SMPL قابل انیمیتکردن است، اما با درجات آزادی کمتر و در عین حال سازگارتر با واقعیت بیومکانیکی بدن انسان.
🔹همچنین SKEL به محققان اجازه میدهد حرکات بدن را طبیعیتر، سبکتر و با دقت بیشتری شبیهسازی کنند.
🔹 این مدل، داده و کد برای تحقیقات در دسترس است.
🟢 Paper: arxiv.org/pdf/2509.06607
🟢 Project: https://skel.is.tue.mpg.de/
@rss_ai_ir
#AI #ML #ComputerVision #3DHumanModeling #SMPL #SKEL #Research
👏20❤15👍13😁13🎉13🔥12🥰10
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 FoMo4Wheat؛ مدل پایهای مخصوص گندم 🌱
🔹 تیم PheniX Lab و همکاران، خانوادهای نوآورانه از مدلهای پایه را معرفی کردهاند که بهطور ویژه برای پردازش تصاویر گندم طراحی شدهاند. این مدلها برای وظایفی مانند طبقهبندی، آشکارسازی، شمارش و بخشبندی مناسباند.
✨ همهچیز بهصورت متنباز و تحت لایسنس MIT منتشر شده: دمو، دیتاست، مدل و کد.
📌 منابع:
👉 مقاله
👉 پروژه
👉 کد
👉 دمو آنلاین
این مدل میتونه نقطهی عطفی در هوش مصنوعی کشاورزی باشه، جایی که تحلیل دقیق و خودکار تصاویر گندم میتونه به بهبود عملکرد و بهرهوری کمک بزرگی بکنه. 🌾🤖
@rss_ai_ir
#AI #ML #Agriculture #ComputerVision #FoMo4Wheat #هوش_مصنوعی #کشاورزی
🔹 تیم PheniX Lab و همکاران، خانوادهای نوآورانه از مدلهای پایه را معرفی کردهاند که بهطور ویژه برای پردازش تصاویر گندم طراحی شدهاند. این مدلها برای وظایفی مانند طبقهبندی، آشکارسازی، شمارش و بخشبندی مناسباند.
✨ همهچیز بهصورت متنباز و تحت لایسنس MIT منتشر شده: دمو، دیتاست، مدل و کد.
📌 منابع:
👉 مقاله
👉 پروژه
👉 کد
👉 دمو آنلاین
این مدل میتونه نقطهی عطفی در هوش مصنوعی کشاورزی باشه، جایی که تحلیل دقیق و خودکار تصاویر گندم میتونه به بهبود عملکرد و بهرهوری کمک بزرگی بکنه. 🌾🤖
@rss_ai_ir
#AI #ML #Agriculture #ComputerVision #FoMo4Wheat #هوش_مصنوعی #کشاورزی
❤10🥰8🔥7👏7😁6👍5🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
❤9🎉7🔥4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️یک آموزش گرافیکی ساده و جذاب
🎥 در این ویدئو میبینیم که الگوریتم YOLO چطور به صورت لحظهای اشیا را تشخیص میدهد.
🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان میدهد که چطور شبکههای عصبی درک بینایی پیدا میکنند.
@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
🎥 در این ویدئو میبینیم که الگوریتم YOLO چطور به صورت لحظهای اشیا را تشخیص میدهد.
🐱 اینجا مدل تصویر گربه را شناسایی کرده و نشان میدهد که چطور شبکههای عصبی درک بینایی پیدا میکنند.
@rss_ai_ir
#هوش_مصنوعی #YOLO #ComputerVision
👍12🎉6🔥5❤4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰12❤11🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏12❤11👍9🔥8🥰6🎉6🤔1
🚀 DeepFaceLab —
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍8❤6😁5🔥4🎉4🥰3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
❤7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🌀 CLOPS:
آواتار مبتنی بر بینایی اولشخص 🌀
👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگوسنتریک (دید اولشخص) محیط اطراف خود را درک کرده و در آن جابجا میشود.
این سیستم میتواند بهطور واقعگرایانه در صحنه حرکت کند و با چرخهای از ادراک بصری و حرکت هدف خود را بیابد.
🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون دادههای اضافی، ممکن میشود.
📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: بهزودی
@rss_ai_ir
#AI #Avatar #ComputerVision #Robotics #CLOPS
آواتار مبتنی بر بینایی اولشخص 🌀
👉آواتار CLOPS اولین آواتار انسانی است که تنها با تکیه بر بینایی ایگوسنتریک (دید اولشخص) محیط اطراف خود را درک کرده و در آن جابجا میشود.
این سیستم میتواند بهطور واقعگرایانه در صحنه حرکت کند و با چرخهای از ادراک بصری و حرکت هدف خود را بیابد.
🔬 این یعنی CLOPS قدمی تازه در ترکیب بینایی کامپیوتری و ناوبری آواتارها است، جایی که تعامل طبیعی با محیط، بدون دادههای اضافی، ممکن میشود.
📄 مقاله:
https://arxiv.org/pdf/2509.19259
🌐 پروژه:
markos-diomataris.github.io/projects/clops/
💙 کد: بهزودی
@rss_ai_ir
#AI #Avatar #ComputerVision #Robotics #CLOPS
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
👔 LucidFlux:
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
ترمیم همهکارهی تصویر (HKUSTGZ)
⛔️مدل LucidFlux یک فریمورک ترمیم تصویر یونیورسال بر پایهی Diffusion Transformer است که روی عکسهای واقعی با کیفیت پایین (LQ) خروجیهای فوتورئالیستی میدهد و در انواع خرابیها (نویز، بلور، فشردگی، کمنور، آرتیفکتها و …) از مدلهای SOTA مبتنی بر دیفیوشن بهتر عمل میکند.
❌چرا مهمه؟
✅یک مدل برای چندین نوع خرابی (بهجای مدل جدا برای هر سناریو)
✅سازگاری با تصاویر دنیای واقعی، نه فقط دیتاستهای تمیز
✅کیفیت بازسازی بالا بدون ظاهر «بیشازحد صاف/پلاستیکی»
‼️نکات فنی کوتاه
❎معماری بزرگمقیاس Diffusion Transformer
❎آموزش چند-تخریبی (multi-degradation) برای تعمیم بهتر
❎لایسنس: استفاده غیرتجاری (حواستون به محدودیت مجوز باشه)
📄 Paper:
https://arxiv.org/pdf/2509.22414
🌐 Project:
https://w2genai-lab.github.io/LucidFlux/
💻 Code:
https://github.com/W2GenAI-Lab/LucidFlux
#ImageRestoration #Diffusion #Transformer #ComputerVision #LucidFlux #AIResearch
👏4❤1👍1🙏1
🚀 YOLO26 – نسل جدید تشخیص اشیاء
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔸 معرفی شده توسط Ultralytics در رویداد YOLO Vision 2025
🔸 طراحیشده برای سریعتر، سبکتر و سازگارتر با Edge Devices
✨ ویژگیهای کلیدی:
❌ حذف NMS (Non-Maximum Suppression) → پیشبینی مستقیم بدون حذف دابلها
❌ حذف DFL → سادهتر شدن خروجی و سازگاری بهتر با سختافزار
🆕 سه تکنیک تازه:
ProgLoss → بالانس تدریجی خطاها
STAL → برتری در تشخیص اشیاء خیلی کوچک
MuSGD → الگوریتم بهینهسازی الهامگرفته از آموزش LLMها
⚡ بهینهسازی ویژه برای CPU و دستگاههای لبهای با تاخیر کم
⚠️ نکته: هنوز در مرحله پیشنمایش است و برخی تستها نشان میدهند که دقت آن در بعضی موارد پایینتر از YOLO12 است.
📌 با این حال، حذف بخشهای اضافی و سادهتر شدن ساختار، YOLO26 را گزینهای جذاب برای پردازش سریع روی دستگاههای صنعتی و قابل حمل میکند.
https://docs.ultralytics.com/models/yolo26/
@rss_ai_ir
#YOLO #ComputerVision #AI #YOLO26
🔥1