📌 عنوان:
نقشه حرارتی نقصها در پردازش تصویر صنعتی 🔍📷
---
در سامانههای بینایی ماشین صنعتی (Machine Vision)، یکی از روشهای پیشرفته برای شناسایی نقصهای بسیار ریز در قطعات، استفاده از نقشههای حرارتی (Heatmaps) حاصل از شبکههای عصبی کانولوشنی (CNN) است.
این نقشهها نقاطی از تصویر را که بیشترین میزان توجه مدل را جلب کردهاند پررنگتر نشان میدهند.
⚙️ چرا مهم است؟
- امکان شناسایی نقصهای بسیار کوچکتر از ۱ میلیمتر 📏
- کمک به اپراتور برای تفسیر تصمیم مدل
- بهبود خط تولید با تعیین دقیق موقعیت مشکل روی قطعه
📌 نکته تخصصی:
در بسیاری از خطوط تولید، از روش Grad-CAM++ برای تولید این نقشههای حرارتی استفاده میشود، زیرا توانایی بالاتری در محلیسازی نقصها حتی در پسزمینههای پیچیده دارد.
---
🔖 #پردازش_تصویر #بینایی_ماشین #صنعت #هوش_مصنوعی #بینایی_کامپیوتر #Inspection #DeepLearning #AI
@rss_ai_ir
نقشه حرارتی نقصها در پردازش تصویر صنعتی 🔍📷
---
در سامانههای بینایی ماشین صنعتی (Machine Vision)، یکی از روشهای پیشرفته برای شناسایی نقصهای بسیار ریز در قطعات، استفاده از نقشههای حرارتی (Heatmaps) حاصل از شبکههای عصبی کانولوشنی (CNN) است.
این نقشهها نقاطی از تصویر را که بیشترین میزان توجه مدل را جلب کردهاند پررنگتر نشان میدهند.
⚙️ چرا مهم است؟
- امکان شناسایی نقصهای بسیار کوچکتر از ۱ میلیمتر 📏
- کمک به اپراتور برای تفسیر تصمیم مدل
- بهبود خط تولید با تعیین دقیق موقعیت مشکل روی قطعه
📌 نکته تخصصی:
در بسیاری از خطوط تولید، از روش Grad-CAM++ برای تولید این نقشههای حرارتی استفاده میشود، زیرا توانایی بالاتری در محلیسازی نقصها حتی در پسزمینههای پیچیده دارد.
---
🔖 #پردازش_تصویر #بینایی_ماشین #صنعت #هوش_مصنوعی #بینایی_کامپیوتر #Inspection #DeepLearning #AI
@rss_ai_ir
👍8👏8🔥5😁4🥰3🎉3❤2
🔬 یک نکته تخصصی در مورد CNN:
♻️در معماریهای مدرن CNN به جای استفاده از پولینگ سنتی (MaxPooling/AvgPooling)، اغلب از stride > 1 در کانولوشن استفاده میشود.
📌 چرا؟
✅یادگیریپذیری بالاتر: بر خلاف Pooling که یک عمل ثابت و بدون پارامتر است، کانولوشن با stride بزرگتر میتواند همزمان هم کاهش ابعاد بدهد و هم ویژگیهای قابل یادگیری استخراج کند.
✅پایداری گرادیان: استفاده بیشازحد از pooling میتواند باعث از دست رفتن اطلاعات ظریف و مشکلات در backpropagation شود.
✅دقت بالاتر در شبکههای عمیق: مدلهایی مثل ResNet و EfficientNet نشان دادهاند که حذف یا کاهش pooling و جایگزینی آن با کانولوشن استرایددار (stride convolution) باعث بهبود generalization میشود.
⚡ نتیجه: در طراحی CNN برای پروژههای صنعتی، به جای اتکا به Poolingهای متعدد، استفاده از کانولوشن استرایددار هم دقت بالاتر و هم بهینهسازی بهتری در حافظه و سرعت به همراه دارد.
@rss_ai_ir
#CNN #DeepLearning #هوش_مصنوعی #بینایی_ماشین #Convolution
♻️در معماریهای مدرن CNN به جای استفاده از پولینگ سنتی (MaxPooling/AvgPooling)، اغلب از stride > 1 در کانولوشن استفاده میشود.
📌 چرا؟
✅یادگیریپذیری بالاتر: بر خلاف Pooling که یک عمل ثابت و بدون پارامتر است، کانولوشن با stride بزرگتر میتواند همزمان هم کاهش ابعاد بدهد و هم ویژگیهای قابل یادگیری استخراج کند.
✅پایداری گرادیان: استفاده بیشازحد از pooling میتواند باعث از دست رفتن اطلاعات ظریف و مشکلات در backpropagation شود.
✅دقت بالاتر در شبکههای عمیق: مدلهایی مثل ResNet و EfficientNet نشان دادهاند که حذف یا کاهش pooling و جایگزینی آن با کانولوشن استرایددار (stride convolution) باعث بهبود generalization میشود.
⚡ نتیجه: در طراحی CNN برای پروژههای صنعتی، به جای اتکا به Poolingهای متعدد، استفاده از کانولوشن استرایددار هم دقت بالاتر و هم بهینهسازی بهتری در حافظه و سرعت به همراه دارد.
@rss_ai_ir
#CNN #DeepLearning #هوش_مصنوعی #بینایی_ماشین #Convolution
🔥8🥰8👏7❤6🎉6😁5👍4
🔥 خبر داغ برای علاقهمندان سختافزار و یادگیری عمیق: نسخه چهارم FlashAttention در راه است!
🔹 تیم توسعهدهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدتهاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینهسازی شده و روی توالیهای طولانی حدود ۲۲٪ افزایش کارایی ارائه میدهد.
🔹 این یعنی محاسبات سریعتر، ارزانتر و کارآمدتر برای مدلهای بزرگ زبانی و بینایی.
📊 تفاوت اصلی در بهینهسازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان میدهد که در طول دنبالههای بسیار بزرگ، این الگوریتم بهطور چشمگیری از cuDNN جلو میزند.
به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدلهای غولپیکر رو بهصرفهتر کنه 🚀
#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA
@rss_ai_ir
🔹 تیم توسعهدهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدتهاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینهسازی شده و روی توالیهای طولانی حدود ۲۲٪ افزایش کارایی ارائه میدهد.
🔹 این یعنی محاسبات سریعتر، ارزانتر و کارآمدتر برای مدلهای بزرگ زبانی و بینایی.
📊 تفاوت اصلی در بهینهسازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان میدهد که در طول دنبالههای بسیار بزرگ، این الگوریتم بهطور چشمگیری از cuDNN جلو میزند.
به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدلهای غولپیکر رو بهصرفهتر کنه 🚀
#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA
@rss_ai_ir
👍1🔥1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
📌 انواع روشهای عمقسنجی در بینایی ماشین و صنعت
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔥15❤11😁9👍8🎉6
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍25❤23🥰23😁22🔥18👏16
برای تسریع شبکههای عصبی کانولوشنی (CNN) روشهای مختلفی وجود داره که معمولاً در سه دستهی اصلی خلاصه میشن:
---
🔹 ۱. بهینهسازی معماری (Architecture Optimization)
NAS (Neural Architecture Search):
♻️ جستجوی خودکار برای پیدا کردن معماری سبکتر و سریعتر.
طراحی دستی سبکها:
♻️مثل MobileNet، ShuffleNet یا EfficientNet که با کانولوشنهای سبکوزن (Depthwise, Pointwise) سرعت رو بالا میبرن.
---
🔹 ۲. فشردهسازی و کاهش پارامترها (Model Compression)
Pruning (هرس کردن):
♻️ حذف کانکشنها، نورونها یا فیلترهای کماهمیت.
Weight Sharing:
♻️ اشتراکگذاری وزنها بین فیلترها برای کاهش حافظه.
Knowledge Distillation:
♻️ آموزش یک مدل کوچک (Student) با کمک دانش مدل بزرگتر (Teacher).
---
🔹 ۳. کاهش دقت محاسبات (Quantization & Low-Precision)
Quantization:
♻️ استفاده از نمایش با بیت کمتر (FP16, INT8, حتی FP8) بهجای FP32.
Binarization / Ternarization:
♻️ محدود کردن وزنها و اکتیویشنها به مقادیر دودویی یا سهتایی.
Mixed Precision Training:
♻️استفاده ترکیبی از FP16 و FP32 برای تعادل بین سرعت و دقت.
---
🔹 ۴. بهینهسازی سختافزاری و نرمافزاری
Fused Operations:
♻️ ادغام چند عملیات (مثلاً Conv + BN + ReLU) در یک کرنل واحد.
CUDA / cuDNN Optimizations:
♻️ استفاده از کتابخانههای GPU بهینهشده.
Sparse Computation:
♻️ استفاده از ماتریسهای تنک برای حذف محاسبات بیفایده.
Hardware Accelerators:
♻️ استفاده از TPU، NPU یا FPGA برای اجرای سریعتر CNN.
---
🔹 ۵. روشهای سطح سیستم
Batching هوشمند:
♻️ پردازش همزمان چند ورودی برای استفاده بهینه از GPU.
Pipeline Parallelism / Model Parallelism:
♻️ تقسیم مدل یا داده بین چند پردازنده.
Caching و Reuse:
♻️ استفاده مجدد از ویژگیها یا نتایج محاسباتی.
---
👉 در عمل، ترکیبی از این روشها استفاده میشه. مثلاً:
یک CNN مثل MobileNetV2 که طراحی سبک داره، میتونه بعد از Pruning و Quantization به INT8 روی موبایل یا لبه (Edge) تا چند برابر سریعتر بشه بدون افت دقت چشمگیر.
@rss_ai_ir 🤖⚡
#هوش_مصنوعی #CNN #تسریع #کوانتیزیشن #Pruning #NAS #DeepLearning
---
🔹 ۱. بهینهسازی معماری (Architecture Optimization)
NAS (Neural Architecture Search):
♻️ جستجوی خودکار برای پیدا کردن معماری سبکتر و سریعتر.
طراحی دستی سبکها:
♻️مثل MobileNet، ShuffleNet یا EfficientNet که با کانولوشنهای سبکوزن (Depthwise, Pointwise) سرعت رو بالا میبرن.
---
🔹 ۲. فشردهسازی و کاهش پارامترها (Model Compression)
Pruning (هرس کردن):
♻️ حذف کانکشنها، نورونها یا فیلترهای کماهمیت.
Weight Sharing:
♻️ اشتراکگذاری وزنها بین فیلترها برای کاهش حافظه.
Knowledge Distillation:
♻️ آموزش یک مدل کوچک (Student) با کمک دانش مدل بزرگتر (Teacher).
---
🔹 ۳. کاهش دقت محاسبات (Quantization & Low-Precision)
Quantization:
♻️ استفاده از نمایش با بیت کمتر (FP16, INT8, حتی FP8) بهجای FP32.
Binarization / Ternarization:
♻️ محدود کردن وزنها و اکتیویشنها به مقادیر دودویی یا سهتایی.
Mixed Precision Training:
♻️استفاده ترکیبی از FP16 و FP32 برای تعادل بین سرعت و دقت.
---
🔹 ۴. بهینهسازی سختافزاری و نرمافزاری
Fused Operations:
♻️ ادغام چند عملیات (مثلاً Conv + BN + ReLU) در یک کرنل واحد.
CUDA / cuDNN Optimizations:
♻️ استفاده از کتابخانههای GPU بهینهشده.
Sparse Computation:
♻️ استفاده از ماتریسهای تنک برای حذف محاسبات بیفایده.
Hardware Accelerators:
♻️ استفاده از TPU، NPU یا FPGA برای اجرای سریعتر CNN.
---
🔹 ۵. روشهای سطح سیستم
Batching هوشمند:
♻️ پردازش همزمان چند ورودی برای استفاده بهینه از GPU.
Pipeline Parallelism / Model Parallelism:
♻️ تقسیم مدل یا داده بین چند پردازنده.
Caching و Reuse:
♻️ استفاده مجدد از ویژگیها یا نتایج محاسباتی.
---
👉 در عمل، ترکیبی از این روشها استفاده میشه. مثلاً:
یک CNN مثل MobileNetV2 که طراحی سبک داره، میتونه بعد از Pruning و Quantization به INT8 روی موبایل یا لبه (Edge) تا چند برابر سریعتر بشه بدون افت دقت چشمگیر.
@rss_ai_ir 🤖⚡
#هوش_مصنوعی #CNN #تسریع #کوانتیزیشن #Pruning #NAS #DeepLearning
👏8🥰7👍6😁6❤5🔥5🎉4
🚀 گوگل از EmbeddingGemma رونمایی کرد؛ یک مدل سبک و اوپنسورس برای ایجاد امبدینگهای متنی.
📌 ویژگی مهم: این مدل را میتوان مستقیم روی موبایل یا لپتاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.
🟢 چه چیزی داخلش هست؟
✳️308 میلیون پارامتر، اما از همه مدلهای زیر 500M در کیفیت بهتر عمل میکند (طبق MTEB)
✳️سرعت بسیار بالا: کمتر از 15 میلیثانیه روی EdgeTPU (برای 256 توکن)
✳️پشتیبانی از بیش از 100 زبان
✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت
✳️پشتیبانی از کانتکست تا 2000 توکن
✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب
🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدلها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
@rss_ai_ir
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
📌 ویژگی مهم: این مدل را میتوان مستقیم روی موبایل یا لپتاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.
🟢 چه چیزی داخلش هست؟
✳️308 میلیون پارامتر، اما از همه مدلهای زیر 500M در کیفیت بهتر عمل میکند (طبق MTEB)
✳️سرعت بسیار بالا: کمتر از 15 میلیثانیه روی EdgeTPU (برای 256 توکن)
✳️پشتیبانی از بیش از 100 زبان
✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت
✳️پشتیبانی از کانتکست تا 2000 توکن
✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب
🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدلها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
@rss_ai_ir
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
❤19🔥19👍18😁17🎉14🥰13👏13🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧐 جستجوی افراد در ویدیو و عکس با چند کلمه توصیفی!
👨🏻💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» میتواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریفشده.
✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزههای امنیت و خردهفروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد میکند.
---
❓ روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگیهای توصیفی دقیق بود فاینتیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاینتیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.
---
┌ 🥵 SigLIP Person Finder
├ 🖥 Demo
├ 🖥 Dataset
└ 🐱 GitHub Repo
@rss_ai_ir
---
🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👨🏻💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» میتواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریفشده.
✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزههای امنیت و خردهفروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد میکند.
---
❓ روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگیهای توصیفی دقیق بود فاینتیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاینتیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.
---
┌ 🥵 SigLIP Person Finder
├ 🖥 Demo
├ 🖥 Dataset
└ 🐱 GitHub Repo
@rss_ai_ir
---
🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👍24🔥21🥰20👏19😁18🎉18❤13
This media is not supported in your browser
VIEW IN TELEGRAM
🩸 مدل پایه برای گلبولهای قرمز خون 🩸
🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبولهای قرمز (RBC).
📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.
💡 انتشار عمومی:
📄 مقاله
💻 کد
🤗 مدلها
⚙️ لایسنس: Apache 2.0
---
🌐 #هوش_مصنوعی #پزشکی #زیستپزشکی #ComputerVision #DeepLearning #RedDino
@rss_ai_ir
🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبولهای قرمز (RBC).
📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.
💡 انتشار عمومی:
📄 مقاله
💻 کد
🤗 مدلها
⚙️ لایسنس: Apache 2.0
---
🌐 #هوش_مصنوعی #پزشکی #زیستپزشکی #ComputerVision #DeepLearning #RedDino
@rss_ai_ir
🔥30🎉26❤21👏21🥰20😁19👍14😍8❤🔥8🤩7💯3
🚀 مدل Grok 2.5 حالا روی سیستم شخصی هم قابل اجراست!
🔹 تیم Unsloth نسخهای بهینهشده از مدل را منتشر کرده که اجرای محلی را ممکن میکند:
✅ 270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
✅ حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
✅ لایههای کلیدی در فرمت 8-bit و سایر بخشها با فشردهسازی 3-bit GGUF ذخیره شدهاند.
📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF
@rss_ai_ir
#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
🔹 تیم Unsloth نسخهای بهینهشده از مدل را منتشر کرده که اجرای محلی را ممکن میکند:
✅ 270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
✅ حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
✅ لایههای کلیدی در فرمت 8-bit و سایر بخشها با فشردهسازی 3-bit GGUF ذخیره شدهاند.
📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF
@rss_ai_ir
#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
👍23🥰20🎉20❤16💯14😁12🔥11🤩8👏7😍7❤🔥7
🎯 ۷ گام تا تسلط بر مدلهای زبانی بزرگ (LLM)
تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشهی راه را نشان میدهد؛ از مبانی اولیه تا ساخت اپلیکیشنهای واقعی:
1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)
2️⃣ بررسی معماریهای LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet
3️⃣ پیشتمرین مدلها
🔹 پیشبینی جملهی بعدی
🔹 پیشتمرین متضاد زبان–تصویر (Contrastive Pre-training)
4️⃣ فاینتیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)
5️⃣ تنظیم و پسآموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیحپذیری (Explainability)
6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخها (Relevancy)
7️⃣ ساخت اپلیکیشنهای LLM
🔹 چتباتها
🔹 تولید محتوا
🔹 ترجمهی زبان
---
🌟 اگر این مسیر را دنبال کنید، میتوانید از درک مبانی تا پیادهسازی اپلیکیشنهای پیشرفته مبتنی بر LLM حرکت کنید.
#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI
@rss_ai_ir
تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشهی راه را نشان میدهد؛ از مبانی اولیه تا ساخت اپلیکیشنهای واقعی:
1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)
2️⃣ بررسی معماریهای LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet
3️⃣ پیشتمرین مدلها
🔹 پیشبینی جملهی بعدی
🔹 پیشتمرین متضاد زبان–تصویر (Contrastive Pre-training)
4️⃣ فاینتیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)
5️⃣ تنظیم و پسآموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیحپذیری (Explainability)
6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخها (Relevancy)
7️⃣ ساخت اپلیکیشنهای LLM
🔹 چتباتها
🔹 تولید محتوا
🔹 ترجمهی زبان
---
🌟 اگر این مسیر را دنبال کنید، میتوانید از درک مبانی تا پیادهسازی اپلیکیشنهای پیشرفته مبتنی بر LLM حرکت کنید.
#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI
@rss_ai_ir
😁9👍8🔥8👏8🎉8❤5🥰4🙏1
🧠 SpikingBrain-7B:
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
❤13😍12💯9👍8🔥8🥰6❤🔥6🎉5🤩5👏3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 ویدیوهای انسانمحور با دقت بالا 🐙
محققان دانشگاه Tsinghua و شرکت ByteDance فریمورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگیهای زیر رو داره:
🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریمهای مختلف
🔹 حرکتهای هماهنگشده با صدا (Audio-Driven Motion)
🔹 کنترلپذیری و جزئیات ظریف در خروجی
📌 فریم ورک HuMo میتونه از ورودیهای چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورسکد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.
🔗 لینکها:
👉 Paper
👉 Project
👉 Repo
#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
محققان دانشگاه Tsinghua و شرکت ByteDance فریمورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگیهای زیر رو داره:
🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریمهای مختلف
🔹 حرکتهای هماهنگشده با صدا (Audio-Driven Motion)
🔹 کنترلپذیری و جزئیات ظریف در خروجی
📌 فریم ورک HuMo میتونه از ورودیهای چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورسکد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.
🔗 لینکها:
👉 Paper
👉 Project
👉 Repo
#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
❤12🔥11🥰10👏8👍5🎉5😁4
🚀 Ring-mini-2.0
؛ مدل کوچک اما فوقالعاده قدرتمند!
💡 این مدل با 16B-A1B پارامتر و بهرهگیری از استراتژیهای Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه میدهد.
🧠 در منطق و استدلال، از مدلهای Dense با همین اندازه عملکرد بهتری دارد.
⚡ سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریعتر از مدلهای Dense مشابه).
🔥 نمونهای دیگر از اینکه چگونه مدلهای کوچکتر «Thinking Models» روزبهروز باهوشتر و سریعتر میشوند!
🔗 مشاهده در HuggingFace
@rss_ai_ir
#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
؛ مدل کوچک اما فوقالعاده قدرتمند!
💡 این مدل با 16B-A1B پارامتر و بهرهگیری از استراتژیهای Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه میدهد.
🧠 در منطق و استدلال، از مدلهای Dense با همین اندازه عملکرد بهتری دارد.
⚡ سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریعتر از مدلهای Dense مشابه).
🔥 نمونهای دیگر از اینکه چگونه مدلهای کوچکتر «Thinking Models» روزبهروز باهوشتر و سریعتر میشوند!
🔗 مشاهده در HuggingFace
@rss_ai_ir
#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدیو، مفاهیم کلیدی یادگیری ماشین بهصورت بصری نمایش داده میشوند. 📊
از جمله:
🔹 نحوه تغییر وزنها در طول آموزش
🔹 روند بهبود Accuracy در هر Epoch
این نوع ویژوالسازیها باعث میشوند درک مفاهیم پیچیدهی یادگیری ماشین سادهتر و عمیقتر شود.
@rss_ai_ir
#MachineLearning #DeepLearning #DataScience #AI #Visualization
از جمله:
🔹 نحوه تغییر وزنها در طول آموزش
🔹 روند بهبود Accuracy در هر Epoch
این نوع ویژوالسازیها باعث میشوند درک مفاهیم پیچیدهی یادگیری ماشین سادهتر و عمیقتر شود.
@rss_ai_ir
#MachineLearning #DeepLearning #DataScience #AI #Visualization
😁12🎉12👍11❤9🔥8🥰7👏4