This media is not supported in your browser
VIEW IN TELEGRAM
📌 انواع روشهای عمقسنجی در بینایی ماشین و صنعت
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔥15❤11😁9👍8🎉6
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍25❤23🥰23😁22🔥18👏16
برای تسریع شبکههای عصبی کانولوشنی (CNN) روشهای مختلفی وجود داره که معمولاً در سه دستهی اصلی خلاصه میشن:
---
🔹 ۱. بهینهسازی معماری (Architecture Optimization)
NAS (Neural Architecture Search):
♻️ جستجوی خودکار برای پیدا کردن معماری سبکتر و سریعتر.
طراحی دستی سبکها:
♻️مثل MobileNet، ShuffleNet یا EfficientNet که با کانولوشنهای سبکوزن (Depthwise, Pointwise) سرعت رو بالا میبرن.
---
🔹 ۲. فشردهسازی و کاهش پارامترها (Model Compression)
Pruning (هرس کردن):
♻️ حذف کانکشنها، نورونها یا فیلترهای کماهمیت.
Weight Sharing:
♻️ اشتراکگذاری وزنها بین فیلترها برای کاهش حافظه.
Knowledge Distillation:
♻️ آموزش یک مدل کوچک (Student) با کمک دانش مدل بزرگتر (Teacher).
---
🔹 ۳. کاهش دقت محاسبات (Quantization & Low-Precision)
Quantization:
♻️ استفاده از نمایش با بیت کمتر (FP16, INT8, حتی FP8) بهجای FP32.
Binarization / Ternarization:
♻️ محدود کردن وزنها و اکتیویشنها به مقادیر دودویی یا سهتایی.
Mixed Precision Training:
♻️استفاده ترکیبی از FP16 و FP32 برای تعادل بین سرعت و دقت.
---
🔹 ۴. بهینهسازی سختافزاری و نرمافزاری
Fused Operations:
♻️ ادغام چند عملیات (مثلاً Conv + BN + ReLU) در یک کرنل واحد.
CUDA / cuDNN Optimizations:
♻️ استفاده از کتابخانههای GPU بهینهشده.
Sparse Computation:
♻️ استفاده از ماتریسهای تنک برای حذف محاسبات بیفایده.
Hardware Accelerators:
♻️ استفاده از TPU، NPU یا FPGA برای اجرای سریعتر CNN.
---
🔹 ۵. روشهای سطح سیستم
Batching هوشمند:
♻️ پردازش همزمان چند ورودی برای استفاده بهینه از GPU.
Pipeline Parallelism / Model Parallelism:
♻️ تقسیم مدل یا داده بین چند پردازنده.
Caching و Reuse:
♻️ استفاده مجدد از ویژگیها یا نتایج محاسباتی.
---
👉 در عمل، ترکیبی از این روشها استفاده میشه. مثلاً:
یک CNN مثل MobileNetV2 که طراحی سبک داره، میتونه بعد از Pruning و Quantization به INT8 روی موبایل یا لبه (Edge) تا چند برابر سریعتر بشه بدون افت دقت چشمگیر.
@rss_ai_ir 🤖⚡
#هوش_مصنوعی #CNN #تسریع #کوانتیزیشن #Pruning #NAS #DeepLearning
---
🔹 ۱. بهینهسازی معماری (Architecture Optimization)
NAS (Neural Architecture Search):
♻️ جستجوی خودکار برای پیدا کردن معماری سبکتر و سریعتر.
طراحی دستی سبکها:
♻️مثل MobileNet، ShuffleNet یا EfficientNet که با کانولوشنهای سبکوزن (Depthwise, Pointwise) سرعت رو بالا میبرن.
---
🔹 ۲. فشردهسازی و کاهش پارامترها (Model Compression)
Pruning (هرس کردن):
♻️ حذف کانکشنها، نورونها یا فیلترهای کماهمیت.
Weight Sharing:
♻️ اشتراکگذاری وزنها بین فیلترها برای کاهش حافظه.
Knowledge Distillation:
♻️ آموزش یک مدل کوچک (Student) با کمک دانش مدل بزرگتر (Teacher).
---
🔹 ۳. کاهش دقت محاسبات (Quantization & Low-Precision)
Quantization:
♻️ استفاده از نمایش با بیت کمتر (FP16, INT8, حتی FP8) بهجای FP32.
Binarization / Ternarization:
♻️ محدود کردن وزنها و اکتیویشنها به مقادیر دودویی یا سهتایی.
Mixed Precision Training:
♻️استفاده ترکیبی از FP16 و FP32 برای تعادل بین سرعت و دقت.
---
🔹 ۴. بهینهسازی سختافزاری و نرمافزاری
Fused Operations:
♻️ ادغام چند عملیات (مثلاً Conv + BN + ReLU) در یک کرنل واحد.
CUDA / cuDNN Optimizations:
♻️ استفاده از کتابخانههای GPU بهینهشده.
Sparse Computation:
♻️ استفاده از ماتریسهای تنک برای حذف محاسبات بیفایده.
Hardware Accelerators:
♻️ استفاده از TPU، NPU یا FPGA برای اجرای سریعتر CNN.
---
🔹 ۵. روشهای سطح سیستم
Batching هوشمند:
♻️ پردازش همزمان چند ورودی برای استفاده بهینه از GPU.
Pipeline Parallelism / Model Parallelism:
♻️ تقسیم مدل یا داده بین چند پردازنده.
Caching و Reuse:
♻️ استفاده مجدد از ویژگیها یا نتایج محاسباتی.
---
👉 در عمل، ترکیبی از این روشها استفاده میشه. مثلاً:
یک CNN مثل MobileNetV2 که طراحی سبک داره، میتونه بعد از Pruning و Quantization به INT8 روی موبایل یا لبه (Edge) تا چند برابر سریعتر بشه بدون افت دقت چشمگیر.
@rss_ai_ir 🤖⚡
#هوش_مصنوعی #CNN #تسریع #کوانتیزیشن #Pruning #NAS #DeepLearning
👏8🥰7👍6😁6❤5🔥5🎉4
🚀 گوگل از EmbeddingGemma رونمایی کرد؛ یک مدل سبک و اوپنسورس برای ایجاد امبدینگهای متنی.
📌 ویژگی مهم: این مدل را میتوان مستقیم روی موبایل یا لپتاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.
🟢 چه چیزی داخلش هست؟
✳️308 میلیون پارامتر، اما از همه مدلهای زیر 500M در کیفیت بهتر عمل میکند (طبق MTEB)
✳️سرعت بسیار بالا: کمتر از 15 میلیثانیه روی EdgeTPU (برای 256 توکن)
✳️پشتیبانی از بیش از 100 زبان
✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت
✳️پشتیبانی از کانتکست تا 2000 توکن
✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب
🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدلها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
@rss_ai_ir
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
📌 ویژگی مهم: این مدل را میتوان مستقیم روی موبایل یا لپتاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.
🟢 چه چیزی داخلش هست؟
✳️308 میلیون پارامتر، اما از همه مدلهای زیر 500M در کیفیت بهتر عمل میکند (طبق MTEB)
✳️سرعت بسیار بالا: کمتر از 15 میلیثانیه روی EdgeTPU (برای 256 توکن)
✳️پشتیبانی از بیش از 100 زبان
✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت
✳️پشتیبانی از کانتکست تا 2000 توکن
✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب
🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدلها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
@rss_ai_ir
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
❤19🔥19👍18😁17🎉14🥰13👏13🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧐 جستجوی افراد در ویدیو و عکس با چند کلمه توصیفی!
👨🏻💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» میتواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریفشده.
✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزههای امنیت و خردهفروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد میکند.
---
❓ روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگیهای توصیفی دقیق بود فاینتیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاینتیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.
---
┌ 🥵 SigLIP Person Finder
├ 🖥 Demo
├ 🖥 Dataset
└ 🐱 GitHub Repo
@rss_ai_ir
---
🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👨🏻💻 یک مهندس یادگیری عمیق سیستمی طراحی کرده که تنها با یک توضیح ساده مثل «یک مرد با پیراهن سفید و دوچرخه» میتواند افراد را در تصاویر و ویدیوها پیدا کند، بدون نیاز به شناسه (ID) از پیش تعریفشده.
✏️ هدف اصلی پروژه: ارائه راهکاری کاربردی برای حوزههای امنیت و خردهفروشی؛ جاهایی که چنین قابلیتی ارزش عملی بالایی ایجاد میکند.
---
❓ روش کار:
☑️ مدل SigLIP روی یک دیتاست جدید ReID که شامل ویژگیهای توصیفی دقیق بود فاینتیون شده است (توضیحات دیتاست با کمک Gemini تولید شده).
☑️ دیتاست با فرمت FiftyOne آماده شده تا برای هر فرد در زوایا و نماهای مختلف یک ID یکتا تعریف شود (کاربردی برای ReID).
✔️ کل مسیر، از ساخت داده تا فاینتیون و دیپلوی روی HuggingFace به همراه Gradio Demo در یک ریپوی کامل منتشر شده است.
---
┌ 🥵 SigLIP Person Finder
├ 🖥 Demo
├ 🖥 Dataset
└ 🐱 GitHub Repo
@rss_ai_ir
---
🌐 #هوش_مصنوعی #یادگیری_عمیق #DeepLearning #ReID #ComputerVision #AI
👍24🔥21🥰20👏19😁18🎉18❤13
This media is not supported in your browser
VIEW IN TELEGRAM
🩸 مدل پایه برای گلبولهای قرمز خون 🩸
🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبولهای قرمز (RBC).
📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.
💡 انتشار عمومی:
📄 مقاله
💻 کد
🤗 مدلها
⚙️ لایسنس: Apache 2.0
---
🌐 #هوش_مصنوعی #پزشکی #زیستپزشکی #ComputerVision #DeepLearning #RedDino
@rss_ai_ir
🔬 محققان دانشگاه Cagliari مدل RedDino را معرفی کردند؛ یک مدل self-supervised برای تحلیل مورفولوژی گلبولهای قرمز (RBC).
📊 این مدل روی ۱.۲۵ میلیون تصویر گلبول قرمز آموزش دیده و توانسته در تشخیص شکل به رکورد جدید SOTA برسد.
💡 انتشار عمومی:
📄 مقاله
💻 کد
🤗 مدلها
⚙️ لایسنس: Apache 2.0
---
🌐 #هوش_مصنوعی #پزشکی #زیستپزشکی #ComputerVision #DeepLearning #RedDino
@rss_ai_ir
🔥30🎉26❤21👏21🥰20😁19👍14😍8❤🔥8🤩7💯3
🚀 مدل Grok 2.5 حالا روی سیستم شخصی هم قابل اجراست!
🔹 تیم Unsloth نسخهای بهینهشده از مدل را منتشر کرده که اجرای محلی را ممکن میکند:
✅ 270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
✅ حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
✅ لایههای کلیدی در فرمت 8-bit و سایر بخشها با فشردهسازی 3-bit GGUF ذخیره شدهاند.
📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF
@rss_ai_ir
#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
🔹 تیم Unsloth نسخهای بهینهشده از مدل را منتشر کرده که اجرای محلی را ممکن میکند:
✅ 270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
✅ حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
✅ لایههای کلیدی در فرمت 8-bit و سایر بخشها با فشردهسازی 3-bit GGUF ذخیره شدهاند.
📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF
@rss_ai_ir
#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
👍23🥰20🎉20❤16💯14😁12🔥11🤩8👏7😍7❤🔥7
🎯 ۷ گام تا تسلط بر مدلهای زبانی بزرگ (LLM)
تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشهی راه را نشان میدهد؛ از مبانی اولیه تا ساخت اپلیکیشنهای واقعی:
1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)
2️⃣ بررسی معماریهای LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet
3️⃣ پیشتمرین مدلها
🔹 پیشبینی جملهی بعدی
🔹 پیشتمرین متضاد زبان–تصویر (Contrastive Pre-training)
4️⃣ فاینتیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)
5️⃣ تنظیم و پسآموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیحپذیری (Explainability)
6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخها (Relevancy)
7️⃣ ساخت اپلیکیشنهای LLM
🔹 چتباتها
🔹 تولید محتوا
🔹 ترجمهی زبان
---
🌟 اگر این مسیر را دنبال کنید، میتوانید از درک مبانی تا پیادهسازی اپلیکیشنهای پیشرفته مبتنی بر LLM حرکت کنید.
#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI
@rss_ai_ir
تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشهی راه را نشان میدهد؛ از مبانی اولیه تا ساخت اپلیکیشنهای واقعی:
1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)
2️⃣ بررسی معماریهای LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet
3️⃣ پیشتمرین مدلها
🔹 پیشبینی جملهی بعدی
🔹 پیشتمرین متضاد زبان–تصویر (Contrastive Pre-training)
4️⃣ فاینتیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)
5️⃣ تنظیم و پسآموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیحپذیری (Explainability)
6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخها (Relevancy)
7️⃣ ساخت اپلیکیشنهای LLM
🔹 چتباتها
🔹 تولید محتوا
🔹 ترجمهی زبان
---
🌟 اگر این مسیر را دنبال کنید، میتوانید از درک مبانی تا پیادهسازی اپلیکیشنهای پیشرفته مبتنی بر LLM حرکت کنید.
#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI
@rss_ai_ir
😁9👍8🔥8👏8🎉8❤5🥰4🙏1
🧠 SpikingBrain-7B:
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
❤13😍12💯9👍8🔥8🥰6❤🔥6🎉5🤩5👏3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 ویدیوهای انسانمحور با دقت بالا 🐙
محققان دانشگاه Tsinghua و شرکت ByteDance فریمورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگیهای زیر رو داره:
🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریمهای مختلف
🔹 حرکتهای هماهنگشده با صدا (Audio-Driven Motion)
🔹 کنترلپذیری و جزئیات ظریف در خروجی
📌 فریم ورک HuMo میتونه از ورودیهای چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورسکد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.
🔗 لینکها:
👉 Paper
👉 Project
👉 Repo
#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
محققان دانشگاه Tsinghua و شرکت ByteDance فریمورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگیهای زیر رو داره:
🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریمهای مختلف
🔹 حرکتهای هماهنگشده با صدا (Audio-Driven Motion)
🔹 کنترلپذیری و جزئیات ظریف در خروجی
📌 فریم ورک HuMo میتونه از ورودیهای چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورسکد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.
🔗 لینکها:
👉 Paper
👉 Project
👉 Repo
#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
❤12🔥11🥰10👏8👍5🎉5😁4
🚀 Ring-mini-2.0
؛ مدل کوچک اما فوقالعاده قدرتمند!
💡 این مدل با 16B-A1B پارامتر و بهرهگیری از استراتژیهای Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه میدهد.
🧠 در منطق و استدلال، از مدلهای Dense با همین اندازه عملکرد بهتری دارد.
⚡ سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریعتر از مدلهای Dense مشابه).
🔥 نمونهای دیگر از اینکه چگونه مدلهای کوچکتر «Thinking Models» روزبهروز باهوشتر و سریعتر میشوند!
🔗 مشاهده در HuggingFace
@rss_ai_ir
#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
؛ مدل کوچک اما فوقالعاده قدرتمند!
💡 این مدل با 16B-A1B پارامتر و بهرهگیری از استراتژیهای Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه میدهد.
🧠 در منطق و استدلال، از مدلهای Dense با همین اندازه عملکرد بهتری دارد.
⚡ سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریعتر از مدلهای Dense مشابه).
🔥 نمونهای دیگر از اینکه چگونه مدلهای کوچکتر «Thinking Models» روزبهروز باهوشتر و سریعتر میشوند!
🔗 مشاهده در HuggingFace
@rss_ai_ir
#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Vision Transformer (ViT)
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
✳️مدلی در بینایی ماشین که تصویر را به قطعات کوچک تقسیم کرده و مثل متن، با ترنسفورمر پردازش میکند.
✅این روش باعث میشود شبکه بتواند وابستگیهای پیچیدهی پیکسلها را درک کرده و در کارهایی مثل طبقهبندی، تشخیص اشیاء و تولید تصویر عملکردی بیرقیب داشته باشد.
@rss_ai_ir
#VisionTransformer #ViT #AI #DeepLearning #ComputerVision
🎉9👍8🔥8🥰8👏8😁8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدیو، مفاهیم کلیدی یادگیری ماشین بهصورت بصری نمایش داده میشوند. 📊
از جمله:
🔹 نحوه تغییر وزنها در طول آموزش
🔹 روند بهبود Accuracy در هر Epoch
این نوع ویژوالسازیها باعث میشوند درک مفاهیم پیچیدهی یادگیری ماشین سادهتر و عمیقتر شود.
@rss_ai_ir
#MachineLearning #DeepLearning #DataScience #AI #Visualization
از جمله:
🔹 نحوه تغییر وزنها در طول آموزش
🔹 روند بهبود Accuracy در هر Epoch
این نوع ویژوالسازیها باعث میشوند درک مفاهیم پیچیدهی یادگیری ماشین سادهتر و عمیقتر شود.
@rss_ai_ir
#MachineLearning #DeepLearning #DataScience #AI #Visualization
😁12🎉12👍11❤9🔥8🥰7👏4
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 تشخیص چهره با هوش مصنوعی
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
الگوریتمهای Face Recognition با استفاده از شبکههای عصبی کانولوشنی (CNN) میتوانند ویژگیهای منحصر به فرد چهره را استخراج و با یکدیگر مقایسه کنند.
📌 همانطور که در این ویدیو میبینید:
✅تصاویر مختلف از یک فرد (مثلاً در شرایط نوری یا حالات متفاوت) وارد شبکه میشوند.
✅مدل CNN Encoder ویژگیهای کلیدی چهره را به بردار عددی تبدیل میکند.
✅در نهایت، این بردارها با هم مقایسه شده و مشخص میشود که هر دو تصویر متعلق به یک فرد هستند یا خیر.
این تکنیک امروز در کاربردهایی مثل امنیت، کنترل دسترسی، گوشیهای هوشمند و حتی شبکههای اجتماعی استفاده میشود.
👁🗨 آینده سیستمهای بینایی ماشین بدون شک با چنین الگوریتمهایی گره خورده است.
@rss_ai_ir
#AI #FaceRecognition #DeepLearning #ComputerVision #MachineLearning
🥰12❤11🔥11🎉10👏8👍7😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🦠 رهگیری سلول با هوش مصنوعی – بدون نیاز به دادههای برچسبخورده! 🦠
پژوهشگران دانشگاه RWTH یک چارچوب نوآورانه برای Cell Tracking معرفی کردهاند که با ترکیب مدل Segment Anything 2 (SAM2) در پایپلاین رهگیری، میتواند هر سلول را بهصورت Zero-Shot بخشبندی و رهگیری کند 🚀
🔹 نیازی به دادههای آموزشی اختصاصی ندارد.
🔹 دقت بالا در شناسایی و دنبالکردن سلولها در ویدیوهای میکروسکوپی.
🔹 انتشار کد منبع برای جامعهی علمی 💙
📖
📄 مقاله:
https://arxiv.org/pdf/2509.09943
💻 کد منبع:
https://github.com/zhuchen96/sam4celltracking
@rss_ai_ir
#AI #BioAI #CellTracking #SAM2 #DeepLearning #BiomedicalResearch
پژوهشگران دانشگاه RWTH یک چارچوب نوآورانه برای Cell Tracking معرفی کردهاند که با ترکیب مدل Segment Anything 2 (SAM2) در پایپلاین رهگیری، میتواند هر سلول را بهصورت Zero-Shot بخشبندی و رهگیری کند 🚀
🔹 نیازی به دادههای آموزشی اختصاصی ندارد.
🔹 دقت بالا در شناسایی و دنبالکردن سلولها در ویدیوهای میکروسکوپی.
🔹 انتشار کد منبع برای جامعهی علمی 💙
📖
📄 مقاله:
https://arxiv.org/pdf/2509.09943
💻 کد منبع:
https://github.com/zhuchen96/sam4celltracking
@rss_ai_ir
#AI #BioAI #CellTracking #SAM2 #DeepLearning #BiomedicalResearch
🔥15🎉12👍10🥰8😁8👏6❤3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀👽 DAM for SAM2 Tracking 👽🚀
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
🔬 محققان دانشگاه لیوبلیانا ماژول جدیدی به نام Distractor-Aware Memory (DAM) برای SAM2 معرفی کردهاند. این ماژول بهصورت drop-in عمل میکند و باعث:
✅کاهش انحراف ردیابی (tracking drift) به سمت عوامل مزاحم (distractors)
✅بهبود توانایی بازتشخیص (redetection) بعد از انسداد شیء (occlusion)
💎 نتیجه؟ DAM4SAM عملکردی بهتر از SAM2.1 داشته و در ۱۰ بنچمارک مختلف SOTA را ثبت کرده است.
📌 منابع:
👉 Paper
👉 Project Page
👉 GitHub Repo
@rss_ai_ir
#AI #ComputerVision #Tracking #SAM2 #DAM4SAM #DeepLearning #SOTA
😁13👏12❤11👍9🔥8🥰6🎉6🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🌊🐳 SI-SOD: شناسایی سالینسی ناوردا در تصاویر پیچیده
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
🔍 پژوهشگران SI-SOD را معرفی کردند، مدلی برای Invariant Salient Object Detection که در سناریوهایی کار میکند که چندین شیء سالینت با اندازههای بسیار متفاوت در یک تصویر ظاهر میشوند.
⚡ چرا مهم است؟
در تشخیص سالینت، وقتی اشیاء کوچک و بزرگ همزمان حضور دارند، مدلهای سنتی دچار خطا میشوند. SI-SOD با طراحی جدید خود میتواند تمرکز را روی همهی اشیاء حفظ کند و ناوردا عمل کند.
📌 منابع:
📄 مقاله
🌐 پروژه
💻 کد روی GitHub
💙 این ریپو منتشر شده و برای کسانی که روی سالینسی، بینایی ماشین و SOD کار میکنند میتونه ابزار ارزشمندی باشه.
#AI #ComputerVision #SaliencyDetection #SISOD #DeepLearning #CVPR
@rss_ai_ir
❤7😁6🔥5🥰4🎉4👍3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇
⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی میماند.
همچنین در مرحلهی inference از Selective Averaging برای ترکیب پایدار پیشبینیهای مکمل استفاده میکند.
📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متنباز تحت لایسنس Apache در دسترس است.
📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA
@rss_ai_ir
#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
قهرمان چالش LSVOS 🥇
⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی میماند.
همچنین در مرحلهی inference از Selective Averaging برای ترکیب پایدار پیشبینیهای مکمل استفاده میکند.
📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متنباز تحت لایسنس Apache در دسترس است.
📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA
@rss_ai_ir
#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 برنده MOSEv2 Challenge 2025 🏆
🔹 راهکاری کاربردی برای سگمنتیشن پیچیده بر اساس مفهوم جدید Segment Concept (SeC).
این فریمورک مبتنی بر مفهوم، تمرکز را از feature matching سنتی به سمت ساخت تدریجی و بهرهگیری از نمایشهای سطح بالا و شیء-محور جابهجا میکند.
📄 منابع:
مقاله اصلی
مقاله SeC
کد منبع (Apache 2.0)
پروژه
@rss_ai_ir
#هوش_مصنوعی #Segmentation #MOSEv2 #SeC #DeepLearning
🔹 راهکاری کاربردی برای سگمنتیشن پیچیده بر اساس مفهوم جدید Segment Concept (SeC).
این فریمورک مبتنی بر مفهوم، تمرکز را از feature matching سنتی به سمت ساخت تدریجی و بهرهگیری از نمایشهای سطح بالا و شیء-محور جابهجا میکند.
📄 منابع:
مقاله اصلی
مقاله SeC
کد منبع (Apache 2.0)
پروژه
@rss_ai_ir
#هوش_مصنوعی #Segmentation #MOSEv2 #SeC #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سهبعدی است به صورت اوپنسورس منتشر کرد!
🔹 دو متد کلیدی:
P3-SAM —
❌ مدل سگمنتیشن قطعات در فرمت سهبعدی.
X-Part —
❌مدل تولید قطعات با نتایج عالی در کنترلپذیری و کیفیت شکل.
📂 کد: GitHub
📦 وزنها: Hugging Face
🌐 جزئیات بیشتر:
P3-SAM
X-Part
👉 یک گام دیگر برای دسترسپذیرتر شدن پایپلاینهای پیچیده کار با 3D برای جامعه پژوهشگران و توسعهدهندگان.
#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning
@rss_ai_ir
🔹 دو متد کلیدی:
P3-SAM —
❌ مدل سگمنتیشن قطعات در فرمت سهبعدی.
X-Part —
❌مدل تولید قطعات با نتایج عالی در کنترلپذیری و کیفیت شکل.
📂 کد: GitHub
📦 وزنها: Hugging Face
🌐 جزئیات بیشتر:
P3-SAM
X-Part
👉 یک گام دیگر برای دسترسپذیرتر شدن پایپلاینهای پیچیده کار با 3D برای جامعه پژوهشگران و توسعهدهندگان.
#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning
@rss_ai_ir
❤1