This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
🎸 Another BRIXEL in the Wall 🎸
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍14❤13🎉11😁10🔥9🥰8👏7
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir
🔥مدل SAM 3 / SAM 3D رسماً منتشر شد! 🔥
متا خانوادهی SAM 3 را معرفی کرد — یک مدل یکپارچه برای Detection، Segmentation و Tracking اشیاء در تصاویر و ویدیو با استفاده از:
🟦 متن
🟦 نمونه (Exemplar)
🟦 پرامپتهای بصری
این نسخه ادامهی مسیر Segment Anything است، اما اینبار سهبعدی، دقیقتر، سریعتر و چندمنظورهتر.
📌 مدلها و ریپو تحت مجوز اختصاصی SAM منتشر شدهاند.
---
✨ چرا SAM 3 مهم است؟
✳️یک مدل واحد برای تمام وظایف سگمنتیشن
✳️پشتیبانی از ویدیو + دنبالکردن اشیا
✳️ورودیهای چندنوعی (text / exemplar / visual prompt)
✳️نسخهی 3D برای کاربردهای حرفهایتر—رباتیک، AR/VR، مهندسی، پزشکی
---
🔗 لینکهای مهم
📄 Paper: https://t.ly/5tq9N
🌐 Project: https://ai.meta.com/sam3/
🎛 Demo: https://segment-anything.com
💻 Repo: https://github.com/facebookresearch/sam3
---
مدل SAM دوباره استانداردهای سگمنتیشن و درک صحنه را جابهجا کرد.
منتظر کاربردهای انفجاری در رباتیک، ویدیو، مدیا و دیجیتال توین باشید!
#SAM3 #Segmentation #ComputerVision #MetaAI
@rss_ai_ir
🔥مدل SAM 3 / SAM 3D رسماً منتشر شد! 🔥
متا خانوادهی SAM 3 را معرفی کرد — یک مدل یکپارچه برای Detection، Segmentation و Tracking اشیاء در تصاویر و ویدیو با استفاده از:
🟦 متن
🟦 نمونه (Exemplar)
🟦 پرامپتهای بصری
این نسخه ادامهی مسیر Segment Anything است، اما اینبار سهبعدی، دقیقتر، سریعتر و چندمنظورهتر.
📌 مدلها و ریپو تحت مجوز اختصاصی SAM منتشر شدهاند.
---
✨ چرا SAM 3 مهم است؟
✳️یک مدل واحد برای تمام وظایف سگمنتیشن
✳️پشتیبانی از ویدیو + دنبالکردن اشیا
✳️ورودیهای چندنوعی (text / exemplar / visual prompt)
✳️نسخهی 3D برای کاربردهای حرفهایتر—رباتیک، AR/VR، مهندسی، پزشکی
---
🔗 لینکهای مهم
📄 Paper: https://t.ly/5tq9N
🌐 Project: https://ai.meta.com/sam3/
🎛 Demo: https://segment-anything.com
💻 Repo: https://github.com/facebookresearch/sam3
---
مدل SAM دوباره استانداردهای سگمنتیشن و درک صحنه را جابهجا کرد.
منتظر کاربردهای انفجاری در رباتیک، ویدیو، مدیا و دیجیتال توین باشید!
#SAM3 #Segmentation #ComputerVision #MetaAI
@rss_ai_ir
🍕 Upsample Anything —
آپسمپلکننده یونیورسال بدون نیاز به آموزش 🍕
مدل Upsample Anything یک روش جدید و بدون نیاز به آموزش برای بزرگکردن هر نوع تصویر، ویدیو یا داده تصویری است.
این روش با یک بهینهسازی بسیار سبک در زمان اجرا کار میکند و نیاز به مدلهای سنگین یا دیتاستهای بزرگ ندارد.
🔍 برای کسانی که با سوپررزولوشن کار میکنند، این مقاله ارزش دیدن دارد.
📑 Paper:
https://lnkd.in/dsUfdtih
@rss_ai_ir
#Upsample #ImageAI #SuperResolution #ComputerVision #AI
آپسمپلکننده یونیورسال بدون نیاز به آموزش 🍕
مدل Upsample Anything یک روش جدید و بدون نیاز به آموزش برای بزرگکردن هر نوع تصویر، ویدیو یا داده تصویری است.
این روش با یک بهینهسازی بسیار سبک در زمان اجرا کار میکند و نیاز به مدلهای سنگین یا دیتاستهای بزرگ ندارد.
🔍 برای کسانی که با سوپررزولوشن کار میکنند، این مقاله ارزش دیدن دارد.
📑 Paper:
https://lnkd.in/dsUfdtih
@rss_ai_ir
#Upsample #ImageAI #SuperResolution #ComputerVision #AI
❤1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 معرفی EfficientSAM3 – نسل تازه مدلهای سبک و قدرتمند در سگمنتیشن
دانشگاه بریستول خانوادهی EfficientSAM3 را معرفی کرده است؛ مجموعهای از مدلهای سبک و پرسرعت که با روش نوآورانهی Progressive Hierarchical Distillation (PHD) آموزش دیدهاند.
در این روش، تواناییهای مدل بزرگ SAM3 به مدلهای کوچکتر منتقل میشود؛ نتیجهی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاههای کمقدرت و کاربردهای صنعتی
کد پروژه همزمان با انتشار رسمی SAM3 در راه است.
🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3
@rss_ai_ir
---
#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
دانشگاه بریستول خانوادهی EfficientSAM3 را معرفی کرده است؛ مجموعهای از مدلهای سبک و پرسرعت که با روش نوآورانهی Progressive Hierarchical Distillation (PHD) آموزش دیدهاند.
در این روش، تواناییهای مدل بزرگ SAM3 به مدلهای کوچکتر منتقل میشود؛ نتیجهی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاههای کمقدرت و کاربردهای صنعتی
کد پروژه همزمان با انتشار رسمی SAM3 در راه است.
🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3
@rss_ai_ir
---
#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
🙏2❤1🕊1
✨ مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتارشده
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
@rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
❤5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Seeing without Pixels —
دیدن بدون پیکسلها! 🔥
@rss_ai_ir 👁️🗨️🤖
⛔️آیا میشود محتوای یک ویدئو را بدون دیدن حتی یک پیکسل فقط از مسیر حرکت دوربین حدس زد؟
پژوهش تازهٔ DeepMind و دانشگاه تگزاس برای اولین بار این سؤال غیرممکنبهنظر را بهصورت علمی بررسی کرده است.
🔗 Paper: arxiv.org/pdf/2511.21681
🔗 Project: sites.google.com/view/seeing-without-pixels
#AI #Deepmind #ComputerVision #Research @rss_ai_ir
دیدن بدون پیکسلها! 🔥
@rss_ai_ir 👁️🗨️🤖
⛔️آیا میشود محتوای یک ویدئو را بدون دیدن حتی یک پیکسل فقط از مسیر حرکت دوربین حدس زد؟
پژوهش تازهٔ DeepMind و دانشگاه تگزاس برای اولین بار این سؤال غیرممکنبهنظر را بهصورت علمی بررسی کرده است.
🔗 Paper: arxiv.org/pdf/2511.21681
🔗 Project: sites.google.com/view/seeing-without-pixels
#AI #Deepmind #ComputerVision #Research @rss_ai_ir
❤1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering ✨
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
❤1👍1🔥1🥰1
🌟 مدل MedSAM-3؛ نسخهی پزشکیشدهی SAM 3 با درک زبان طبیعی
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵
👉 فریمورک InstanceV اولین فریمورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه میدهد هر شیء در ویدئو بهصورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شدهاند 💙
🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: بهزودی
#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👉 فریمورک InstanceV اولین فریمورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه میدهد هر شیء در ویدئو بهصورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شدهاند 💙
🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: بهزودی
#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سهبعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Vision Bridge Transformer at Scale —
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟