VIRSUN
7.92K subscribers
1.36K photos
775 videos
5 files
860 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄

تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانه‌ای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایش‌های مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀


---

⚙️ ویژگی‌های برجسته

پشتیبانی از ۴۰ زبان مختلف 🌍

✳️تشخیص دقیق فرمول‌ها، متون دست‌نویس، و اسناد تاریخی ✍️

✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)

✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشته‌های رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮



---

🎥 دمو آنلاین:
🔗 Datalab Playground

💻 کد منبع:
🔗 GitHub – datalab-to/chandra


---

♻️مدل Chandra با ترکیب OCR کلاسیک، مدل‌های بینایی-زبانی و معماری سبک‌وزن Transformer،
به یکی از دقیق‌ترین ابزارهای دیجیتال‌سازی اسناد تاریخی و دست‌نویس‌های علمی تبدیل شده است.

📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪

📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییرات‌شان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگی‌های فیزیکی آن‌ها.

مدل می‌تواند:

♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛

♻️تغییر حالت را توصیف و طبقه‌بندی نماید؛

♻️از داده‌های واقعی و شبیه‌سازی برای درک پویایی‌های فیزیکی استفاده کند.


🔍 منابع باز و آماده تست:

📄 Paper: lnkd.in/d4pA3bXJ

🌐 Project: lnkd.in/dgbNfCuj

💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph

📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼

محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کرده‌اند — یک نمایش ویژگی چندوظیفه‌ای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را به‌صورت بردارهای فشرده (Embedding) نمایش دهد.

🧠 ایده‌ی کلیدی:
به‌جای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل می‌کند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنه‌های پویا می‌شود.

💡 ویژگی‌ها:

♻️دقت بالا در پیش‌بینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone


📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat

#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند


🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»


🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما


📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)


📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571


#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍1413🎉11😁10🔥9🥰8👏7
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🔥مدل SAM 3 / SAM 3D رسماً منتشر شد! 🔥
متا خانواده‌ی SAM 3 را معرفی کرد — یک مدل یکپارچه برای Detection، Segmentation و Tracking اشیاء در تصاویر و ویدیو با استفاده از:
🟦 متن
🟦 نمونه (Exemplar)
🟦 پرامپت‌های بصری

این نسخه ادامه‌ی مسیر Segment Anything است، اما این‌بار سه‌بعدی، دقیق‌تر، سریع‌تر و چندمنظوره‌تر.
📌 مدل‌ها و ریپو تحت مجوز اختصاصی SAM منتشر شده‌اند.


---

چرا SAM 3 مهم است؟

✳️یک مدل واحد برای تمام وظایف سگمنتیشن
✳️پشتیبانی از ویدیو + دنبال‌کردن اشیا

✳️ورودی‌های چندنوعی (text / exemplar / visual prompt)
✳️نسخه‌ی 3D برای کاربردهای حرفه‌ای‌تر—رباتیک، AR/VR، مهندسی، پزشکی



---

🔗 لینک‌های مهم

📄 Paper: https://t.ly/5tq9N
🌐 Project: https://ai.meta.com/sam3/
🎛 Demo: https://segment-anything.com
💻 Repo: https://github.com/facebookresearch/sam3


---

مدل SAM دوباره استانداردهای سگمنتیشن و درک صحنه را جابه‌جا کرد.
منتظر کاربردهای انفجاری در رباتیک، ویدیو، مدیا و دیجیتال توین باشید!

#SAM3 #Segmentation #ComputerVision #MetaAI
@rss_ai_ir
🍕 Upsample Anything —
آپ‌سمپل‌کننده یونیورسال بدون نیاز به آموزش 🍕

مدل Upsample Anything یک روش جدید و بدون نیاز به آموزش برای بزرگ‌کردن هر نوع تصویر، ویدیو یا داده تصویری است.
این روش با یک بهینه‌سازی بسیار سبک در زمان اجرا کار می‌کند و نیاز به مدل‌های سنگین یا دیتاست‌های بزرگ ندارد.

🔍 برای کسانی که با سوپررزولوشن کار می‌کنند، این مقاله ارزش دیدن دارد.


📑 Paper:
https://lnkd.in/dsUfdtih

@rss_ai_ir
#Upsample #ImageAI #SuperResolution #ComputerVision #AI
1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 معرفی EfficientSAM3 – نسل تازه مدل‌های سبک و قدرتمند در سگمنتیشن

دانشگاه بریستول خانواده‌ی EfficientSAM3 را معرفی کرده است؛ مجموعه‌ای از مدل‌های سبک و پرسرعت که با روش نوآورانه‌ی Progressive Hierarchical Distillation (PHD) آموزش دیده‌اند.
در این روش، توانایی‌های مدل بزرگ SAM3 به مدل‌های کوچک‌تر منتقل می‌شود؛ نتیجه‌ی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاه‌های کم‌قدرت و کاربردهای صنعتی

کد پروژه هم‌زمان با انتشار رسمی SAM3 در راه است.


🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3

@rss_ai_ir
---

#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
🙏21🕊1
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
@rss_ai_ir

تشخیص تصاویر مصنوعی با گرادیان‌فیلدها — یک روش ساده و شگفت‌انگیز! 💡

در دنیایی که مدل‌های دیفیوشن هر روز واقعی‌تر می‌شوند، پیدا کردن یک روش ساده، سبک و قابل‌توضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را می‌کند 👇

🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:

📸 عکس‌های واقعی

🎨 تصاویر ساخته‌شده با دیفیوشن
به‌دست می‌آید.


🧠 چرا جواب می‌دهد؟

تصاویر واقعی، گرادیان‌هایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.

تصاویر دیفیوشن به‌دلیل فرآیند denoising دارای جزئیات ناپایدار و بافت‌های فرکانس‌بالا هستند که ساختگی بودن را لو می‌دهد.


🧮 مراحل کار (فقط چند قدم ساده):

1. تبدیل RGB → luminance


2. محاسبه spatial gradients


3. تبدیل گرادیان‌ها به ماتریس فلت‌شده


4. محاسبه covariance


5. انجام PCA و مشاهده جداسازی واضح در یک تصویر



🎯 نتیجه
بدون مدل طبقه‌بندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیان‌ها می‌توان به‌راحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بینایی‌ماشین و متخصصان امنیت داده.

#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Seeing without Pixels —
دیدن بدون پیکسل‌ها! 🔥
@rss_ai_ir 👁️‍🗨️🤖

⛔️آیا می‌شود محتوای یک ویدئو را بدون دیدن حتی یک پیکسل فقط از مسیر حرکت دوربین حدس زد؟
پژوهش تازهٔ DeepMind و دانشگاه تگزاس برای اولین بار این سؤال غیرممکن‌به‌نظر را به‌صورت علمی بررسی کرده است.
🔗 Paper: arxiv.org/pdf/2511.21681
🔗 Project: sites.google.com/view/seeing-without-pixels

#AI #Deepmind #ComputerVision #Research @rss_ai_ir
1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگی‌ها در مدل‌های پایه بینایی (Vision Foundation Models) است — کاملاً به‌صورت Zero-Shot و بدون هیچ‌گونه بازآموزی.
این روش با یادگیری وزن‌های تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپ‌سمپلرهای سنتی ارائه می‌دهد.

🔹 ویژگی‌های کلیدی:

♻️آپ‌سمپل کردن ویژگی‌های VFM بدون نیاز به فاین‌تیون

♻️عملکرد SOTA در طیف گسترده‌ای از وظایف بینایی

♻️کارایی بالا و مناسب برای استفاده در سیستم‌های real-time

♻️قابل استفاده برای مدل‌های مختلف بدون وابستگی به معماری خاص


🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF

#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
1👍1🔥1🥰1
🌟 مدل MedSAM-3؛ نسخه‌ی پزشکی‌شده‌ی SAM 3 با درک زبان طبیعی

🧠 مدل MedSAM-3 تلاش می‌کند قابلیت‌های قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.

در حالی که SAM 3 در تصاویر روزمره عالی عمل می‌کند، اما روی داده‌های پزشکی مشکلات جدی داشت — از جمله اشتباه‌گرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.

مدل MedSAM-3 دقیقاً همین شکاف را پر می‌کند:
💬 پزشک فقط می‌نویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا می‌کند.


---

🔧 نحوهٔ آموزش مدل

برای دقت بالا در پزشکی، چنین کاری انجام شده:

انکودرهای تصویر و متن منجمد شده‌اند تا توان اصلی SAM 3 حفظ شود

قسمت‌های مربوط به دیتکتور با SFT روی دیتاست‌های پزشکی آموزش دیده‌اند

نتیجه: مدل هویت اصلی SAM 3 را حفظ می‌کند، اما زبان و ساختار پزشکی را هم می‌فهمد



---

📊 نتایج و عملکرد

بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:

جلو بزند از U-Net

جلو بزند از MedSAM نسخه اول

دست‌یابی به:

Dice = 0.7772 روی BUSI

Dice = 0.8064 با کمک Agent و Gemini 3 Pro



این نتایج در پزشکی خیلی قوی محسوب می‌شوند.


---

🤖 مدل Agent هوشمند MedSAM-3

یک ابزار جذاب همراه مدل عرضه شده:

✳️برنامه‌ریز هوشمند با Gemini 3 Pro

✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات

✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیق‌تر

✳️افزایش محسوس دقت (Dice)


✳️این یعنی ورود جدی مدل‌های Vision-Language-Agent به پزشکی.


---

📌 وضعیت انتشار

مدل فعلاً در قالب Tech Report منتشر شده، اما توسعه‌دهندگان قول داده‌اند کد و وزن‌ها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.

https://arxiv.org/pdf/2511.19046

https://github.com/Joey-S-Liu/MedSAM3

---

@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵

👉 فریمورک InstanceV اولین فریم‌ورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه می‌دهد هر شیء در ویدئو به‌صورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شده‌اند 💙


🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: به‌زودی

#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سه‌بعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir

یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطه‌های سه‌بعدی مشخص می‌شود و مدل می‌تواند بر اساس همین مسیر:

حرکت دوربین و سوژه را هم‌زمان کنترل کند
اشیای ناخواسته را حذف کند
حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند

مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سه‌بعدی بدون نیاز به ویرایش پیچیدهٔ فریم‌به‌فریم.


🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/

#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
Vision Bridge Transformer at Scale —
خلاصه و معرفی

📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگ‌مقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژن‌ها که فرآیند چندمرحله‌ای دارند، ورودی را به‌صورت مستقیم به خروجی ترجمه می‌کند و به همین دلیل سریع، پایدار و مقیاس‌پذیر است.

🔍 ویژگی‌های کلیدی:

♻️معماری جدید برای مدل‌سازی «trajectory» بین ورودی و خروجی

♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیل‌های پیچیده

♻️مقیاس‌پذیر تا میلیاردها پارامتر

♻️کیفیت بالا در ویرایش صحنه‌های چندلایه و حفظ یکپارچگی بصری


📄 لینک‌ها:

arXiv: https://arxiv.org/abs/2511.23199

PDF: https://arxiv.org/pdf/2511.23199

Project: https://yuanshi9815.github.io/ViBT_homepage/

GitHub: https://github.com/Yuanshi9815/ViBT

Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT


==============================
@rss_ai_ir

#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟