VIRSUN
10.8K subscribers
1.2K photos
716 videos
5 files
789 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀

پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایت‌شده با دوربین را به‌صورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم می‌کند — جایگزینی نوآورانه برای روش‌های سنتی video length extrapolation. 🎥

ویژگی‌های کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیین‌شده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریم‌ها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متن‌باز و قابل استفاده در پروژه‌های تحقیقاتی یا صنعتی

📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورس‌کد:
github.com/andrewsonga/generative_view_stitching

🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقع‌گرایانه با کنترل دقیق دوربین است — دنیای فیلم‌سازی و شبیه‌سازی ۳D را هوشمندتر از همیشه می‌سازد.

@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطه‌ای مولد با Flow Matching (GenPT) 🧷

🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدل‌سازی تراژکتوری‌های چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را به‌صورت هم‌زمان بیاموزد و بازسازی کند 🎯

این مدل با استفاده از روش Flow Matching (FM)، یاد می‌گیرد تا الگوهای حرکت پیچیده را در داده‌های ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه می‌شوند عملکردی پایدار و دقیق دارد 🔍📸

---

📘 ویژگی‌های کلیدی:
• مدل مولد (Generative) برای پیش‌بینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدل‌های CNN سنتی در بنچمارک‌های PointOdyssey، Dynamic Replica و TAP-Vid
• پیاده‌سازی متن‌باز با مجوز MIT 🔵

---

🔗 لینک‌ها:
📘 مقاله:
arxiv.org/pdf/2510.20951

🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/

💾 ریپازیتوری:
github.com/tesfaldet/genpt

📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄

تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانه‌ای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایش‌های مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀


---

⚙️ ویژگی‌های برجسته

پشتیبانی از ۴۰ زبان مختلف 🌍

✳️تشخیص دقیق فرمول‌ها، متون دست‌نویس، و اسناد تاریخی ✍️

✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)

✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشته‌های رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮



---

🎥 دمو آنلاین:
🔗 Datalab Playground

💻 کد منبع:
🔗 GitHub – datalab-to/chandra


---

♻️مدل Chandra با ترکیب OCR کلاسیک، مدل‌های بینایی-زبانی و معماری سبک‌وزن Transformer،
به یکی از دقیق‌ترین ابزارهای دیجیتال‌سازی اسناد تاریخی و دست‌نویس‌های علمی تبدیل شده است.

📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪

📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییرات‌شان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگی‌های فیزیکی آن‌ها.

مدل می‌تواند:

♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛

♻️تغییر حالت را توصیف و طبقه‌بندی نماید؛

♻️از داده‌های واقعی و شبیه‌سازی برای درک پویایی‌های فیزیکی استفاده کند.


🔍 منابع باز و آماده تست:

📄 Paper: lnkd.in/d4pA3bXJ

🌐 Project: lnkd.in/dgbNfCuj

💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph

📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼

محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کرده‌اند — یک نمایش ویژگی چندوظیفه‌ای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را به‌صورت بردارهای فشرده (Embedding) نمایش دهد.

🧠 ایده‌ی کلیدی:
به‌جای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل می‌کند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنه‌های پویا می‌شود.

💡 ویژگی‌ها:

♻️دقت بالا در پیش‌بینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone


📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat

#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند


🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»


🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما


📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)


📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571


#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍1413🎉11😁10🔥9🥰8👏7
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🔥مدل SAM 3 / SAM 3D رسماً منتشر شد! 🔥
متا خانواده‌ی SAM 3 را معرفی کرد — یک مدل یکپارچه برای Detection، Segmentation و Tracking اشیاء در تصاویر و ویدیو با استفاده از:
🟦 متن
🟦 نمونه (Exemplar)
🟦 پرامپت‌های بصری

این نسخه ادامه‌ی مسیر Segment Anything است، اما این‌بار سه‌بعدی، دقیق‌تر، سریع‌تر و چندمنظوره‌تر.
📌 مدل‌ها و ریپو تحت مجوز اختصاصی SAM منتشر شده‌اند.


---

چرا SAM 3 مهم است؟

✳️یک مدل واحد برای تمام وظایف سگمنتیشن
✳️پشتیبانی از ویدیو + دنبال‌کردن اشیا

✳️ورودی‌های چندنوعی (text / exemplar / visual prompt)
✳️نسخه‌ی 3D برای کاربردهای حرفه‌ای‌تر—رباتیک، AR/VR، مهندسی، پزشکی



---

🔗 لینک‌های مهم

📄 Paper: https://t.ly/5tq9N
🌐 Project: https://ai.meta.com/sam3/
🎛 Demo: https://segment-anything.com
💻 Repo: https://github.com/facebookresearch/sam3


---

مدل SAM دوباره استانداردهای سگمنتیشن و درک صحنه را جابه‌جا کرد.
منتظر کاربردهای انفجاری در رباتیک، ویدیو، مدیا و دیجیتال توین باشید!

#SAM3 #Segmentation #ComputerVision #MetaAI
@rss_ai_ir
🍕 Upsample Anything —
آپ‌سمپل‌کننده یونیورسال بدون نیاز به آموزش 🍕

مدل Upsample Anything یک روش جدید و بدون نیاز به آموزش برای بزرگ‌کردن هر نوع تصویر، ویدیو یا داده تصویری است.
این روش با یک بهینه‌سازی بسیار سبک در زمان اجرا کار می‌کند و نیاز به مدل‌های سنگین یا دیتاست‌های بزرگ ندارد.

🔍 برای کسانی که با سوپررزولوشن کار می‌کنند، این مقاله ارزش دیدن دارد.


📑 Paper:
https://lnkd.in/dsUfdtih

@rss_ai_ir
#Upsample #ImageAI #SuperResolution #ComputerVision #AI
1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 معرفی EfficientSAM3 – نسل تازه مدل‌های سبک و قدرتمند در سگمنتیشن

دانشگاه بریستول خانواده‌ی EfficientSAM3 را معرفی کرده است؛ مجموعه‌ای از مدل‌های سبک و پرسرعت که با روش نوآورانه‌ی Progressive Hierarchical Distillation (PHD) آموزش دیده‌اند.
در این روش، توانایی‌های مدل بزرگ SAM3 به مدل‌های کوچک‌تر منتقل می‌شود؛ نتیجه‌ی آن:
🔹 دقت بالا
🔹 سرعت بیشتر
🔹 مناسب برای دستگاه‌های کم‌قدرت و کاربردهای صنعتی

کد پروژه هم‌زمان با انتشار رسمی SAM3 در راه است.


🔗 Paper: arxiv.org/pdf/2511.15833
🔗 Project: simonzeng7108.github.io/efficientsam3/
🔗 Repo: github.com/SimonZeng7108/efficientsam3

@rss_ai_ir
---

#هوش_مصنوعی #سگمنتیشن #ComputerVision
#EfficientSAM3 #SAM3 #دیپ_لرنینگ
#AI #ML #VisionModels #PHD
#مدل_سبک #مدل_کارا #پردازش_تصویر
🙏21🕊1
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
@rss_ai_ir

تشخیص تصاویر مصنوعی با گرادیان‌فیلدها — یک روش ساده و شگفت‌انگیز! 💡

در دنیایی که مدل‌های دیفیوشن هر روز واقعی‌تر می‌شوند، پیدا کردن یک روش ساده، سبک و قابل‌توضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را می‌کند 👇

🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:

📸 عکس‌های واقعی

🎨 تصاویر ساخته‌شده با دیفیوشن
به‌دست می‌آید.


🧠 چرا جواب می‌دهد؟

تصاویر واقعی، گرادیان‌هایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.

تصاویر دیفیوشن به‌دلیل فرآیند denoising دارای جزئیات ناپایدار و بافت‌های فرکانس‌بالا هستند که ساختگی بودن را لو می‌دهد.


🧮 مراحل کار (فقط چند قدم ساده):

1. تبدیل RGB → luminance


2. محاسبه spatial gradients


3. تبدیل گرادیان‌ها به ماتریس فلت‌شده


4. محاسبه covariance


5. انجام PCA و مشاهده جداسازی واضح در یک تصویر



🎯 نتیجه
بدون مدل طبقه‌بندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیان‌ها می‌توان به‌راحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بینایی‌ماشین و متخصصان امنیت داده.

#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
4👍1🔥1