VIRSUN
7.93K subscribers
1.36K photos
775 videos
5 files
860 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🔥 بحران انرژیِ هوش مصنوعی جدی‌تر از همیشه شده است

گزارش‌های جدید نشان می‌دهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر می‌رود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.

در چنین شرایطی یک سؤال بنیادین مطرح می‌شود:
کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدل‌های عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟

از سوی دیگر، تصمیم‌های سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابت‌پذیری جهانی
• مهاجرت شرکت‌ها به مناطقی با انرژی ارزان‌تر
• از دست رفتن مشاغل و سرمایه‌گذاری صنعتی

واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدل‌های هوش مصنوعی در حال بلعیدن منابع انرژی‌اند و بحث «توسعه پایدار» بدون درنظرگرفتن آن‌ها عملاً بی‌معناست.

⛔️این تناقض بزرگ سیاست‌گذاری جهانی را آشکار می‌کند:
کشورهایی که برای اقتصادشان محدودیت‌های سنگین وضع کرده‌اند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکت‌های فناوری خارج از مرزهایشان باشند.

@rss_ai_ir
---

🏷 هشتگ‌ها

#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکست‌دهندهٔ بنچمارک‌ها

تنسنت نسخهٔ متن‌باز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدل‌های چندین برابر بزرگ‌تر است. این سیستم به‌صورت End-to-End کار می‌کند و تقریباً همهٔ نیازهای OCR مدرن را پوشش می‌دهد.

برتری در بنچمارک‌ها

امتیاز 860 در OCRBench بین تمام مدل‌های کوچک‌تر از 3B

امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده


🧠 قابلیت‌ها
مدل برای طیف گسترده‌ای از سناریوهای OCR بهینه شده است:

✳️متن محیطی: تابلو، ویترین، بنر، خیابان

✳️دست‌خط و فونت‌های هنری

✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX

✳️زیرنویس ویدیو

✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحله‌ای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.


🔗 لینک‌ها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR

• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@rss_ai_ir
#OCR #مدل_متن‌باز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
🔥1
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بی‌سابقه 🍓

گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که به‌جای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایش‌شده را کنترل می‌کند.

این مدل بر پایه دیفیوشن کار می‌کند و امکان می‌دهد که:
حرکت یک فرد تغییر کند، بدون تغییر ظاهر
سرعت، جهت، یا شدت حرکت اصلاح شود
حرکت کاملاً جدید روی ویدئو اعمال شود
ویدئوهای ادیت‌شده، طبیعی و منسجم باقی بمانند

نتیجه؟
ویدئوهایی با حرکت‌های کاملاً کنترل‌شده، بدون artifacts و بدون پرش‌های عجیب.

🔗 لینک‌ها:

👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (به‌زودی):
https://github.com/RyannDaGreat/MotionV2V

#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
👍1🔥1
@rss_ai_ir

تشخیص تصاویر مصنوعی با گرادیان‌فیلدها — یک روش ساده و شگفت‌انگیز! 💡

در دنیایی که مدل‌های دیفیوشن هر روز واقعی‌تر می‌شوند، پیدا کردن یک روش ساده، سبک و قابل‌توضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را می‌کند 👇

🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:

📸 عکس‌های واقعی

🎨 تصاویر ساخته‌شده با دیفیوشن
به‌دست می‌آید.


🧠 چرا جواب می‌دهد؟

تصاویر واقعی، گرادیان‌هایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.

تصاویر دیفیوشن به‌دلیل فرآیند denoising دارای جزئیات ناپایدار و بافت‌های فرکانس‌بالا هستند که ساختگی بودن را لو می‌دهد.


🧮 مراحل کار (فقط چند قدم ساده):

1. تبدیل RGB → luminance


2. محاسبه spatial gradients


3. تبدیل گرادیان‌ها به ماتریس فلت‌شده


4. محاسبه covariance


5. انجام PCA و مشاهده جداسازی واضح در یک تصویر



🎯 نتیجه
بدون مدل طبقه‌بندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیان‌ها می‌توان به‌راحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بینایی‌ماشین و متخصصان امنیت داده.

#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir

👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و داده‌های بویایی است که امکان یادگیری کراس‌مودال بین بو و بینایی را فراهم می‌کند.
👉 با چراغ خاموش هم شاید «کم‌خطرتر» باشد، اما حالا AI می‌تواند بو را هم بفهمد!
👉 دیتاست در دسترس است.


🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/

#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
STARFlow-V:
نسل تازه مدل‌های ویدئو با Normalizing Flow
@rss_ai_ir 🎥

مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایه‌ی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده می‌شود، اما حالا نتایج فوق‌العاده‌ای نشان داده است.

🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیش‌بینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen

📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow

#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1
🔥 بهترین راهنمای فاین‌تیونینگ که امسال در arXiv می‌بینید!

اگر با مدل‌های زبانی کار می‌کنید—چه مبتدی باشید چه حرفه‌ای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحله‌به‌مرحله و فوق‌العاده منظم برای تسلط بر Fine-Tuning مدرن.

📘 مباحثی که پوشش می‌دهد:

🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه می‌گوید)

⚙️ روش‌های PEFT / LoRA / QLoRA (تکنیک‌های سبک برای آموزش مدل‌های بزرگ روی GPUهای معمولی)

🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد

🧩 پایپلاین ۷ مرحله‌ای برای فاین‌تیونینگ حرفه‌ای

🎯 توصیه‌های عملی، چک‌لیست‌ها و اشتباهاتی که باید از آن‌ها دوری کرد


📄 منبع:
https://arxiv.org/pdf/2408.13296v1

#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv

@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگی‌ها در مدل‌های پایه بینایی (Vision Foundation Models) است — کاملاً به‌صورت Zero-Shot و بدون هیچ‌گونه بازآموزی.
این روش با یادگیری وزن‌های تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپ‌سمپلرهای سنتی ارائه می‌دهد.

🔹 ویژگی‌های کلیدی:

♻️آپ‌سمپل کردن ویژگی‌های VFM بدون نیاز به فاین‌تیون

♻️عملکرد SOTA در طیف گسترده‌ای از وظایف بینایی

♻️کارایی بالا و مناسب برای استفاده در سیستم‌های real-time

♻️قابل استفاده برای مدل‌های مختلف بدون وابستگی به معماری خاص


🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF

#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
1👍1🔥1🥰1
مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاس‌پذیر را به دنیای صدا آورد 🎧🤖

مدل Step-Audio-R1 نقطه‌عطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیاده‌سازی کند.


---

🔥 ویژگی‌های کلیدی

✳️درک عمیق سیگنال صوتی

✳️واکنش در زمان واقعی

✳️زنجیره‌ استدلال مقیاس‌پذیر روی داده‌ صوتی

✳️کاهش شدید خطا و حذف «حدس‌زدن‌های بدون پشتوانه»

---
عملکرد

بهتر از Gemini 2.5 Pro و قابل‌مقایسه با Gemini 3 در بنچمارک‌های پیچیده صوتی

دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash

Time To First Token = فقط 0.92 ثانیه ⏱️

---
🎯 چرا متفاوت است؟

مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده می‌کند.
یعنی ریزونینگ به نشانه‌های واقعی صوتی متصل می‌شود، نه به تخیلات مدل.
به‌صورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده می‌شود» فکر می‌کند، نه براساس متن.

این یعنی:

♻️خطای کمتر
♻️ریزونینگ قابل‌گسترش
♻️کاربردهای جدید برای صدا


---

🔗 لینک‌ها

🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/

📄 مقاله:
https://arxiv.org/abs/2511.15848

🐙 گیت‌هاب:
https://github.com/stepfun-ai/Step-Audio-R1


---

#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍21🔥1
🌟 مدل MedSAM-3؛ نسخه‌ی پزشکی‌شده‌ی SAM 3 با درک زبان طبیعی

🧠 مدل MedSAM-3 تلاش می‌کند قابلیت‌های قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.

در حالی که SAM 3 در تصاویر روزمره عالی عمل می‌کند، اما روی داده‌های پزشکی مشکلات جدی داشت — از جمله اشتباه‌گرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.

مدل MedSAM-3 دقیقاً همین شکاف را پر می‌کند:
💬 پزشک فقط می‌نویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا می‌کند.


---

🔧 نحوهٔ آموزش مدل

برای دقت بالا در پزشکی، چنین کاری انجام شده:

انکودرهای تصویر و متن منجمد شده‌اند تا توان اصلی SAM 3 حفظ شود

قسمت‌های مربوط به دیتکتور با SFT روی دیتاست‌های پزشکی آموزش دیده‌اند

نتیجه: مدل هویت اصلی SAM 3 را حفظ می‌کند، اما زبان و ساختار پزشکی را هم می‌فهمد



---

📊 نتایج و عملکرد

بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:

جلو بزند از U-Net

جلو بزند از MedSAM نسخه اول

دست‌یابی به:

Dice = 0.7772 روی BUSI

Dice = 0.8064 با کمک Agent و Gemini 3 Pro



این نتایج در پزشکی خیلی قوی محسوب می‌شوند.


---

🤖 مدل Agent هوشمند MedSAM-3

یک ابزار جذاب همراه مدل عرضه شده:

✳️برنامه‌ریز هوشمند با Gemini 3 Pro

✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات

✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیق‌تر

✳️افزایش محسوس دقت (Dice)


✳️این یعنی ورود جدی مدل‌های Vision-Language-Agent به پزشکی.


---

📌 وضعیت انتشار

مدل فعلاً در قالب Tech Report منتشر شده، اما توسعه‌دهندگان قول داده‌اند کد و وزن‌ها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.

https://arxiv.org/pdf/2511.19046

https://github.com/Joey-S-Liu/MedSAM3

---

@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متن‌باز برای GUI-Agent ها

یک خبر مهم برای دنیای ایجنت‌ها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متن‌باز برای سیستم‌های سطح بالایی مثل GUI-Agent MCP محسوب می‌شود. نسخه‌ای سبک، سریع و قابل اجرا به‌صورت کامل روی سیستم شخصی شما 🚀

🔧 چه چیزهایی داخلش هست؟

مدل ۴B در سطح SOTA؛ سریع، کم‌هزینه و قابل اجرا روی GPUهای سبک

زیرساخت راه‌اندازی «تک‌کلیک» بدون دردسرهای ADB

بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران


📊 نتایج و عملکرد

دقت ۷۳.۴٪ روی AndroidDaily

عملکرد بهتر از مدل‌های بزرگ‌تری مثل GUI-Owl-32B

بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تست‌های GUI

برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld


🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصی‌سازی کن، و توسعه بده — بالاخره یک گزینهٔ متن‌باز واقعی برای GUI-Agent ها در دسترس است.

🔗 لینک‌ها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html

#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
2
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سه‌بعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir

یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطه‌های سه‌بعدی مشخص می‌شود و مدل می‌تواند بر اساس همین مسیر:

حرکت دوربین و سوژه را هم‌زمان کنترل کند
اشیای ناخواسته را حذف کند
حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند

مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سه‌بعدی بدون نیاز به ویرایش پیچیدهٔ فریم‌به‌فریم.


🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/

#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 نسخه جدید نسل‌ساز ویدیو Runway — مدل قدرتمند Gen-4.5 معرفی شد

🚀 ارتقای مهمی در کیفیت و کنترل‌پذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفاف‌تر، حرکت واقع‌گرایانه‌تر و انطباق دقیق‌تری با متن ایجاد می‌کند.

بهبودهای کلیدی:

♻️جزئیات تصویری بسیار تمیزتر و واضح‌تر

♻️حرکت‌های طبیعی‌تر انسان و اشیا

♻️نورپردازی و فیزیک بهتر، بدون artifacts

♻️هماهنگی عالی با پرامپت، حتی در صحنه‌های پیچیده و سریع

♻️کنترل‌های پیشرفته برای دوربین، حرکت، ترکیب‌بندی و صدا


🎞️ قابلیت‌ها:

Image-to-Video

Video-to-Video

Keyframes

کنترل کامل حرکت دوربین


📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبه‌بندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدل‌های ویدیویی فعلی قرار گرفته است.

🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/

@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 زیباترین تصویری که تا امروز از «درون ذهن یک مدل زبانی» دیده‌ایم!

در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر می‌کند؟» — این بهترین و دقیق‌ترین بصری‌سازی از فرایند محاسباتی یک LLM است. یک پرواز سه‌بعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.

چه چیزی را می‌بینیم؟

هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.

هر لایه دقیقاً نشان می‌دهد که چه عملی انجام می‌شود:
Attention, Projection, Normalization, MLP

با کلیک روی پنل سمت راست می‌توانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی می‌رود.

تجربه‌اش مثل این است که داخل یک فکر قدم می‌زنید.


و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیل‌های پی‌درپی، تنسورها و لایه‌هایی که معنا را شکل می‌دهند.

⚪️ @rss_ai_ir

#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
👍4👎1🔥1
مدل CauSight؛ مدل نوینی که علّیت را در تصویر کشف می‌کند 🧠📸

مدل CauSight نسل جدیدی از VLMهاست که می‌تواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سه‌برابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.

🔍 قابلیت‌ها

استخراج روابط علّی بین اشیاء و رویدادها

استنتاج دلیل رخدادها، نه فقط توصیف تصویر

پشتیبانی کامل از وظایف visual causal reasoning


📄 لینک‌ها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K

@rss_ai_ir

#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels