VIRSUN
7.2K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 معرفی یک مدل چندوجهی یکپارچه از META

یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.

در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار می‌گیرد و نتیجه آن یک فضای واحد است که اجازه می‌دهد مدل‌ها به‌صورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آن‌ها عمل کنند — با کیفیت در حد مدل‌های SOTA.

کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شده‌اند و مسیر توسعه روشن است.


🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna

#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
🔥 نسخه Transformers v5 منتشر شد!

جامعهٔ هوش مصنوعی امروز شاهد یک جهش بزرگ بود. نسخهٔ جدید Transformers v5 از Hugging Face رسماً عرضه شد و حالا تبدیل به ستون اصلی اکوسیستم متن‌باز در مدل‌های بزرگ شده است.

📈 رشد اکوسیستم در چند سال اخیر واقعاً خیره‌کننده بوده:

📦 از ۲۰هزار به ۳ میلیون نصب روزانه

🧠 از ۴۰ معماری پشتیبانی‌شده به ۴۰۰+

🗃️ بیش از ۷۵۰هزار چک‌پوینت

🌍 بیش از ۱.۲ میلیارد نصب تجمعی


مهم‌ترین تغییرات نسخهٔ جدید:

♻️معماری کاملاً مبتنی بر PyTorch
♻️طراحی ماژولار و قابل‌گسترش
♻️رویکرد «quantization-first» برای کارایی بالاتر
♻️همچنین Transformers Serve سازگار با APIهای OpenAI


این نسخه آغاز یک مرحلهٔ تازه در آیندهٔ مدل‌های متن‌باز است.
https://huggingface.co/blog/transformers-v5

#Transformers #HuggingFace #AI #DeepLearning #ML #PyTorch #LLM 🚀
4👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
World Models That Know When They Don't Know

@rss_ai_ir

در دنیای مدل‌سازی ویدیو، یکی از بزرگ‌ترین مشکلات توهم‌زایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه می‌دهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمی‌داند، بداند که نمی‌داند! 🤯🎥
---
🔍 حال C3 چیست؟

اینکه C3 یک روش کمی‌سازی عدم‌قطعیت (Uncertainty Quantification) برای مدل‌های تولید ویدیو است. این روش کمک می‌کند مدل:

🎯 اعتمادپذیری پیکسل‌به‌پیکسل ارائه دهد (Dense Confidence Estimation)

🚨 ورودی‌های خارج از توزیع (OOD) را تشخیص دهد

🛑 توهمات ویدئویی را کاهش دهد

🎮 تولید ویدیو را تحت کنترل دقیق‌تری قرار دهد


به بیان ساده:
مدل فقط تولید نمی‌کند؛ به شما می‌گوید کجا احتمال اشتباه دارد! 🤝

---
💡 چرا مهم است؟

در کاربردهایی مثل خودران‌ها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک می‌کند که مدل‌های ویدیویی به جای تولید بی‌محابا، رفتار مسئولانه‌تری داشته باشند.
---

🔗 لینک‌ها

📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگ‌ها

#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
مدل SCAIL: گام تازه‌ای به سوی انیمیشن شخصیت در سطح استودیو
@rss_ai_ir

📝 خلاصه:
چارچوب SCAIL کیفیت انیمیشن شخصیت را تا سطح استودیو ارتقا می‌دهد. این مدل با استفاده از یک نمایش نوین برای پوز سه‌بعدی و یک دیفیوشن-ترنسفورمر با تزریق کامل کانتکست پوز، به واقع‌گرایی و پایداری بی‌سابقه‌ای می‌رسد.

🔹 تاریخ انتشار: ۵ دسامبر
🔹 لینک‌ها:
• arXiv:
https://arxiv.org/abs/2512.05905
• PDF:
https://arxiv.org/pdf/2512.05905
• مدل مربوطه:
https://huggingface.co/zai-org/SCAIL-Preview

#CharacterAnimation #AI #3DAnimation #DeepLearning #ComputerGraphics
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘

👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سه‌بعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم می‌کند. ریپازیتوری منتشر شد 💙

👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA

#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Unified Video Editing with Temporal Reasoner

📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش می‌دهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسک‌دهی توسط کاربر، نواحی مربوطه را تشخیص می‌دهد و ویرایش دقیق‌تری ارائه می‌کند.
AI-generated summary

🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینک‌های مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF

🔹 مدل‌هایی که به این مقاله ارجاع داده‌اند:
https://huggingface.co/XiangpengYang/VideoCoF

==================================

#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🧱 یک رویکرد تازه برای رندر حجمی پیکسل‌آرت! 🧱
مدل Voxify3D یک چارچوب دومرحله‌ای و تفاضلی ارائه می‌دهد که بین بهینه‌سازی مش سه‌بعدی و نظارت تصویری پیکسل‌آرت دوبعدی پل می‌زند.
هدفش این است که بتوان از تصاویر پیکسل‌آرت کلاسیک، رندرهای سه‌بعدی قابل‌کنترل و باکیفیت ساخت — بدون نیاز به دیتاست‌های عظیم.

🔗 لینک‌ها:

👉 Paper — https://lnkd.in/du5ikJGN
👉 Project — https://lnkd.in/dpiAjj5m
👉 Repo — TBA

@rss_ai_ir

#PixelArt #3DRendering #Voxify3D #AI #ComputerGraphics #DeepLearning
بنچمارک IF-Bench: بنچمارک جدید برای ارزیابی مدل‌های چندوجهی روی تصاویر مادون‌قرمز

📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدل‌های بزرگ چندوجهی (MLLMs) روی تصاویر مادون‌قرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعه‌ای گسترده از پرسش‌–پاسخ‌هاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبود‌یافته می‌سنجد.

این کار علاوه‌بر بنچمارک، روشی جدید به نام GenViP معرفی می‌کند که یک Visual Prompting مولد است و به مدل‌ها کمک می‌کند بدون فاین‌تون سنگین، درک بهتری از تصاویر IR کسب کنند.

🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵

🔗 لینک‌های مقاله:

• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663

📌 مدل‌های مرتبط:

https://huggingface.co/casiatao/Qwen-Edit-2509-FT

📌 دیتاست مرتبط:

https://huggingface.co/datasets/casiatao/IF-Bench

==================================

#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research

@rss_ai_ir 🔍🤖
👍1🔥1👏1
🧬⚡️ اگه می‌خوای مدل‌های ترنسفورمری زیستی رو روی PyTorch اسکیل کنی، این خبر مهمه

انویدیا از BioNeMo Recipes رونمایی کرده؛ مجموعه‌ای از «دستورالعمل‌های آماده» که آموزش و شتاب‌دهی مدل‌های بزرگ زیستی رو خیلی ساده‌تر می‌کنه 🚀

این ریسپی‌ها روی ابزارهای آشنا ساخته شدن:
🧠 PyTorch
🤗 Hugging Face
🖥️ زیرساخت بالغ Nvidia

📌 نکته‌ی مهم اینه که:

بدون درگیر شدن با HPCهای پیچیده

می‌تونی ترنسفورمرهای زیستی (مثل پروتئین، DNA، RNA) رو سریع‌تر آموزش بدی

و به مقیاس صنعتی برسونی


🔬 این یعنی: از تحقیق آزمایشگاهی ➝ تا پروداکشن واقعی
اونم با حداقل دردسر و حداکثر سرعت

🔗 لینک توضیحات کامل:
https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/

@rss_ai_ir

#AI 🧠
#DeepLearning 🤖
#BioAI 🧬
#PyTorch ⚙️
#NVIDIA 💚
#Transformers
🎉9👍7👏5😁54🔥3🥰3
StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠

🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تک‌تصویری ارائه می‌دهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.

🧩 ایده‌ اصلی این است که مدل با شرط‌دهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنه‌های پیچیده و شلوغ.

🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روش‌های کلاسیک
♻️مقیاس‌پذیر برای کاربردهای AR/VR و نمایش سه‌بعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0

@rss_ai_ir

#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰64👏2🎉1