This media is not supported in your browser
VIEW IN TELEGRAM
🦄 معرفی یک مدل چندوجهی یکپارچه از META
یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.
در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار میگیرد و نتیجه آن یک فضای واحد است که اجازه میدهد مدلها بهصورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آنها عمل کنند — با کیفیت در حد مدلهای SOTA.
کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شدهاند و مسیر توسعه روشن است.
🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna
#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.
در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار میگیرد و نتیجه آن یک فضای واحد است که اجازه میدهد مدلها بهصورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آنها عمل کنند — با کیفیت در حد مدلهای SOTA.
کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شدهاند و مسیر توسعه روشن است.
🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna
#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
🔥 نسخه Transformers v5 منتشر شد!
جامعهٔ هوش مصنوعی امروز شاهد یک جهش بزرگ بود. نسخهٔ جدید Transformers v5 از Hugging Face رسماً عرضه شد و حالا تبدیل به ستون اصلی اکوسیستم متنباز در مدلهای بزرگ شده است.
📈 رشد اکوسیستم در چند سال اخیر واقعاً خیرهکننده بوده:
📦 از ۲۰هزار به ۳ میلیون نصب روزانه
🧠 از ۴۰ معماری پشتیبانیشده به ۴۰۰+
🗃️ بیش از ۷۵۰هزار چکپوینت
🌍 بیش از ۱.۲ میلیارد نصب تجمعی
✨ مهمترین تغییرات نسخهٔ جدید:
♻️معماری کاملاً مبتنی بر PyTorch
♻️طراحی ماژولار و قابلگسترش
♻️رویکرد «quantization-first» برای کارایی بالاتر
♻️همچنین Transformers Serve سازگار با APIهای OpenAI
این نسخه آغاز یک مرحلهٔ تازه در آیندهٔ مدلهای متنباز است.
https://huggingface.co/blog/transformers-v5
#Transformers #HuggingFace #AI #DeepLearning #ML #PyTorch #LLM 🚀
جامعهٔ هوش مصنوعی امروز شاهد یک جهش بزرگ بود. نسخهٔ جدید Transformers v5 از Hugging Face رسماً عرضه شد و حالا تبدیل به ستون اصلی اکوسیستم متنباز در مدلهای بزرگ شده است.
📈 رشد اکوسیستم در چند سال اخیر واقعاً خیرهکننده بوده:
📦 از ۲۰هزار به ۳ میلیون نصب روزانه
🧠 از ۴۰ معماری پشتیبانیشده به ۴۰۰+
🗃️ بیش از ۷۵۰هزار چکپوینت
🌍 بیش از ۱.۲ میلیارد نصب تجمعی
✨ مهمترین تغییرات نسخهٔ جدید:
♻️معماری کاملاً مبتنی بر PyTorch
♻️طراحی ماژولار و قابلگسترش
♻️رویکرد «quantization-first» برای کارایی بالاتر
♻️همچنین Transformers Serve سازگار با APIهای OpenAI
این نسخه آغاز یک مرحلهٔ تازه در آیندهٔ مدلهای متنباز است.
https://huggingface.co/blog/transformers-v5
#Transformers #HuggingFace #AI #DeepLearning #ML #PyTorch #LLM 🚀
❤4👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ World Models That Know When They Don't Know
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ مدل SCAIL: گام تازهای به سوی انیمیشن شخصیت در سطح استودیو ✨
@rss_ai_ir
📝 خلاصه:
چارچوب SCAIL کیفیت انیمیشن شخصیت را تا سطح استودیو ارتقا میدهد. این مدل با استفاده از یک نمایش نوین برای پوز سهبعدی و یک دیفیوشن-ترنسفورمر با تزریق کامل کانتکست پوز، به واقعگرایی و پایداری بیسابقهای میرسد.
🔹 تاریخ انتشار: ۵ دسامبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2512.05905
• PDF:
https://arxiv.org/pdf/2512.05905
• مدل مربوطه:
https://huggingface.co/zai-org/SCAIL-Preview
#CharacterAnimation #AI #3DAnimation #DeepLearning #ComputerGraphics
@rss_ai_ir
📝 خلاصه:
چارچوب SCAIL کیفیت انیمیشن شخصیت را تا سطح استودیو ارتقا میدهد. این مدل با استفاده از یک نمایش نوین برای پوز سهبعدی و یک دیفیوشن-ترنسفورمر با تزریق کامل کانتکست پوز، به واقعگرایی و پایداری بیسابقهای میرسد.
🔹 تاریخ انتشار: ۵ دسامبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2512.05905
• PDF:
https://arxiv.org/pdf/2512.05905
• مدل مربوطه:
https://huggingface.co/zai-org/SCAIL-Preview
#CharacterAnimation #AI #3DAnimation #DeepLearning #ComputerGraphics
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🐘 TTSC for 3D Generative 🐘
👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سهبعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم میکند. ریپازیتوری منتشر شد 💙
👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA
#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👉 روش SpaceControl، روش جدید SOTA و training-free برای کنترل فضایی کاملاً دقیق در تولید سهبعدی است. این مدل بدون نیاز به آموزش مجدد، فقط در test-time امکان اعمال کنترل صریح روی ساختار 3D را فراهم میکند. ریپازیتوری منتشر شد 💙
👉 Paper: https://lnkd.in/dEWh3vep
👉 Project: https://lnkd.in/dScftUmm
👉 Repo: TBA
#AI #3D #GenerativeAI #ComputerVision #DeepLearning #TTSC #SpaceControl
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Unified Video Editing with Temporal Reasoner
📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش میدهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسکدهی توسط کاربر، نواحی مربوطه را تشخیص میدهد و ویرایش دقیقتری ارائه میکند.
AI-generated summary
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF
🔹 مدلهایی که به این مقاله ارجاع دادهاند:
• https://huggingface.co/XiangpengYang/VideoCoF
==================================
#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش میدهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسکدهی توسط کاربر، نواحی مربوطه را تشخیص میدهد و ویرایش دقیقتری ارائه میکند.
AI-generated summary
🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF
🔹 مدلهایی که به این مقاله ارجاع دادهاند:
• https://huggingface.co/XiangpengYang/VideoCoF
==================================
#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🧱 یک رویکرد تازه برای رندر حجمی پیکسلآرت! 🧱
مدل Voxify3D یک چارچوب دومرحلهای و تفاضلی ارائه میدهد که بین بهینهسازی مش سهبعدی و نظارت تصویری پیکسلآرت دوبعدی پل میزند.
هدفش این است که بتوان از تصاویر پیکسلآرت کلاسیک، رندرهای سهبعدی قابلکنترل و باکیفیت ساخت — بدون نیاز به دیتاستهای عظیم.
🔗 لینکها:
👉 Paper — https://lnkd.in/du5ikJGN
👉 Project — https://lnkd.in/dpiAjj5m
👉 Repo — TBA
@rss_ai_ir
#PixelArt #3DRendering #Voxify3D #AI #ComputerGraphics #DeepLearning
مدل Voxify3D یک چارچوب دومرحلهای و تفاضلی ارائه میدهد که بین بهینهسازی مش سهبعدی و نظارت تصویری پیکسلآرت دوبعدی پل میزند.
هدفش این است که بتوان از تصاویر پیکسلآرت کلاسیک، رندرهای سهبعدی قابلکنترل و باکیفیت ساخت — بدون نیاز به دیتاستهای عظیم.
🔗 لینکها:
👉 Paper — https://lnkd.in/du5ikJGN
👉 Project — https://lnkd.in/dpiAjj5m
👉 Repo — TBA
@rss_ai_ir
#PixelArt #3DRendering #Voxify3D #AI #ComputerGraphics #DeepLearning
✨ بنچمارک IF-Bench: بنچمارک جدید برای ارزیابی مدلهای چندوجهی روی تصاویر مادونقرمز
📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدلهای بزرگ چندوجهی (MLLMs) روی تصاویر مادونقرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعهای گسترده از پرسش–پاسخهاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبودیافته میسنجد.
این کار علاوهبر بنچمارک، روشی جدید به نام GenViP معرفی میکند که یک Visual Prompting مولد است و به مدلها کمک میکند بدون فاینتون سنگین، درک بهتری از تصاویر IR کسب کنند.
🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵
🔗 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663
📌 مدلهای مرتبط:
• https://huggingface.co/casiatao/Qwen-Edit-2509-FT
📌 دیتاست مرتبط:
• https://huggingface.co/datasets/casiatao/IF-Bench
==================================
#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research
@rss_ai_ir 🔍🤖
📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدلهای بزرگ چندوجهی (MLLMs) روی تصاویر مادونقرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعهای گسترده از پرسش–پاسخهاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبودیافته میسنجد.
این کار علاوهبر بنچمارک، روشی جدید به نام GenViP معرفی میکند که یک Visual Prompting مولد است و به مدلها کمک میکند بدون فاینتون سنگین، درک بهتری از تصاویر IR کسب کنند.
🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵
🔗 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663
📌 مدلهای مرتبط:
• https://huggingface.co/casiatao/Qwen-Edit-2509-FT
📌 دیتاست مرتبط:
• https://huggingface.co/datasets/casiatao/IF-Bench
==================================
#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research
@rss_ai_ir 🔍🤖
👍1🔥1👏1
🧬⚡️ اگه میخوای مدلهای ترنسفورمری زیستی رو روی PyTorch اسکیل کنی، این خبر مهمه
انویدیا از BioNeMo Recipes رونمایی کرده؛ مجموعهای از «دستورالعملهای آماده» که آموزش و شتابدهی مدلهای بزرگ زیستی رو خیلی سادهتر میکنه 🚀
این ریسپیها روی ابزارهای آشنا ساخته شدن:
🧠 PyTorch
🤗 Hugging Face
🖥️ زیرساخت بالغ Nvidia
📌 نکتهی مهم اینه که:
بدون درگیر شدن با HPCهای پیچیده
میتونی ترنسفورمرهای زیستی (مثل پروتئین، DNA، RNA) رو سریعتر آموزش بدی
و به مقیاس صنعتی برسونی
🔬 این یعنی: از تحقیق آزمایشگاهی ➝ تا پروداکشن واقعی
اونم با حداقل دردسر و حداکثر سرعت
🔗 لینک توضیحات کامل:
https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/
@rss_ai_ir
#AI 🧠
#DeepLearning 🤖
#BioAI 🧬
#PyTorch ⚙️
#NVIDIA 💚
#Transformers
انویدیا از BioNeMo Recipes رونمایی کرده؛ مجموعهای از «دستورالعملهای آماده» که آموزش و شتابدهی مدلهای بزرگ زیستی رو خیلی سادهتر میکنه 🚀
این ریسپیها روی ابزارهای آشنا ساخته شدن:
🧠 PyTorch
🤗 Hugging Face
🖥️ زیرساخت بالغ Nvidia
📌 نکتهی مهم اینه که:
بدون درگیر شدن با HPCهای پیچیده
میتونی ترنسفورمرهای زیستی (مثل پروتئین، DNA، RNA) رو سریعتر آموزش بدی
و به مقیاس صنعتی برسونی
🔬 این یعنی: از تحقیق آزمایشگاهی ➝ تا پروداکشن واقعی
اونم با حداقل دردسر و حداکثر سرعت
🔗 لینک توضیحات کامل:
https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/
@rss_ai_ir
#AI 🧠
#DeepLearning 🤖
#BioAI 🧬
#PyTorch ⚙️
#NVIDIA 💚
#Transformers
🎉9👍7👏5😁5❤4🔥3🥰3
✨ StereoSpace:
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠
🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تکتصویری ارائه میدهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.
🧩 ایده اصلی این است که مدل با شرطدهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنههای پیچیده و شلوغ.
🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روشهای کلاسیک
♻️مقیاسپذیر برای کاربردهای AR/VR و نمایش سهبعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0
@rss_ai_ir
#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
تولید تصاویر استریو بدون نیاز به عمق (Depth-Free) 🎥🧠
🔬 در این پژوهش، StereoSpace یک روش کاملاً جدید برای ساخت تصاویر استریو از ورودی تکتصویری ارائه میدهد؛ بدون تخمین عمق، بدون warp و با استفاده از diffusion سرتاسری در یک فضای canonical.
🧩 ایده اصلی این است که مدل با شرطدهی به زاویه دید (viewpoint-conditioned diffusion)، اختلاف منظر (parallax) دقیق و شارپی تولید کند؛ حتی در صحنههای پیچیده و شلوغ.
🚀 چرا مهم است؟
♻️حذف کامل وابستگی به depth estimation
♻️کیفیت بالاتر parallax نسبت به روشهای کلاسیک
♻️مقیاسپذیر برای کاربردهای AR/VR و نمایش سهبعدی
♻️عملکرد پایدار در سناریوهای دشوار دنیای واقعی
🔗 لینکها:
• arXiv: https://arxiv.org/abs/2512.10959
• PDF: https://arxiv.org/pdf/2512.10959
• Project Page: https://huggingface.co/spaces/prs-eth/stereospace_web
• GitHub: https://github.com/prs-eth/stereospace
• Model: https://huggingface.co/prs-eth/stereospace-v1-0
@rss_ai_ir
#AI 🤖 #ComputerVision 👁️ #DiffusionModels 🌫️ #StereoVision 🕶️ #DeepLearning 📊
😁9👍8🔥6🥰6❤4👏2🎉1