VIRSUN
7.53K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🚀 معرفی 4DNeX: نسل تازه‌ی مدل‌سازی 4 بعدی (تصویر → صحنه‌ی پویا)

🔹 پژوهشگران Zeng Tao, Jiawei Ren, Long Zhuo, Tianqi Liu, Zhaoxi Chen یک چارچوب نوین به نام 4DNeX ارائه داده‌اند؛ روشی feed-forward برای تولید نمایش‌های سه‌بعدی پویا (۴D) تنها از یک تصویر.

ویژگی‌های کلیدی:

* استفاده از مدل دیفیوشن ویدئویی از پیش‌آموزش‌دیده.
* معرفی دیتاست جدید 4DNeX-10M.
* نمایش یکپارچه‌ی ویدئو در ۶ بُعد (RGB + XYZ).
* استراتژی‌های ساده مانند width-wise fusion و XYZ normalization.

⚡️ کارایی چشمگیر:

* تولید صحنه‌ی 4D تنها در ۱۵ دقیقه (درحالی‌که روش‌هایی مثل Free4D حدود ۶۰ دقیقه زمان می‌گیرند).
* دستیابی به ۹۷.۲٪ سازگاری و ۵۸.۳٪ پویایی در وظایف image-to-4D.

🌍 اهمیت:
این روش یک گام بزرگ در مدل‌سازی مولد ۴D است؛ راهکاری مقیاس‌پذیر و دسترس‌پذیر برای شبیه‌سازی تکامل پویای صحنه‌ها، که می‌تواند به عنوان پایه‌ای برای جهان‌های مجازی و مدل‌های شبیه‌سازی هوشمند عمل کند.

📖 جزئیات بیشتر: [arXiv](https://arxiv.org/abs/2508.13154) | [HuggingFace](https://huggingface.co/papers/2508.13154)

@rss_ai_ir

#هوش_مصنوعی #4D #دیفیوشن #GenerativeAI #ComputerVision #arXiv
👍1610🎉10🔥9👏9😁7🥰4👌1
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️ تازه یک مدل جدید برای ساخت دنیا معرفی شده!

🔗 همچنین WorldLabs ابزاری ساخته که فقط با یک تصویر، یک دنیا کامل سه‌بعدی می‌سازد.

ویژگی‌ها:

♻️جهان‌ها برای همیشه در حافظه ذخیره می‌شوند و جزئیات از بین نمی‌رود.
♻️مبتنی بر 3D Gaussian Splatting (3DGS) است، پس می‌توان صحنه‌ها را با هم ترکیب یا تغییر داد.
♻️برخلاف روش‌های قدیمی، دنیاها مقیاس‌پذیر و قابل ویرایش در زمان واقعی هستند.


📌 فعلاً در حالت بتای خصوصی قرار دارد.

به‌نظرتان آینده‌ی بازی‌سازی و متاورس دقیقاً همین مسیر نیست؟ 🎮🌍

#AI #3D #WorldModel #GenerativeAI #Metaverse #GameTech
@rss_ai_ir
🔥7👏7😁7👍65🎉2
📊 کاربردهای هوش مصنوعی مولد در سال ۲۰۲۵
@rss_ai_ir

بر اساس تحلیل Harvard Business Review، این‌ها پرکاربردترین موارد استفاده از Generative AI در سال ۲۰۲۵ هستند (در مقایسه با ۲۰۲۴):


---

🔺 رشد چشمگیر

🧑‍⚕️ سلامت و سبک زندگی (Healthy Living): +۶۵
👨‍💻 کدنویسی (Generate Code): +۴۲
🖼️ تولید تصویر با AI: +۵۳
🎨 خلاقیت (Creativity): +۱۸
🎤 آمادگی برای مصاحبه: +۲۴
📚 یادگیری و آموزش (Enhance Learning): +۴

---
🔻 افت رتبه

🔍 جستجوی تخصصی (Specific Search): –۱۰
🛠️ رفع اشکال (Troubleshoot): –۹
🎓 یادگیری شخصی‌سازی‌شده: –۸

---

🆕 ورود کاربردهای تازه

👶 سرگرمی کودک (Child Entertainment)
🍼 کمک در نگهداری کودک (Childcare Help)
🧳 برنامه‌ریزی سفر (Travel Itinerary)
🏢 مدل‌های سازمانی (Corporate LLM)
✍️ مقاله‌های دانشجویی (Student Essays)
🚫 مقابله با مزاحمت آنلاین (Anti-trolling)

---

📌 نتیجه‌گیری:
هوش مصنوعی مولد در سال ۲۰۲۵ از مرحله‌ی ایده‌پردازی فراتر رفته و وارد زندگی روزمره، سلامت، آموزش و حتی خانواده شده است.


---

#هوش_مصنوعی #AI #GenerativeAI
@rss_ai_ir
👍10😁75🎉5👏3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ویدئو‌سازی همزمان با Krea.ai

استارتاپ Krea ثبت‌نام در لیست انتظار برای قابلیت جدید تولید ویدئو در زمان واقعی را آغاز کرد.

مشخصات:

♻️نرخ فریم بیش از ۱۲ فریم بر ثانیه
♻️ورودی می‌تواند شامل پرامپت متنی، تصویر، اسکرین‌شات یا حتی وبکم باشد
♻️خروجی: ویدئویی که تقریباً به‌صورت همزمان ساخته می‌شود


🖌️ شاید یادتان باشد که Krea اولین تیمی بود که قابلیت نقاشی زنده یا همان تولید تصویر همزمان را معرفی کرد (همزمان با Vizcom). حالا یک گام فراتر رفته و با استفاده از چیزی شبیه به «مدل جهان» توانسته یک زیررندر زنده از آنچه کاربر می‌خواهد ایجاد کند.

🔗 جزئیات بیشتر: krea.ai/blog/announcing-realtime-video

📌 به نظر می‌رسد این قابلیت بتواند انقلابی در طراحی، بازی‌سازی و تولید محتوا به وجود بیاورد.

#ویدئو #هوش_مصنوعی #Realtime #AI #GenerativeAI

@rss_ai_ir
7👍6🎉6🔥4😁4
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».


---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.



---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.



---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.


🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍2523🥰23😁22🔥18👏16
This media is not supported in your browser
VIEW IN TELEGRAM
💛 نسل جدید تولیدکننده‌های SVG مقیاس‌پذیر 💛

🔹 پروژه OmniSVG معرفی شد؛ اولین خانواده‌ی مولدهای چندوجهی (multimodal) انتهابه‌انتها (e2e) که با استفاده از مدل‌های زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاس‌پذیر هستند.

📌 نکته مهم: کد، مدل‌ها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙

🔗 منابع بیشتر:

👉 Paper
👉 Project
👉 Repo
👉 Dataset

@rss_ai_ir

#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
18🔥14🥰14🎉13👍10🤩9💯9👏8❤‍🔥8😁7🙏1
🎯 ۷ گام تا تسلط بر مدل‌های زبانی بزرگ (LLM)

تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشه‌ی راه را نشان می‌دهد؛ از مبانی اولیه تا ساخت اپلیکیشن‌های واقعی:

1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)

2️⃣ بررسی معماری‌های LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet

3️⃣ پیش‌تمرین مدل‌ها
🔹 پیش‌بینی جمله‌ی بعدی
🔹 پیش‌تمرین متضاد زبان–تصویر (Contrastive Pre-training)

4️⃣ فاین‌تیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)

5️⃣ تنظیم و پس‌آموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیح‌پذیری (Explainability)

6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخ‌ها (Relevancy)

7️⃣ ساخت اپلیکیشن‌های LLM
🔹 چت‌بات‌ها
🔹 تولید محتوا
🔹 ترجمه‌ی زبان


---

🌟 اگر این مسیر را دنبال کنید، می‌توانید از درک مبانی تا پیاده‌سازی اپلیکیشن‌های پیشرفته مبتنی بر LLM حرکت کنید.

#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI

@rss_ai_ir
😁9👍8🔥8👏8🎉85🥰4🙏1
✳️⛔️این پرامپت برای تولید کاپوچینو با آرت فومی خاص طراحی شده. توصیف به مدل کمک می‌کنه که ویژگی‌های سوژه (subject) رو به‌صورت هنری و بامزه داخل کف شیر نمایش بده.


Prompt:
A cappuccino with foam art shaped like [subject], chubby features and defining traits etched in milk art, surrounded by soft crema bubbles, top-down view, served in a clean white ceramic cup.

@rss_ai_ir

#Prompt #AIArt #FoamArt #LatteArt #GenerativeAI #CoffeeLovers ☕️
👍32🥰2928🔥28🎉26😁18👏171🙏1👌1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥ابزار Seedream 4 به‌عنوان ابزار تغییر استایل (پوشاندن لباس روی فرد) واقعاً عالی عمل می‌کنه.

📸 ورودی فقط دو تصویر هست:

1. یک سلفی معمولی
2. یک کاراکتر با لباس انتخابی



🎞️ خروجی؟ تصویر ترکیبی دقیق، و وقتی انیمیشن با Kling 2.1 روش سوار میشه، نتیجه واقعاً چشمگیر میشه.

👕👗 برای تغییر پوشش و ساختن استایل‌های متنوع روی افراد، Seedream 4 داره به یکی از بهترین ابزارهای این حوزه تبدیل میشه.

@rss_ai_ir

#AI #Seedream4 #Kling21 #GenerativeAI #FashionAI #AIart
👍42🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Lucy

تازه‌ترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.

🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبک‌تر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیه‌ای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب می‌شود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر داده‌اند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید

💡 نکته مهم: این مدل اپن‌سورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.

👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریل‌تایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانه‌ای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).

🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir

---

#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
😁10👍5🔥53🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🪄 Higgsfield
دوباره غافلگیر کرد: Fashion Factory

حالا می‌توانید در چند مرحله ساده یک فوتوشوت حرفه‌ای بسازید:
👤 ساخت کاراکتر
🌆 انتخاب پس‌زمینه
📸 تولید اولین ست عکس
👗 آپلود لباس دلخواه
زدن روی «پیرایش» → و یک آلبوم کامل در همان لباس جدید تحویل بگیرید!

🔧 «هیگزها» مرتب فیچرهای قدیمی‌شان را در قالب مینی‌محصولات تازه بسته‌بندی می‌کنند.
ولی حیف که نسخه رایگان برای تست وجود نداره.

🔗 تست کنید:

Higgsfield Fashion Factory

@rss_ai_ir

#AI #FashionTech #GenerativeAI #هگزفیلد
🔥16🎉14👍119😁7🥰6👏4
این تصویر ۹ اصل کلیدی برای بهبود عملکرد سیستم‌های RAG را نشون میده:

1️⃣ Chunking
تقسیم بهینه اسناد (۵۱۲–۱۰۲۴ توکن) و استفاده از پنجره‌های لغزان برای پوشش بهتر محتوا.

2️⃣ Embeddings
استفاده از مدل‌های بردار پیشرفته مثل BAAI یا MPNET برای دقت بالا.

3️⃣ Vector Store
انتخاب دیتابیس مناسب (مثل Milvus, Weaviate, Pinecone) بر اساس مقیاس و سرعت.

4️⃣ Query Processing
استفاده از تکنیک‌های HYDE و hybrid search برای بهبود بازیابی.

5️⃣ Reranking
اعمال مدل‌های بازچینش مثل MonoBERT یا TILDE برای افزایش دقت.

6️⃣ Summarization
ترکیب رویکردهای extractive و abstractive برای خلاصه‌سازی جامع.

7️⃣ Fine-tuning
تنظیم دقیق مدل برای بهبود عملکرد در دامنه‌های خاص.

8️⃣ Evaluation
پایش متریک‌های عمومی و دامنه‌ای برای بهبود مستمر سیستم.

9️⃣ LLM Integration
ادغام هوشمند مدل‌های زبانی بزرگ با retrieval.

🔟 Repacking
پیاده‌سازی استراتژی‌های sides, forward, reverse برای بسته‌بندی بهینه محتوا.


#هوش_مصنوعی #RAG #LLM #یادگیری_ماشین #AI #MachineLearning #GenerativeAI
🔥21👏16🎉1512🥰12👍11😁11
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 استارتاپ جدید برای ساخت دنیا از روی عکس!

⛔️یک استارتاپ تازه‌نفس مدلی معرفی کرده که می‌تواند از یک عکس ساده → یک دنیای سه‌بعدی قابل اکتشاف بسازد. فعلاً امکان آپلود تصاویر شخصی وجود ندارد، اما می‌توانید وارد دنیاهای ساخته‌شده توسط دیگران شوید و در آن‌ها قدم بزنید:
👉 marble.worldlabs.ai

نکته جالب: همین «نوارهای رنگی» یا Gaussian Splatting پایه‌ی اصلی این شبیه‌سازی‌ها هستند.

📱 از موبایل هم می‌شود دید، ولی کیفیت شبیه‌سازی‌ها پایین‌تر است.

@rss_ai_ir

#هوش_مصنوعی #سه‌بعدی #مولد #AI #3D #GenerativeAI #Metaverse
👏18😁1615🔥14🥰13👍12🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Ray3 —
مدل جدید تولید ویدئو از Luma AI

⛔️این اولین مدل reasoning برای ویدئو است؛ مدلی که فقط تولید نمی‌کند، بلکه می‌فهمد: تحلیل می‌کند، خودش را اصلاح می‌کند و خروجی‌هایی در سطح استودیو ارائه می‌دهد.
امکان تست رایگان با Dream Machine وجود دارد.

🔥 ویژگی‌های Ray3:

Draft Mode —
♻️ساخت سریع صحنه و سپس خروجی در کیفیت 4K HDR.

Reasoning —
♻️درک زبان و دستورات بصری، طراحی منطق حرکت و ترکیب‌بندی، «تفکر» درباره‌ی آنچه تولید می‌شود.

Visual Annotations —
♻️کشیدن فلش یا دایره روی فریم کافیست تا مدل جهت حرکت دوربین یا شیء را بفهمد.

♻️فیزیک و رئالیسم — شبیه‌سازی حرکت، جمعیت، آناتومی، نور، بازتاب، و Motion Blur.

HDR Video —
♻️ خروجی ۱۰، ۱۲ و ۱۶ بیت HDR با رنگ‌های زنده، جزئیات در سایه‌ها و روشنایی‌ها، و امکان خروجی EXR برای پست‌پروداکشن.


⚡️ نکات برجسته:

✳️سرعت و هزینه تولید ویدئو ۵ برابر بهتر شده.
✳️مناسب برای هنرمندان و کارگردانان: تست ایده‌ها در لحظه و ارتقا تا سطح تولید حرفه‌ای.
✳️خروجی‌ها کیفیت بسیار بالایی دارند.


🟠 جزییات بیشتر:
lumalabs.ai/ray3

@rss_ai_ir

#Ray3 #LumaAI #هوش_مصنوعی #ویدئو #AIVideo #GenerativeAI #ReasoningAI
👍8🔥86🎉5🥰4😁4👏2🤔1
🌍📊 OmniWorld:
مجموعه‌داده چندمنظوره برای مدل‌سازی 4D

✳️مجموعه OmniWorld یک مجموعه‌داده عظیم و چندوجهی است که برای مدل‌سازی 4D طراحی شده و حوزه‌هایی چون بازسازی هندسی و تولید ویدئو را پوشش می‌دهد. این دیتاست، دامنه‌ها و فرمت‌های متنوعی را در بر می‌گیرد و چندوجهی بودن غنی را تضمین می‌کند.

🚀 ویژگی‌های کلیدی:

بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
منابع متنوع: شبیه‌سازها، ربات‌ها، انسان‌ها و اینترنت
کیفیت بالای برچسب‌گذاری برای مدل‌سازی 4D و تولید ویدئو


📌 GitHub: OmniWorld

@rss_ai_ir

#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
😁8🔥7🎉7👍4👏43🥰3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 علی‌بابا مدل جدید ویدیویی Wan 2.2 (14B Animate) را معرفی کرد

این مدل تازه برای انتقال حرکت‌ها و انیمیشن روی شخصیت‌ها یا حتی حذف کامل آن‌ها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لب‌ها و حتی حرکت انگشتان نیز منتقل می‌شوند.

🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت می‌کند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را به‌طور طبیعی جایگزین می‌کند (همراه با تطبیق نور و محیط).

⚡️ تست سخت‌افزاری:

روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).

در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده می‌شدند.


🛠 ابزارها:

ComfyUI هم‌اکنون وزن‌ها را آماده کرده.

Kijai نیز ورک‌فلو و نسخه‌ی GGUF برای دستگاه‌های با VRAM کمتر ارائه داده است.


📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندام‌ها دیده می‌شود، اما با تنظیم پارامترها و محتوا قابل بهبود است.

👀 این مدل در آینده می‌تواند نقش مهمی در میکس ویدیو، انیمیشن‌سازی و تولید محتوای سینمایی داشته باشد. جامعه‌ی مولتی‌مدیا حالا مشتاق است واکنش‌های خلاقانه کاربران را ببیند.
🟩🔻

https://huggingface.co/Wan-AI/Wan2.2-Animate-14B

https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json

https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate


@rss_ai_ir

#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
18👏13🔥12😁12👍10🎉10🥰9🙏1
🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.


📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
1👍1🙏1
🔬 دانشمندان MIT ابزار جدیدی به نام SCIGEN معرفی کردند – سیستمی که به مدل‌های مولد یاد می‌دهد به جای «تصاویر زیبا»، مواد واقعی و کاربردی تولید کنند.

مشکل قدیمی: مدل‌های هوش مصنوعی معمولاً ساختارهایی شبیه به نمونه‌های شناخته‌شده تولید می‌کنند و به‌ندرت فراتر می‌روند.
راهکار SCIGEN: اعمال محدودیت‌های هندسی سخت‌گیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راه‌حل‌های نو اما پایدار.

🧪 در آزمایش‌ها میلیون‌ها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفت‌انگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگی‌های پیش‌بینی‌شده را نشان دادند.

🚀 این یعنی آینده‌ای که در آن مواد مورد نیاز برای الکترونیک، فناوری‌های کوانتومی و انرژی نه با جستجوی سال‌ها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.

🔗 جزئیات: MIT News

@rss_ai_ir

#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونه‌هایی شبیه Vine دید.

⛔️به نظرم از نظر مکانیک خیلی عقب‌تر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپ‌فیک #AI #GenerativeAI