VIRSUN
7.44K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 علی‌بابا مدل جدید ویدیویی Wan 2.2 (14B Animate) را معرفی کرد

این مدل تازه برای انتقال حرکت‌ها و انیمیشن روی شخصیت‌ها یا حتی حذف کامل آن‌ها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لب‌ها و حتی حرکت انگشتان نیز منتقل می‌شوند.

🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت می‌کند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را به‌طور طبیعی جایگزین می‌کند (همراه با تطبیق نور و محیط).

⚡️ تست سخت‌افزاری:

روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).

در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده می‌شدند.


🛠 ابزارها:

ComfyUI هم‌اکنون وزن‌ها را آماده کرده.

Kijai نیز ورک‌فلو و نسخه‌ی GGUF برای دستگاه‌های با VRAM کمتر ارائه داده است.


📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندام‌ها دیده می‌شود، اما با تنظیم پارامترها و محتوا قابل بهبود است.

👀 این مدل در آینده می‌تواند نقش مهمی در میکس ویدیو، انیمیشن‌سازی و تولید محتوای سینمایی داشته باشد. جامعه‌ی مولتی‌مدیا حالا مشتاق است واکنش‌های خلاقانه کاربران را ببیند.
🟩🔻

https://huggingface.co/Wan-AI/Wan2.2-Animate-14B

https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json

https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate


@rss_ai_ir

#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
18👏13🔥12😁12👍10🎉10🥰9🙏1
🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.


📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
1👍1🙏1
🔬 دانشمندان MIT ابزار جدیدی به نام SCIGEN معرفی کردند – سیستمی که به مدل‌های مولد یاد می‌دهد به جای «تصاویر زیبا»، مواد واقعی و کاربردی تولید کنند.

مشکل قدیمی: مدل‌های هوش مصنوعی معمولاً ساختارهایی شبیه به نمونه‌های شناخته‌شده تولید می‌کنند و به‌ندرت فراتر می‌روند.
راهکار SCIGEN: اعمال محدودیت‌های هندسی سخت‌گیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راه‌حل‌های نو اما پایدار.

🧪 در آزمایش‌ها میلیون‌ها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفت‌انگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگی‌های پیش‌بینی‌شده را نشان دادند.

🚀 این یعنی آینده‌ای که در آن مواد مورد نیاز برای الکترونیک، فناوری‌های کوانتومی و انرژی نه با جستجوی سال‌ها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.

🔗 جزئیات: MIT News

@rss_ai_ir

#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونه‌هایی شبیه Vine دید.

⛔️به نظرم از نظر مکانیک خیلی عقب‌تر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپ‌فیک #AI #GenerativeAI