This media is not supported in your browser
VIEW IN TELEGRAM
🎬 علیبابا مدل جدید ویدیویی Wan 2.2 (14B Animate) را معرفی کرد
این مدل تازه برای انتقال حرکتها و انیمیشن روی شخصیتها یا حتی حذف کامل آنها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لبها و حتی حرکت انگشتان نیز منتقل میشوند.
🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت میکند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را بهطور طبیعی جایگزین میکند (همراه با تطبیق نور و محیط).
⚡️ تست سختافزاری:
روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).
در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده میشدند.
🛠 ابزارها:
ComfyUI هماکنون وزنها را آماده کرده.
Kijai نیز ورکفلو و نسخهی GGUF برای دستگاههای با VRAM کمتر ارائه داده است.
📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندامها دیده میشود، اما با تنظیم پارامترها و محتوا قابل بهبود است.
👀 این مدل در آینده میتواند نقش مهمی در میکس ویدیو، انیمیشنسازی و تولید محتوای سینمایی داشته باشد. جامعهی مولتیمدیا حالا مشتاق است واکنشهای خلاقانه کاربران را ببیند.
🟩🔻
https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json
https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate
@rss_ai_ir
#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
این مدل تازه برای انتقال حرکتها و انیمیشن روی شخصیتها یا حتی حذف کامل آنها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لبها و حتی حرکت انگشتان نیز منتقل میشوند.
🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت میکند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را بهطور طبیعی جایگزین میکند (همراه با تطبیق نور و محیط).
⚡️ تست سختافزاری:
روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).
در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده میشدند.
🛠 ابزارها:
ComfyUI هماکنون وزنها را آماده کرده.
Kijai نیز ورکفلو و نسخهی GGUF برای دستگاههای با VRAM کمتر ارائه داده است.
📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندامها دیده میشود، اما با تنظیم پارامترها و محتوا قابل بهبود است.
👀 این مدل در آینده میتواند نقش مهمی در میکس ویدیو، انیمیشنسازی و تولید محتوای سینمایی داشته باشد. جامعهی مولتیمدیا حالا مشتاق است واکنشهای خلاقانه کاربران را ببیند.
🟩🔻
https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json
https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate
@rss_ai_ir
#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
❤18👏13🔥12😁12👍10🎉10🥰9🙏1
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
🔬 دانشمندان MIT ابزار جدیدی به نام SCIGEN معرفی کردند – سیستمی که به مدلهای مولد یاد میدهد به جای «تصاویر زیبا»، مواد واقعی و کاربردی تولید کنند.
✨ مشکل قدیمی: مدلهای هوش مصنوعی معمولاً ساختارهایی شبیه به نمونههای شناختهشده تولید میکنند و بهندرت فراتر میروند.
⚡ راهکار SCIGEN: اعمال محدودیتهای هندسی سختگیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راهحلهای نو اما پایدار.
🧪 در آزمایشها میلیونها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفتانگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگیهای پیشبینیشده را نشان دادند.
🚀 این یعنی آیندهای که در آن مواد مورد نیاز برای الکترونیک، فناوریهای کوانتومی و انرژی نه با جستجوی سالها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.
🔗 جزئیات: MIT News
@rss_ai_ir
#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
✨ مشکل قدیمی: مدلهای هوش مصنوعی معمولاً ساختارهایی شبیه به نمونههای شناختهشده تولید میکنند و بهندرت فراتر میروند.
⚡ راهکار SCIGEN: اعمال محدودیتهای هندسی سختگیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راهحلهای نو اما پایدار.
🧪 در آزمایشها میلیونها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفتانگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگیهای پیشبینیشده را نشان دادند.
🚀 این یعنی آیندهای که در آن مواد مورد نیاز برای الکترونیک، فناوریهای کوانتومی و انرژی نه با جستجوی سالها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.
🔗 جزئیات: MIT News
@rss_ai_ir
#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونههایی شبیه Vine دید.
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI