This media is not supported in your browser
VIEW IN TELEGRAM
🔥ابزار Seedream 4 بهعنوان ابزار تغییر استایل (پوشاندن لباس روی فرد) واقعاً عالی عمل میکنه.
📸 ورودی فقط دو تصویر هست:
1. یک سلفی معمولی
2. یک کاراکتر با لباس انتخابی
🎞️ خروجی؟ تصویر ترکیبی دقیق، و وقتی انیمیشن با Kling 2.1 روش سوار میشه، نتیجه واقعاً چشمگیر میشه.
👕👗 برای تغییر پوشش و ساختن استایلهای متنوع روی افراد، Seedream 4 داره به یکی از بهترین ابزارهای این حوزه تبدیل میشه.
@rss_ai_ir
#AI #Seedream4 #Kling21 #GenerativeAI #FashionAI #AIart
📸 ورودی فقط دو تصویر هست:
1. یک سلفی معمولی
2. یک کاراکتر با لباس انتخابی
🎞️ خروجی؟ تصویر ترکیبی دقیق، و وقتی انیمیشن با Kling 2.1 روش سوار میشه، نتیجه واقعاً چشمگیر میشه.
👕👗 برای تغییر پوشش و ساختن استایلهای متنوع روی افراد، Seedream 4 داره به یکی از بهترین ابزارهای این حوزه تبدیل میشه.
@rss_ai_ir
#AI #Seedream4 #Kling21 #GenerativeAI #FashionAI #AIart
👍4❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Lucy
تازهترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.
🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبکتر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیهای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب میشود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر دادهاند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید
💡 نکته مهم: این مدل اپنسورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.
👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریلتایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانهای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).
🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir
---
#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
تازهترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.
🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبکتر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیهای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب میشود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر دادهاند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید
💡 نکته مهم: این مدل اپنسورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.
👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریلتایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانهای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).
🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir
---
#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
😁10👍5🔥5❤3🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🪄 Higgsfield
دوباره غافلگیر کرد: Fashion Factory
حالا میتوانید در چند مرحله ساده یک فوتوشوت حرفهای بسازید:
👤 ساخت کاراکتر
🌆 انتخاب پسزمینه
📸 تولید اولین ست عکس
👗 آپلود لباس دلخواه
✨ زدن روی «پیرایش» → و یک آلبوم کامل در همان لباس جدید تحویل بگیرید!
🔧 «هیگزها» مرتب فیچرهای قدیمیشان را در قالب مینیمحصولات تازه بستهبندی میکنند.
❌ ولی حیف که نسخه رایگان برای تست وجود نداره.
🔗 تست کنید:
Higgsfield Fashion Factory
@rss_ai_ir
#AI #FashionTech #GenerativeAI #هگزفیلد
دوباره غافلگیر کرد: Fashion Factory
حالا میتوانید در چند مرحله ساده یک فوتوشوت حرفهای بسازید:
👤 ساخت کاراکتر
🌆 انتخاب پسزمینه
📸 تولید اولین ست عکس
👗 آپلود لباس دلخواه
✨ زدن روی «پیرایش» → و یک آلبوم کامل در همان لباس جدید تحویل بگیرید!
🔧 «هیگزها» مرتب فیچرهای قدیمیشان را در قالب مینیمحصولات تازه بستهبندی میکنند.
❌ ولی حیف که نسخه رایگان برای تست وجود نداره.
🔗 تست کنید:
Higgsfield Fashion Factory
@rss_ai_ir
#AI #FashionTech #GenerativeAI #هگزفیلد
🔥16🎉14👍11❤9😁7🥰6👏4
این تصویر ۹ اصل کلیدی برای بهبود عملکرد سیستمهای RAG را نشون میده:
1️⃣ Chunking –
تقسیم بهینه اسناد (۵۱۲–۱۰۲۴ توکن) و استفاده از پنجرههای لغزان برای پوشش بهتر محتوا.
2️⃣ Embeddings –
استفاده از مدلهای بردار پیشرفته مثل BAAI یا MPNET برای دقت بالا.
3️⃣ Vector Store –
انتخاب دیتابیس مناسب (مثل Milvus, Weaviate, Pinecone) بر اساس مقیاس و سرعت.
4️⃣ Query Processing –
استفاده از تکنیکهای HYDE و hybrid search برای بهبود بازیابی.
5️⃣ Reranking –
اعمال مدلهای بازچینش مثل MonoBERT یا TILDE برای افزایش دقت.
6️⃣ Summarization –
ترکیب رویکردهای extractive و abstractive برای خلاصهسازی جامع.
7️⃣ Fine-tuning –
تنظیم دقیق مدل برای بهبود عملکرد در دامنههای خاص.
8️⃣ Evaluation –
پایش متریکهای عمومی و دامنهای برای بهبود مستمر سیستم.
9️⃣ LLM Integration –
ادغام هوشمند مدلهای زبانی بزرگ با retrieval.
🔟 Repacking –
پیادهسازی استراتژیهای sides, forward, reverse برای بستهبندی بهینه محتوا.
#هوش_مصنوعی #RAG #LLM #یادگیری_ماشین #AI #MachineLearning #GenerativeAI
1️⃣ Chunking –
تقسیم بهینه اسناد (۵۱۲–۱۰۲۴ توکن) و استفاده از پنجرههای لغزان برای پوشش بهتر محتوا.
2️⃣ Embeddings –
استفاده از مدلهای بردار پیشرفته مثل BAAI یا MPNET برای دقت بالا.
3️⃣ Vector Store –
انتخاب دیتابیس مناسب (مثل Milvus, Weaviate, Pinecone) بر اساس مقیاس و سرعت.
4️⃣ Query Processing –
استفاده از تکنیکهای HYDE و hybrid search برای بهبود بازیابی.
5️⃣ Reranking –
اعمال مدلهای بازچینش مثل MonoBERT یا TILDE برای افزایش دقت.
6️⃣ Summarization –
ترکیب رویکردهای extractive و abstractive برای خلاصهسازی جامع.
7️⃣ Fine-tuning –
تنظیم دقیق مدل برای بهبود عملکرد در دامنههای خاص.
8️⃣ Evaluation –
پایش متریکهای عمومی و دامنهای برای بهبود مستمر سیستم.
9️⃣ LLM Integration –
ادغام هوشمند مدلهای زبانی بزرگ با retrieval.
🔟 Repacking –
پیادهسازی استراتژیهای sides, forward, reverse برای بستهبندی بهینه محتوا.
#هوش_مصنوعی #RAG #LLM #یادگیری_ماشین #AI #MachineLearning #GenerativeAI
🔥21👏16🎉15❤12🥰12👍11😁11
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 استارتاپ جدید برای ساخت دنیا از روی عکس!
⛔️یک استارتاپ تازهنفس مدلی معرفی کرده که میتواند از یک عکس ساده → یک دنیای سهبعدی قابل اکتشاف بسازد. فعلاً امکان آپلود تصاویر شخصی وجود ندارد، اما میتوانید وارد دنیاهای ساختهشده توسط دیگران شوید و در آنها قدم بزنید:
👉 marble.worldlabs.ai
✨ نکته جالب: همین «نوارهای رنگی» یا Gaussian Splatting پایهی اصلی این شبیهسازیها هستند.
📱 از موبایل هم میشود دید، ولی کیفیت شبیهسازیها پایینتر است.
@rss_ai_ir
#هوش_مصنوعی #سهبعدی #مولد #AI #3D #GenerativeAI #Metaverse
⛔️یک استارتاپ تازهنفس مدلی معرفی کرده که میتواند از یک عکس ساده → یک دنیای سهبعدی قابل اکتشاف بسازد. فعلاً امکان آپلود تصاویر شخصی وجود ندارد، اما میتوانید وارد دنیاهای ساختهشده توسط دیگران شوید و در آنها قدم بزنید:
👉 marble.worldlabs.ai
✨ نکته جالب: همین «نوارهای رنگی» یا Gaussian Splatting پایهی اصلی این شبیهسازیها هستند.
📱 از موبایل هم میشود دید، ولی کیفیت شبیهسازیها پایینتر است.
@rss_ai_ir
#هوش_مصنوعی #سهبعدی #مولد #AI #3D #GenerativeAI #Metaverse
👏18😁16❤15🔥14🥰13👍12🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Ray3 —
❌ مدل جدید تولید ویدئو از Luma AI
⛔️این اولین مدل reasoning برای ویدئو است؛ مدلی که فقط تولید نمیکند، بلکه میفهمد: تحلیل میکند، خودش را اصلاح میکند و خروجیهایی در سطح استودیو ارائه میدهد.
✅امکان تست رایگان با Dream Machine وجود دارد.
🔥 ویژگیهای Ray3:
Draft Mode —
♻️ساخت سریع صحنه و سپس خروجی در کیفیت 4K HDR.
Reasoning —
♻️درک زبان و دستورات بصری، طراحی منطق حرکت و ترکیببندی، «تفکر» دربارهی آنچه تولید میشود.
Visual Annotations —
♻️کشیدن فلش یا دایره روی فریم کافیست تا مدل جهت حرکت دوربین یا شیء را بفهمد.
♻️فیزیک و رئالیسم — شبیهسازی حرکت، جمعیت، آناتومی، نور، بازتاب، و Motion Blur.
HDR Video —
♻️ خروجی ۱۰، ۱۲ و ۱۶ بیت HDR با رنگهای زنده، جزئیات در سایهها و روشناییها، و امکان خروجی EXR برای پستپروداکشن.
⚡️ نکات برجسته:
✳️سرعت و هزینه تولید ویدئو ۵ برابر بهتر شده.
✳️مناسب برای هنرمندان و کارگردانان: تست ایدهها در لحظه و ارتقا تا سطح تولید حرفهای.
✳️خروجیها کیفیت بسیار بالایی دارند.
🟠 جزییات بیشتر:
lumalabs.ai/ray3
@rss_ai_ir
#Ray3 #LumaAI #هوش_مصنوعی #ویدئو #AIVideo #GenerativeAI #ReasoningAI
❌ مدل جدید تولید ویدئو از Luma AI
⛔️این اولین مدل reasoning برای ویدئو است؛ مدلی که فقط تولید نمیکند، بلکه میفهمد: تحلیل میکند، خودش را اصلاح میکند و خروجیهایی در سطح استودیو ارائه میدهد.
✅امکان تست رایگان با Dream Machine وجود دارد.
🔥 ویژگیهای Ray3:
Draft Mode —
♻️ساخت سریع صحنه و سپس خروجی در کیفیت 4K HDR.
Reasoning —
♻️درک زبان و دستورات بصری، طراحی منطق حرکت و ترکیببندی، «تفکر» دربارهی آنچه تولید میشود.
Visual Annotations —
♻️کشیدن فلش یا دایره روی فریم کافیست تا مدل جهت حرکت دوربین یا شیء را بفهمد.
♻️فیزیک و رئالیسم — شبیهسازی حرکت، جمعیت، آناتومی، نور، بازتاب، و Motion Blur.
HDR Video —
♻️ خروجی ۱۰، ۱۲ و ۱۶ بیت HDR با رنگهای زنده، جزئیات در سایهها و روشناییها، و امکان خروجی EXR برای پستپروداکشن.
⚡️ نکات برجسته:
✳️سرعت و هزینه تولید ویدئو ۵ برابر بهتر شده.
✳️مناسب برای هنرمندان و کارگردانان: تست ایدهها در لحظه و ارتقا تا سطح تولید حرفهای.
✳️خروجیها کیفیت بسیار بالایی دارند.
🟠 جزییات بیشتر:
lumalabs.ai/ray3
@rss_ai_ir
#Ray3 #LumaAI #هوش_مصنوعی #ویدئو #AIVideo #GenerativeAI #ReasoningAI
👍8🔥8❤6🎉5🥰4😁4👏2🤔1
🌍📊 OmniWorld:
مجموعهداده چندمنظوره برای مدلسازی 4D
✳️مجموعه OmniWorld یک مجموعهداده عظیم و چندوجهی است که برای مدلسازی 4D طراحی شده و حوزههایی چون بازسازی هندسی و تولید ویدئو را پوشش میدهد. این دیتاست، دامنهها و فرمتهای متنوعی را در بر میگیرد و چندوجهی بودن غنی را تضمین میکند.
🚀 ویژگیهای کلیدی:
✅بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
✅منابع متنوع: شبیهسازها، رباتها، انسانها و اینترنت
✅کیفیت بالای برچسبگذاری برای مدلسازی 4D و تولید ویدئو
📌 GitHub: OmniWorld
@rss_ai_ir
#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
مجموعهداده چندمنظوره برای مدلسازی 4D
✳️مجموعه OmniWorld یک مجموعهداده عظیم و چندوجهی است که برای مدلسازی 4D طراحی شده و حوزههایی چون بازسازی هندسی و تولید ویدئو را پوشش میدهد. این دیتاست، دامنهها و فرمتهای متنوعی را در بر میگیرد و چندوجهی بودن غنی را تضمین میکند.
🚀 ویژگیهای کلیدی:
✅بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
✅منابع متنوع: شبیهسازها، رباتها، انسانها و اینترنت
✅کیفیت بالای برچسبگذاری برای مدلسازی 4D و تولید ویدئو
📌 GitHub: OmniWorld
@rss_ai_ir
#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
😁8🔥7🎉7👍4👏4❤3🥰3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 علیبابا مدل جدید ویدیویی Wan 2.2 (14B Animate) را معرفی کرد
این مدل تازه برای انتقال حرکتها و انیمیشن روی شخصیتها یا حتی حذف کامل آنها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لبها و حتی حرکت انگشتان نیز منتقل میشوند.
🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت میکند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را بهطور طبیعی جایگزین میکند (همراه با تطبیق نور و محیط).
⚡️ تست سختافزاری:
روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).
در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده میشدند.
🛠 ابزارها:
ComfyUI هماکنون وزنها را آماده کرده.
Kijai نیز ورکفلو و نسخهی GGUF برای دستگاههای با VRAM کمتر ارائه داده است.
📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندامها دیده میشود، اما با تنظیم پارامترها و محتوا قابل بهبود است.
👀 این مدل در آینده میتواند نقش مهمی در میکس ویدیو، انیمیشنسازی و تولید محتوای سینمایی داشته باشد. جامعهی مولتیمدیا حالا مشتاق است واکنشهای خلاقانه کاربران را ببیند.
🟩🔻
https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json
https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate
@rss_ai_ir
#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
این مدل تازه برای انتقال حرکتها و انیمیشن روی شخصیتها یا حتی حذف کامل آنها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لبها و حتی حرکت انگشتان نیز منتقل میشوند.
🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت میکند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را بهطور طبیعی جایگزین میکند (همراه با تطبیق نور و محیط).
⚡️ تست سختافزاری:
روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).
در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده میشدند.
🛠 ابزارها:
ComfyUI هماکنون وزنها را آماده کرده.
Kijai نیز ورکفلو و نسخهی GGUF برای دستگاههای با VRAM کمتر ارائه داده است.
📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندامها دیده میشود، اما با تنظیم پارامترها و محتوا قابل بهبود است.
👀 این مدل در آینده میتواند نقش مهمی در میکس ویدیو، انیمیشنسازی و تولید محتوای سینمایی داشته باشد. جامعهی مولتیمدیا حالا مشتاق است واکنشهای خلاقانه کاربران را ببیند.
🟩🔻
https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json
https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate
@rss_ai_ir
#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
❤18👏13🔥12😁12👍10🎉10🥰9🙏1
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
🔬 دانشمندان MIT ابزار جدیدی به نام SCIGEN معرفی کردند – سیستمی که به مدلهای مولد یاد میدهد به جای «تصاویر زیبا»، مواد واقعی و کاربردی تولید کنند.
✨ مشکل قدیمی: مدلهای هوش مصنوعی معمولاً ساختارهایی شبیه به نمونههای شناختهشده تولید میکنند و بهندرت فراتر میروند.
⚡ راهکار SCIGEN: اعمال محدودیتهای هندسی سختگیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راهحلهای نو اما پایدار.
🧪 در آزمایشها میلیونها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفتانگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگیهای پیشبینیشده را نشان دادند.
🚀 این یعنی آیندهای که در آن مواد مورد نیاز برای الکترونیک، فناوریهای کوانتومی و انرژی نه با جستجوی سالها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.
🔗 جزئیات: MIT News
@rss_ai_ir
#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
✨ مشکل قدیمی: مدلهای هوش مصنوعی معمولاً ساختارهایی شبیه به نمونههای شناختهشده تولید میکنند و بهندرت فراتر میروند.
⚡ راهکار SCIGEN: اعمال محدودیتهای هندسی سختگیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راهحلهای نو اما پایدار.
🧪 در آزمایشها میلیونها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفتانگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگیهای پیشبینیشده را نشان دادند.
🚀 این یعنی آیندهای که در آن مواد مورد نیاز برای الکترونیک، فناوریهای کوانتومی و انرژی نه با جستجوی سالها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.
🔗 جزئیات: MIT News
@rss_ai_ir
#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونههایی شبیه Vine دید.
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI