🚀 معرفی 4DNeX: نسل تازهی مدلسازی 4 بعدی (تصویر → صحنهی پویا)
🔹 پژوهشگران Zeng Tao, Jiawei Ren, Long Zhuo, Tianqi Liu, Zhaoxi Chen یک چارچوب نوین به نام 4DNeX ارائه دادهاند؛ روشی feed-forward برای تولید نمایشهای سهبعدی پویا (۴D) تنها از یک تصویر.
✨ ویژگیهای کلیدی:
* استفاده از مدل دیفیوشن ویدئویی از پیشآموزشدیده.
* معرفی دیتاست جدید 4DNeX-10M.
* نمایش یکپارچهی ویدئو در ۶ بُعد (RGB + XYZ).
* استراتژیهای ساده مانند width-wise fusion و XYZ normalization.
⚡️ کارایی چشمگیر:
* تولید صحنهی 4D تنها در ۱۵ دقیقه (درحالیکه روشهایی مثل Free4D حدود ۶۰ دقیقه زمان میگیرند).
* دستیابی به ۹۷.۲٪ سازگاری و ۵۸.۳٪ پویایی در وظایف image-to-4D.
🌍 اهمیت:
این روش یک گام بزرگ در مدلسازی مولد ۴D است؛ راهکاری مقیاسپذیر و دسترسپذیر برای شبیهسازی تکامل پویای صحنهها، که میتواند به عنوان پایهای برای جهانهای مجازی و مدلهای شبیهسازی هوشمند عمل کند.
📖 جزئیات بیشتر: [arXiv](https://arxiv.org/abs/2508.13154) | [HuggingFace](https://huggingface.co/papers/2508.13154)
@rss_ai_ir
#هوش_مصنوعی #4D #دیفیوشن #GenerativeAI #ComputerVision #arXiv
🔹 پژوهشگران Zeng Tao, Jiawei Ren, Long Zhuo, Tianqi Liu, Zhaoxi Chen یک چارچوب نوین به نام 4DNeX ارائه دادهاند؛ روشی feed-forward برای تولید نمایشهای سهبعدی پویا (۴D) تنها از یک تصویر.
✨ ویژگیهای کلیدی:
* استفاده از مدل دیفیوشن ویدئویی از پیشآموزشدیده.
* معرفی دیتاست جدید 4DNeX-10M.
* نمایش یکپارچهی ویدئو در ۶ بُعد (RGB + XYZ).
* استراتژیهای ساده مانند width-wise fusion و XYZ normalization.
⚡️ کارایی چشمگیر:
* تولید صحنهی 4D تنها در ۱۵ دقیقه (درحالیکه روشهایی مثل Free4D حدود ۶۰ دقیقه زمان میگیرند).
* دستیابی به ۹۷.۲٪ سازگاری و ۵۸.۳٪ پویایی در وظایف image-to-4D.
🌍 اهمیت:
این روش یک گام بزرگ در مدلسازی مولد ۴D است؛ راهکاری مقیاسپذیر و دسترسپذیر برای شبیهسازی تکامل پویای صحنهها، که میتواند به عنوان پایهای برای جهانهای مجازی و مدلهای شبیهسازی هوشمند عمل کند.
📖 جزئیات بیشتر: [arXiv](https://arxiv.org/abs/2508.13154) | [HuggingFace](https://huggingface.co/papers/2508.13154)
@rss_ai_ir
#هوش_مصنوعی #4D #دیفیوشن #GenerativeAI #ComputerVision #arXiv
👍16❤10🎉10🔥9👏9😁7🥰4👌1
This media is not supported in your browser
VIEW IN TELEGRAM
⛔️ تازه یک مدل جدید برای ساخت دنیا معرفی شده!
🔗 همچنین WorldLabs ابزاری ساخته که فقط با یک تصویر، یک دنیا کامل سهبعدی میسازد.
✨ ویژگیها:
♻️جهانها برای همیشه در حافظه ذخیره میشوند و جزئیات از بین نمیرود.
♻️مبتنی بر 3D Gaussian Splatting (3DGS) است، پس میتوان صحنهها را با هم ترکیب یا تغییر داد.
♻️برخلاف روشهای قدیمی، دنیاها مقیاسپذیر و قابل ویرایش در زمان واقعی هستند.
📌 فعلاً در حالت بتای خصوصی قرار دارد.
بهنظرتان آیندهی بازیسازی و متاورس دقیقاً همین مسیر نیست؟ 🎮🌍
#AI #3D #WorldModel #GenerativeAI #Metaverse #GameTech
@rss_ai_ir
🔗 همچنین WorldLabs ابزاری ساخته که فقط با یک تصویر، یک دنیا کامل سهبعدی میسازد.
✨ ویژگیها:
♻️جهانها برای همیشه در حافظه ذخیره میشوند و جزئیات از بین نمیرود.
♻️مبتنی بر 3D Gaussian Splatting (3DGS) است، پس میتوان صحنهها را با هم ترکیب یا تغییر داد.
♻️برخلاف روشهای قدیمی، دنیاها مقیاسپذیر و قابل ویرایش در زمان واقعی هستند.
📌 فعلاً در حالت بتای خصوصی قرار دارد.
بهنظرتان آیندهی بازیسازی و متاورس دقیقاً همین مسیر نیست؟ 🎮🌍
#AI #3D #WorldModel #GenerativeAI #Metaverse #GameTech
@rss_ai_ir
🔥7👏7😁7👍6❤5🎉2
📊 کاربردهای هوش مصنوعی مولد در سال ۲۰۲۵
@rss_ai_ir
بر اساس تحلیل Harvard Business Review، اینها پرکاربردترین موارد استفاده از Generative AI در سال ۲۰۲۵ هستند (در مقایسه با ۲۰۲۴):
---
🔺 رشد چشمگیر
🧑⚕️ سلامت و سبک زندگی (Healthy Living): +۶۵
👨💻 کدنویسی (Generate Code): +۴۲
🖼️ تولید تصویر با AI: +۵۳
🎨 خلاقیت (Creativity): +۱۸
🎤 آمادگی برای مصاحبه: +۲۴
📚 یادگیری و آموزش (Enhance Learning): +۴
---
🔻 افت رتبه
🔍 جستجوی تخصصی (Specific Search): –۱۰
🛠️ رفع اشکال (Troubleshoot): –۹
🎓 یادگیری شخصیسازیشده: –۸
---
🆕 ورود کاربردهای تازه
👶 سرگرمی کودک (Child Entertainment)
🍼 کمک در نگهداری کودک (Childcare Help)
🧳 برنامهریزی سفر (Travel Itinerary)
🏢 مدلهای سازمانی (Corporate LLM)
✍️ مقالههای دانشجویی (Student Essays)
🚫 مقابله با مزاحمت آنلاین (Anti-trolling)
---
📌 نتیجهگیری:
هوش مصنوعی مولد در سال ۲۰۲۵ از مرحلهی ایدهپردازی فراتر رفته و وارد زندگی روزمره، سلامت، آموزش و حتی خانواده شده است.
---
#هوش_مصنوعی #AI #GenerativeAI
@rss_ai_ir
@rss_ai_ir
بر اساس تحلیل Harvard Business Review، اینها پرکاربردترین موارد استفاده از Generative AI در سال ۲۰۲۵ هستند (در مقایسه با ۲۰۲۴):
---
🔺 رشد چشمگیر
🧑⚕️ سلامت و سبک زندگی (Healthy Living): +۶۵
👨💻 کدنویسی (Generate Code): +۴۲
🖼️ تولید تصویر با AI: +۵۳
🎨 خلاقیت (Creativity): +۱۸
🎤 آمادگی برای مصاحبه: +۲۴
📚 یادگیری و آموزش (Enhance Learning): +۴
---
🔻 افت رتبه
🔍 جستجوی تخصصی (Specific Search): –۱۰
🛠️ رفع اشکال (Troubleshoot): –۹
🎓 یادگیری شخصیسازیشده: –۸
---
🆕 ورود کاربردهای تازه
👶 سرگرمی کودک (Child Entertainment)
🍼 کمک در نگهداری کودک (Childcare Help)
🧳 برنامهریزی سفر (Travel Itinerary)
🏢 مدلهای سازمانی (Corporate LLM)
✍️ مقالههای دانشجویی (Student Essays)
🚫 مقابله با مزاحمت آنلاین (Anti-trolling)
---
📌 نتیجهگیری:
هوش مصنوعی مولد در سال ۲۰۲۵ از مرحلهی ایدهپردازی فراتر رفته و وارد زندگی روزمره، سلامت، آموزش و حتی خانواده شده است.
---
#هوش_مصنوعی #AI #GenerativeAI
@rss_ai_ir
👍10😁7❤5🎉5👏3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ویدئوسازی همزمان با Krea.ai
استارتاپ Krea ثبتنام در لیست انتظار برای قابلیت جدید تولید ویدئو در زمان واقعی را آغاز کرد.
⚡ مشخصات:
♻️نرخ فریم بیش از ۱۲ فریم بر ثانیه
♻️ورودی میتواند شامل پرامپت متنی، تصویر، اسکرینشات یا حتی وبکم باشد
♻️خروجی: ویدئویی که تقریباً بهصورت همزمان ساخته میشود
🖌️ شاید یادتان باشد که Krea اولین تیمی بود که قابلیت نقاشی زنده یا همان تولید تصویر همزمان را معرفی کرد (همزمان با Vizcom). حالا یک گام فراتر رفته و با استفاده از چیزی شبیه به «مدل جهان» توانسته یک زیررندر زنده از آنچه کاربر میخواهد ایجاد کند.
🔗 جزئیات بیشتر: krea.ai/blog/announcing-realtime-video
📌 به نظر میرسد این قابلیت بتواند انقلابی در طراحی، بازیسازی و تولید محتوا به وجود بیاورد.
#ویدئو #هوش_مصنوعی #Realtime #AI #GenerativeAI
@rss_ai_ir
استارتاپ Krea ثبتنام در لیست انتظار برای قابلیت جدید تولید ویدئو در زمان واقعی را آغاز کرد.
⚡ مشخصات:
♻️نرخ فریم بیش از ۱۲ فریم بر ثانیه
♻️ورودی میتواند شامل پرامپت متنی، تصویر، اسکرینشات یا حتی وبکم باشد
♻️خروجی: ویدئویی که تقریباً بهصورت همزمان ساخته میشود
🖌️ شاید یادتان باشد که Krea اولین تیمی بود که قابلیت نقاشی زنده یا همان تولید تصویر همزمان را معرفی کرد (همزمان با Vizcom). حالا یک گام فراتر رفته و با استفاده از چیزی شبیه به «مدل جهان» توانسته یک زیررندر زنده از آنچه کاربر میخواهد ایجاد کند.
🔗 جزئیات بیشتر: krea.ai/blog/announcing-realtime-video
📌 به نظر میرسد این قابلیت بتواند انقلابی در طراحی، بازیسازی و تولید محتوا به وجود بیاورد.
#ویدئو #هوش_مصنوعی #Realtime #AI #GenerativeAI
@rss_ai_ir
❤7👍6🎉6🔥4😁4
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍25❤23🥰23😁22🔥18👏16
This media is not supported in your browser
VIEW IN TELEGRAM
💛 نسل جدید تولیدکنندههای SVG مقیاسپذیر 💛
🔹 پروژه OmniSVG معرفی شد؛ اولین خانوادهی مولدهای چندوجهی (multimodal) انتهابهانتها (e2e) که با استفاده از مدلهای زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاسپذیر هستند.
📌 نکته مهم: کد، مدلها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙
🔗 منابع بیشتر:
👉 Paper
👉 Project
👉 Repo
👉 Dataset
@rss_ai_ir
#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
🔹 پروژه OmniSVG معرفی شد؛ اولین خانوادهی مولدهای چندوجهی (multimodal) انتهابهانتها (e2e) که با استفاده از مدلهای زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاسپذیر هستند.
📌 نکته مهم: کد، مدلها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙
🔗 منابع بیشتر:
👉 Paper
👉 Project
👉 Repo
👉 Dataset
@rss_ai_ir
#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
❤18🔥14🥰14🎉13👍10🤩9💯9👏8❤🔥8😁7🙏1
🎯 ۷ گام تا تسلط بر مدلهای زبانی بزرگ (LLM)
تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشهی راه را نشان میدهد؛ از مبانی اولیه تا ساخت اپلیکیشنهای واقعی:
1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)
2️⃣ بررسی معماریهای LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet
3️⃣ پیشتمرین مدلها
🔹 پیشبینی جملهی بعدی
🔹 پیشتمرین متضاد زبان–تصویر (Contrastive Pre-training)
4️⃣ فاینتیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)
5️⃣ تنظیم و پسآموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیحپذیری (Explainability)
6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخها (Relevancy)
7️⃣ ساخت اپلیکیشنهای LLM
🔹 چتباتها
🔹 تولید محتوا
🔹 ترجمهی زبان
---
🌟 اگر این مسیر را دنبال کنید، میتوانید از درک مبانی تا پیادهسازی اپلیکیشنهای پیشرفته مبتنی بر LLM حرکت کنید.
#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI
@rss_ai_ir
تسلط بر LLMها یک مسیر تدریجی است، نه یک مقصد. این اینفوگرافیک نقشهی راه را نشان میدهد؛ از مبانی اولیه تا ساخت اپلیکیشنهای واقعی:
1️⃣ درک مبانی LLM
🔹 پردازش زبان طبیعی (NLP)
🔹 یادگیری عمیق (Deep Learning)
🔹 ترنسفورمرها (Transformers)
2️⃣ بررسی معماریهای LLM
🔹معماری BERT
🔹 معماری GPT
🔹معماری XLNet
3️⃣ پیشتمرین مدلها
🔹 پیشبینی جملهی بعدی
🔹 پیشتمرین متضاد زبان–تصویر (Contrastive Pre-training)
4️⃣ فاینتیونینگ LLMها
🔹 توابع زیان اختصاصی (Task-specific Loss)
🔹 افزایش داده (Data Augmentation)
🔹 توقف زودهنگام (Early Stopping)
5️⃣ تنظیم و پسآموزش
🔹 کاهش سوگیری (Bias Mitigation)
🔹 ارزیابی عدالت (Fairness Evaluation)
🔹 قابلیت توضیحپذیری (Explainability)
6️⃣ ارزیابی مدل
🔹 دقت (Accuracy)
🔹 روانی متن (Fluency)
🔹 مرتبط بودن پاسخها (Relevancy)
7️⃣ ساخت اپلیکیشنهای LLM
🔹 چتباتها
🔹 تولید محتوا
🔹 ترجمهی زبان
---
🌟 اگر این مسیر را دنبال کنید، میتوانید از درک مبانی تا پیادهسازی اپلیکیشنهای پیشرفته مبتنی بر LLM حرکت کنید.
#هوش_مصنوعی #LLM #یادگیری_ماشین #مدل_زبان #دیپ_لرنینگ #NLP #AI #MachineLearning #DeepLearning #Chatbot #GenerativeAI
@rss_ai_ir
😁9👍8🔥8👏8🎉8❤5🥰4🙏1
✳️⛔️این پرامپت برای تولید کاپوچینو با آرت فومی خاص طراحی شده. توصیف به مدل کمک میکنه که ویژگیهای سوژه (subject) رو بهصورت هنری و بامزه داخل کف شیر نمایش بده.
Prompt:
@rss_ai_ir
#Prompt #AIArt #FoamArt #LatteArt #GenerativeAI #CoffeeLovers ☕️
Prompt:
A cappuccino with foam art shaped like [subject], chubby features and defining traits etched in milk art, surrounded by soft crema bubbles, top-down view, served in a clean white ceramic cup.
@rss_ai_ir
#Prompt #AIArt #FoamArt #LatteArt #GenerativeAI #CoffeeLovers ☕️
👍32🥰29❤28🔥28🎉26😁18👏17✍1🙏1👌1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥ابزار Seedream 4 بهعنوان ابزار تغییر استایل (پوشاندن لباس روی فرد) واقعاً عالی عمل میکنه.
📸 ورودی فقط دو تصویر هست:
1. یک سلفی معمولی
2. یک کاراکتر با لباس انتخابی
🎞️ خروجی؟ تصویر ترکیبی دقیق، و وقتی انیمیشن با Kling 2.1 روش سوار میشه، نتیجه واقعاً چشمگیر میشه.
👕👗 برای تغییر پوشش و ساختن استایلهای متنوع روی افراد، Seedream 4 داره به یکی از بهترین ابزارهای این حوزه تبدیل میشه.
@rss_ai_ir
#AI #Seedream4 #Kling21 #GenerativeAI #FashionAI #AIart
📸 ورودی فقط دو تصویر هست:
1. یک سلفی معمولی
2. یک کاراکتر با لباس انتخابی
🎞️ خروجی؟ تصویر ترکیبی دقیق، و وقتی انیمیشن با Kling 2.1 روش سوار میشه، نتیجه واقعاً چشمگیر میشه.
👕👗 برای تغییر پوشش و ساختن استایلهای متنوع روی افراد، Seedream 4 داره به یکی از بهترین ابزارهای این حوزه تبدیل میشه.
@rss_ai_ir
#AI #Seedream4 #Kling21 #GenerativeAI #FashionAI #AIart
👍4❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Lucy
تازهترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.
🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبکتر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیهای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب میشود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر دادهاند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید
💡 نکته مهم: این مدل اپنسورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.
👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریلتایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانهای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).
🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir
---
#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
تازهترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.
🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبکتر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیهای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب میشود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر دادهاند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید
💡 نکته مهم: این مدل اپنسورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.
👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریلتایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانهای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).
🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir
---
#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
😁10👍5🔥5❤3🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🪄 Higgsfield
دوباره غافلگیر کرد: Fashion Factory
حالا میتوانید در چند مرحله ساده یک فوتوشوت حرفهای بسازید:
👤 ساخت کاراکتر
🌆 انتخاب پسزمینه
📸 تولید اولین ست عکس
👗 آپلود لباس دلخواه
✨ زدن روی «پیرایش» → و یک آلبوم کامل در همان لباس جدید تحویل بگیرید!
🔧 «هیگزها» مرتب فیچرهای قدیمیشان را در قالب مینیمحصولات تازه بستهبندی میکنند.
❌ ولی حیف که نسخه رایگان برای تست وجود نداره.
🔗 تست کنید:
Higgsfield Fashion Factory
@rss_ai_ir
#AI #FashionTech #GenerativeAI #هگزفیلد
دوباره غافلگیر کرد: Fashion Factory
حالا میتوانید در چند مرحله ساده یک فوتوشوت حرفهای بسازید:
👤 ساخت کاراکتر
🌆 انتخاب پسزمینه
📸 تولید اولین ست عکس
👗 آپلود لباس دلخواه
✨ زدن روی «پیرایش» → و یک آلبوم کامل در همان لباس جدید تحویل بگیرید!
🔧 «هیگزها» مرتب فیچرهای قدیمیشان را در قالب مینیمحصولات تازه بستهبندی میکنند.
❌ ولی حیف که نسخه رایگان برای تست وجود نداره.
🔗 تست کنید:
Higgsfield Fashion Factory
@rss_ai_ir
#AI #FashionTech #GenerativeAI #هگزفیلد
🔥16🎉14👍11❤9😁7🥰6👏4
این تصویر ۹ اصل کلیدی برای بهبود عملکرد سیستمهای RAG را نشون میده:
1️⃣ Chunking –
تقسیم بهینه اسناد (۵۱۲–۱۰۲۴ توکن) و استفاده از پنجرههای لغزان برای پوشش بهتر محتوا.
2️⃣ Embeddings –
استفاده از مدلهای بردار پیشرفته مثل BAAI یا MPNET برای دقت بالا.
3️⃣ Vector Store –
انتخاب دیتابیس مناسب (مثل Milvus, Weaviate, Pinecone) بر اساس مقیاس و سرعت.
4️⃣ Query Processing –
استفاده از تکنیکهای HYDE و hybrid search برای بهبود بازیابی.
5️⃣ Reranking –
اعمال مدلهای بازچینش مثل MonoBERT یا TILDE برای افزایش دقت.
6️⃣ Summarization –
ترکیب رویکردهای extractive و abstractive برای خلاصهسازی جامع.
7️⃣ Fine-tuning –
تنظیم دقیق مدل برای بهبود عملکرد در دامنههای خاص.
8️⃣ Evaluation –
پایش متریکهای عمومی و دامنهای برای بهبود مستمر سیستم.
9️⃣ LLM Integration –
ادغام هوشمند مدلهای زبانی بزرگ با retrieval.
🔟 Repacking –
پیادهسازی استراتژیهای sides, forward, reverse برای بستهبندی بهینه محتوا.
#هوش_مصنوعی #RAG #LLM #یادگیری_ماشین #AI #MachineLearning #GenerativeAI
1️⃣ Chunking –
تقسیم بهینه اسناد (۵۱۲–۱۰۲۴ توکن) و استفاده از پنجرههای لغزان برای پوشش بهتر محتوا.
2️⃣ Embeddings –
استفاده از مدلهای بردار پیشرفته مثل BAAI یا MPNET برای دقت بالا.
3️⃣ Vector Store –
انتخاب دیتابیس مناسب (مثل Milvus, Weaviate, Pinecone) بر اساس مقیاس و سرعت.
4️⃣ Query Processing –
استفاده از تکنیکهای HYDE و hybrid search برای بهبود بازیابی.
5️⃣ Reranking –
اعمال مدلهای بازچینش مثل MonoBERT یا TILDE برای افزایش دقت.
6️⃣ Summarization –
ترکیب رویکردهای extractive و abstractive برای خلاصهسازی جامع.
7️⃣ Fine-tuning –
تنظیم دقیق مدل برای بهبود عملکرد در دامنههای خاص.
8️⃣ Evaluation –
پایش متریکهای عمومی و دامنهای برای بهبود مستمر سیستم.
9️⃣ LLM Integration –
ادغام هوشمند مدلهای زبانی بزرگ با retrieval.
🔟 Repacking –
پیادهسازی استراتژیهای sides, forward, reverse برای بستهبندی بهینه محتوا.
#هوش_مصنوعی #RAG #LLM #یادگیری_ماشین #AI #MachineLearning #GenerativeAI
🔥21👏16🎉15❤12🥰12👍11😁11
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 استارتاپ جدید برای ساخت دنیا از روی عکس!
⛔️یک استارتاپ تازهنفس مدلی معرفی کرده که میتواند از یک عکس ساده → یک دنیای سهبعدی قابل اکتشاف بسازد. فعلاً امکان آپلود تصاویر شخصی وجود ندارد، اما میتوانید وارد دنیاهای ساختهشده توسط دیگران شوید و در آنها قدم بزنید:
👉 marble.worldlabs.ai
✨ نکته جالب: همین «نوارهای رنگی» یا Gaussian Splatting پایهی اصلی این شبیهسازیها هستند.
📱 از موبایل هم میشود دید، ولی کیفیت شبیهسازیها پایینتر است.
@rss_ai_ir
#هوش_مصنوعی #سهبعدی #مولد #AI #3D #GenerativeAI #Metaverse
⛔️یک استارتاپ تازهنفس مدلی معرفی کرده که میتواند از یک عکس ساده → یک دنیای سهبعدی قابل اکتشاف بسازد. فعلاً امکان آپلود تصاویر شخصی وجود ندارد، اما میتوانید وارد دنیاهای ساختهشده توسط دیگران شوید و در آنها قدم بزنید:
👉 marble.worldlabs.ai
✨ نکته جالب: همین «نوارهای رنگی» یا Gaussian Splatting پایهی اصلی این شبیهسازیها هستند.
📱 از موبایل هم میشود دید، ولی کیفیت شبیهسازیها پایینتر است.
@rss_ai_ir
#هوش_مصنوعی #سهبعدی #مولد #AI #3D #GenerativeAI #Metaverse
👏18😁16❤15🔥14🥰13👍12🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Ray3 —
❌ مدل جدید تولید ویدئو از Luma AI
⛔️این اولین مدل reasoning برای ویدئو است؛ مدلی که فقط تولید نمیکند، بلکه میفهمد: تحلیل میکند، خودش را اصلاح میکند و خروجیهایی در سطح استودیو ارائه میدهد.
✅امکان تست رایگان با Dream Machine وجود دارد.
🔥 ویژگیهای Ray3:
Draft Mode —
♻️ساخت سریع صحنه و سپس خروجی در کیفیت 4K HDR.
Reasoning —
♻️درک زبان و دستورات بصری، طراحی منطق حرکت و ترکیببندی، «تفکر» دربارهی آنچه تولید میشود.
Visual Annotations —
♻️کشیدن فلش یا دایره روی فریم کافیست تا مدل جهت حرکت دوربین یا شیء را بفهمد.
♻️فیزیک و رئالیسم — شبیهسازی حرکت، جمعیت، آناتومی، نور، بازتاب، و Motion Blur.
HDR Video —
♻️ خروجی ۱۰، ۱۲ و ۱۶ بیت HDR با رنگهای زنده، جزئیات در سایهها و روشناییها، و امکان خروجی EXR برای پستپروداکشن.
⚡️ نکات برجسته:
✳️سرعت و هزینه تولید ویدئو ۵ برابر بهتر شده.
✳️مناسب برای هنرمندان و کارگردانان: تست ایدهها در لحظه و ارتقا تا سطح تولید حرفهای.
✳️خروجیها کیفیت بسیار بالایی دارند.
🟠 جزییات بیشتر:
lumalabs.ai/ray3
@rss_ai_ir
#Ray3 #LumaAI #هوش_مصنوعی #ویدئو #AIVideo #GenerativeAI #ReasoningAI
❌ مدل جدید تولید ویدئو از Luma AI
⛔️این اولین مدل reasoning برای ویدئو است؛ مدلی که فقط تولید نمیکند، بلکه میفهمد: تحلیل میکند، خودش را اصلاح میکند و خروجیهایی در سطح استودیو ارائه میدهد.
✅امکان تست رایگان با Dream Machine وجود دارد.
🔥 ویژگیهای Ray3:
Draft Mode —
♻️ساخت سریع صحنه و سپس خروجی در کیفیت 4K HDR.
Reasoning —
♻️درک زبان و دستورات بصری، طراحی منطق حرکت و ترکیببندی، «تفکر» دربارهی آنچه تولید میشود.
Visual Annotations —
♻️کشیدن فلش یا دایره روی فریم کافیست تا مدل جهت حرکت دوربین یا شیء را بفهمد.
♻️فیزیک و رئالیسم — شبیهسازی حرکت، جمعیت، آناتومی، نور، بازتاب، و Motion Blur.
HDR Video —
♻️ خروجی ۱۰، ۱۲ و ۱۶ بیت HDR با رنگهای زنده، جزئیات در سایهها و روشناییها، و امکان خروجی EXR برای پستپروداکشن.
⚡️ نکات برجسته:
✳️سرعت و هزینه تولید ویدئو ۵ برابر بهتر شده.
✳️مناسب برای هنرمندان و کارگردانان: تست ایدهها در لحظه و ارتقا تا سطح تولید حرفهای.
✳️خروجیها کیفیت بسیار بالایی دارند.
🟠 جزییات بیشتر:
lumalabs.ai/ray3
@rss_ai_ir
#Ray3 #LumaAI #هوش_مصنوعی #ویدئو #AIVideo #GenerativeAI #ReasoningAI
👍8🔥8❤6🎉5🥰4😁4👏2🤔1
🌍📊 OmniWorld:
مجموعهداده چندمنظوره برای مدلسازی 4D
✳️مجموعه OmniWorld یک مجموعهداده عظیم و چندوجهی است که برای مدلسازی 4D طراحی شده و حوزههایی چون بازسازی هندسی و تولید ویدئو را پوشش میدهد. این دیتاست، دامنهها و فرمتهای متنوعی را در بر میگیرد و چندوجهی بودن غنی را تضمین میکند.
🚀 ویژگیهای کلیدی:
✅بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
✅منابع متنوع: شبیهسازها، رباتها، انسانها و اینترنت
✅کیفیت بالای برچسبگذاری برای مدلسازی 4D و تولید ویدئو
📌 GitHub: OmniWorld
@rss_ai_ir
#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
مجموعهداده چندمنظوره برای مدلسازی 4D
✳️مجموعه OmniWorld یک مجموعهداده عظیم و چندوجهی است که برای مدلسازی 4D طراحی شده و حوزههایی چون بازسازی هندسی و تولید ویدئو را پوشش میدهد. این دیتاست، دامنهها و فرمتهای متنوعی را در بر میگیرد و چندوجهی بودن غنی را تضمین میکند.
🚀 ویژگیهای کلیدی:
✅بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
✅منابع متنوع: شبیهسازها، رباتها، انسانها و اینترنت
✅کیفیت بالای برچسبگذاری برای مدلسازی 4D و تولید ویدئو
📌 GitHub: OmniWorld
@rss_ai_ir
#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
😁8🔥7🎉7👍4👏4❤3🥰3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 علیبابا مدل جدید ویدیویی Wan 2.2 (14B Animate) را معرفی کرد
این مدل تازه برای انتقال حرکتها و انیمیشن روی شخصیتها یا حتی حذف کامل آنها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لبها و حتی حرکت انگشتان نیز منتقل میشوند.
🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت میکند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را بهطور طبیعی جایگزین میکند (همراه با تطبیق نور و محیط).
⚡️ تست سختافزاری:
روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).
در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده میشدند.
🛠 ابزارها:
ComfyUI هماکنون وزنها را آماده کرده.
Kijai نیز ورکفلو و نسخهی GGUF برای دستگاههای با VRAM کمتر ارائه داده است.
📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندامها دیده میشود، اما با تنظیم پارامترها و محتوا قابل بهبود است.
👀 این مدل در آینده میتواند نقش مهمی در میکس ویدیو، انیمیشنسازی و تولید محتوای سینمایی داشته باشد. جامعهی مولتیمدیا حالا مشتاق است واکنشهای خلاقانه کاربران را ببیند.
🟩🔻
https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json
https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate
@rss_ai_ir
#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
این مدل تازه برای انتقال حرکتها و انیمیشن روی شخصیتها یا حتی حذف کامل آنها از صحنه طراحی شده است. نکته جالب اینجاست که حرکات بسیار ظریف مثل تغییرات صورت، حالت لبها و حتی حرکت انگشتان نیز منتقل میشوند.
🔹 دو حالت اصلی عملکرد:
1️⃣ حالت انیمیشن – با دریافت یک تصویر و یک ویدیو مرجع، شخصیت موجود در تصویر را انیمیت میکند.
2️⃣ حالت جایگزینی – شخصیت صحنه را حذف کرده و شخصیت تصویر را بهطور طبیعی جایگزین میکند (همراه با تطبیق نور و محیط).
⚡️ تست سختافزاری:
روی RTX 4090 + 128GB RAM، ویدیو 832×480 با 16fps و 49 فریم در ~۵ دقیقه تولید شد (VRAM پر و ۶۰GB رم مصرف شد).
در رزولوشن 1280×720، پردازش ~۲ ساعت طول کشید، با مصرف رم تا 130GB؛ اما کیفیت بالاتر بود و حرکات انگشتان بهتر دیده میشدند.
🛠 ابزارها:
ComfyUI هماکنون وزنها را آماده کرده.
Kijai نیز ورکفلو و نسخهی GGUF برای دستگاههای با VRAM کمتر ارائه داده است.
📌 نکته: هنوز مشکلاتی مثل حذف شدن گوش گربه (!) یا قطع شدن برخی اندامها دیده میشود، اما با تنظیم پارامترها و محتوا قابل بهبود است.
👀 این مدل در آینده میتواند نقش مهمی در میکس ویدیو، انیمیشنسازی و تولید محتوای سینمایی داشته باشد. جامعهی مولتیمدیا حالا مشتاق است واکنشهای خلاقانه کاربران را ببیند.
🟩🔻
https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
https://github.com/kijai/ComfyUI-WanVideoWrapper/blob/main/example_workflows/wanvideo_WanAnimate_example_01.json
https://www.modelscope.cn/studios/Wan-AI/Wan2.2-Animate
@rss_ai_ir
#Alibaba #Wan22 #AIvideo #Animation #GenerativeAI
❤18👏13🔥12😁12👍10🎉10🥰9🙏1
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
🔬 دانشمندان MIT ابزار جدیدی به نام SCIGEN معرفی کردند – سیستمی که به مدلهای مولد یاد میدهد به جای «تصاویر زیبا»، مواد واقعی و کاربردی تولید کنند.
✨ مشکل قدیمی: مدلهای هوش مصنوعی معمولاً ساختارهایی شبیه به نمونههای شناختهشده تولید میکنند و بهندرت فراتر میروند.
⚡ راهکار SCIGEN: اعمال محدودیتهای هندسی سختگیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راهحلهای نو اما پایدار.
🧪 در آزمایشها میلیونها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفتانگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگیهای پیشبینیشده را نشان دادند.
🚀 این یعنی آیندهای که در آن مواد مورد نیاز برای الکترونیک، فناوریهای کوانتومی و انرژی نه با جستجوی سالها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.
🔗 جزئیات: MIT News
@rss_ai_ir
#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
✨ مشکل قدیمی: مدلهای هوش مصنوعی معمولاً ساختارهایی شبیه به نمونههای شناختهشده تولید میکنند و بهندرت فراتر میروند.
⚡ راهکار SCIGEN: اعمال محدودیتهای هندسی سختگیرانه روی فرآیند تولید → وادار کردن مدل به جستجوی راهحلهای نو اما پایدار.
🧪 در آزمایشها میلیونها کاندیدا ساخته و بر اساس پایداری و خواص فیلتر شدند. نتیجه شگفتانگیز بود: دو ترکیب ناشناخته (TiPdBi و TiPbSb) واقعاً در آزمایشگاه سنتز شدند و ویژگیهای پیشبینیشده را نشان دادند.
🚀 این یعنی آیندهای که در آن مواد مورد نیاز برای الکترونیک، فناوریهای کوانتومی و انرژی نه با جستجوی سالها، بلکه با طراحی هدفمند توسط هوش مصنوعی پیدا خواهند شد.
🔗 جزئیات: MIT News
@rss_ai_ir
#هوش_مصنوعی #MIT #GenerativeAI #علم_مواد #SCIGEN
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونههایی شبیه Vine دید.
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI