خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونههایی شبیه Vine دید.
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI
⛔️به نظرم از نظر مکانیک خیلی عقبتر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپفیک #AI #GenerativeAI
This media is not supported in your browser
VIEW IN TELEGRAM
🎤 تجربهای فراتر از گفتار با Octave 2 از Hume AI
✅مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آنقدر طبیعی که حتی میتواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---
🎧 ویژگیهای کلیدی:
♻️شبیهسازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه بهصورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلونکردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگهای تعاملی و اپلیکیشنهای صوتی هوش مصنوعی
---
💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.
🎙 میتوانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2
#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
✅مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آنقدر طبیعی که حتی میتواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---
🎧 ویژگیهای کلیدی:
♻️شبیهسازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه بهصورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلونکردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگهای تعاملی و اپلیکیشنهای صوتی هوش مصنوعی
---
💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.
🎙 میتوانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2
#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!
🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام میده.
در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡
📦 امکاناتش:
♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨
♻️پشتیبانی از ویرایش ناحیهای و تنظیمات سبک
♻️عملکرد چشمگیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen
♻️کاملاً اوپنسورس با کد، مقاله و دموی آماده برای تست
📎 لینکها:
🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2
به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅
@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام میده.
در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡
📦 امکاناتش:
♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨
♻️پشتیبانی از ویرایش ناحیهای و تنظیمات سبک
♻️عملکرد چشمگیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen
♻️کاملاً اوپنسورس با کد، مقاله و دموی آماده برای تست
📎 لینکها:
🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2
به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅
@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
😳 باورکردنی نیست اگر این درز اطلاعات واقعیت داشته باشه!
🎶 احتمالاGemini 3.0 ظاهراً قادره موسیقی اصلی بسازه و خودش اجراش کنه!
گوگل واقعاً داره مرز بین مدل زبانی و هنرمند دیجیتال رو از بین میبره.
مدل نهتنها متن و تصویر، بلکه حالا نت، ریتم، و اجرای زندهی موسیقی رو هم تولید میکنه.
🎹 اگه درست باشه، یعنی وارد دورهای شدیم که مدلهای مولد چندوجهی (multimodal) واقعاً میتونن خلاقیت انسانی رو شبیهسازی کنن.
@rss_ai_ir
#Gemini3 #AI #Google #GenerativeAI #MusicAI #Innovation
🎶 احتمالاGemini 3.0 ظاهراً قادره موسیقی اصلی بسازه و خودش اجراش کنه!
گوگل واقعاً داره مرز بین مدل زبانی و هنرمند دیجیتال رو از بین میبره.
مدل نهتنها متن و تصویر، بلکه حالا نت، ریتم، و اجرای زندهی موسیقی رو هم تولید میکنه.
🎹 اگه درست باشه، یعنی وارد دورهای شدیم که مدلهای مولد چندوجهی (multimodal) واقعاً میتونن خلاقیت انسانی رو شبیهسازی کنن.
@rss_ai_ir
#Gemini3 #AI #Google #GenerativeAI #MusicAI #Innovation
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
💻🤯 Gemini 3.0 Pro
میتواند شبیهساز کامل سیستمعامل بسازد!
گوگل با مدل جدید Gemini 3.0 Pro مرزهای خلاقیت هوش مصنوعی را جابهجا کرده است — کاربران گزارش دادهاند که این مدل میتواند تنها با یک پرامپت ساده، یک سیستمعامل شبیه Windows یا macOS را بهطور کامل در قالب یک فایل HTML ایجاد کند!
🔹 یکی از کاربران از Gemini خواسته بود:
🔹 نتیجه؟
یک شبیهساز کامل و تعاملی از Windows و macOS که تنها با HTML، CSS و JavaScript در مرورگر اجرا میشود — با آیکونها، انیمیشنها و اپهای واقعی.
🔹 دموی زنده را میتوانید اینجا ببینید:
🪟 نسخه Windows
🍎 نسخه macOS
🔹 نسخه عمومی Gemini 3.0 طبق شایعات در اکتبر منتشر میشود، و مدلهای Pro در Google AI Studio در دسترس خواهند بود.
اگر این دمو واقعاً بازتاب تواناییهای مدل باشد، Gemini بهزودی مرز بین دستیار برنامهنویسی و خالق خودکار نرمافزار را از بین خواهد برد.
@rss_ai_ir
#Gemini3 #AI #Google #WebOS #GenerativeAI #Coding #Innovation
میتواند شبیهساز کامل سیستمعامل بسازد!
گوگل با مدل جدید Gemini 3.0 Pro مرزهای خلاقیت هوش مصنوعی را جابهجا کرده است — کاربران گزارش دادهاند که این مدل میتواند تنها با یک پرامپت ساده، یک سیستمعامل شبیه Windows یا macOS را بهطور کامل در قالب یک فایل HTML ایجاد کند!
🔹 یکی از کاربران از Gemini خواسته بود:
> «یک سیستمعامل وب مانند Windows بساز با ویرایشگر متن، ترمینال (با پشتیبانی از Python)، فایلمنیجر، Paint، ویرایشگر ویدیو و چند ابزار دیگر.»
و مدل تمام کد را در یک مرحله تحویل داد.
🔹 نتیجه؟
یک شبیهساز کامل و تعاملی از Windows و macOS که تنها با HTML، CSS و JavaScript در مرورگر اجرا میشود — با آیکونها، انیمیشنها و اپهای واقعی.
🔹 دموی زنده را میتوانید اینجا ببینید:
🪟 نسخه Windows
🍎 نسخه macOS
🔹 نسخه عمومی Gemini 3.0 طبق شایعات در اکتبر منتشر میشود، و مدلهای Pro در Google AI Studio در دسترس خواهند بود.
اگر این دمو واقعاً بازتاب تواناییهای مدل باشد، Gemini بهزودی مرز بین دستیار برنامهنویسی و خالق خودکار نرمافزار را از بین خواهد برد.
@rss_ai_ir
#Gemini3 #AI #Google #WebOS #GenerativeAI #Coding #Innovation
❤4🔥3
🔥 خبر داغ برای علاقهمندان هوش مصنوعی!
کاربرها گزارش دادهاند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.
🎬 نسخهی جدید Veo طبق شایعات:
♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالتهای سینمایی و پریستهای نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow
❌بهنظر میرسه گوگل داره جدیتر از همیشه وارد رقابت با Sora از OpenAI میشه.
@rss_ai_ir
#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
کاربرها گزارش دادهاند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.
🎬 نسخهی جدید Veo طبق شایعات:
♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالتهای سینمایی و پریستهای نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow
❌بهنظر میرسه گوگل داره جدیتر از همیشه وارد رقابت با Sora از OpenAI میشه.
@rss_ai_ir
#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
📊 هوش مصنوعی و بازار کار آمریکا؛ هنوز خبری از آخرالزمان نیست، اما نشانههایی نگرانکننده دیده میشود
پژوهشگران بازار کار آمریکا همچنان در حال بررسی تأثیر هوش مصنوعی بر اشتغال هستند — و تا این لحظه، هیچ فاجعهای که برخی رسانهها و بدبینان وعده میدادند، دیده نمیشود.
اما با نگاهی دقیقتر، روندهایی در حال شکلگیری است که تا حدی نتایج پژوهش اخیر دانشگاه استنفورد را تأیید میکند.
💼 نکات کلیدی:
✅اجرای واقعی فناوریهای هوش مصنوعی تازه آغاز شده است.
✅از سال گذشته، تعداد موقعیتهای شغلی مرتبط با ادغام هوش مصنوعی در فرآیندهای تجاری بهطور پیوسته در حال افزایش است.
پژوهشگران شرکتها را به دو گروه تقسیم کردند:
♻️شرکتهای AI-adopters (پذیرفته و بهکارگیرندهی هوش مصنوعی) و سایر شرکتها.
♻️نتیجه: در گروه نخست، روند استخدام تغییر کرده — کاهش استخدام نیروهای تازهکار (Junior) و افزایش جذب متخصصان ارشد (Senior).
♻️هرچند این شرکتها هنوز تنها حدود ۱۷٪ از بازار کار را تشکیل میدهند و تأثیر فعلاً ملایم است.
📘 نام پژوهش نیز جالب است:
Generative AI as Seniority-Biased Technological Change —
«هوش مصنوعی مولد بهعنوان تغییری فناورانه با سوگیری به نفع نیروهای باتجربه».
🎓 بررسیها نشان میدهد که تأثیر این روند به سطح دانشگاه محل تحصیل نیروهای تازهکار نیز بستگی دارد:
✳️فارغالتحصیلان دانشگاههای برتر کمترین آسیب را دیدهاند.
✳️به شکل جالبی، فارغالتحصیلان دانشگاههای ضعیفتر هم وضعیت نسبتاً بهتری دارند — چون ارزانترند.
✳️اما آسیبدیدهترین گروه، دانشآموختگان دانشگاههای متوسط هستند که در رقابت بازار کار عقب افتادهاند.
📈 نتیجه:
فعلاً خبری از «آخرالزمان شغلی با هوش مصنوعی» نیست،
اما ساختار بازار کار آرامآرام تغییر میکند —
به نفع نیروهای باتجربه و به زیان تازهکارها.
🔗 منبع: The Economist
#هوش_مصنوعی #بازارکار #اقتصاد #آینده_شغل #AI #Economist #GenerativeAI
پژوهشگران بازار کار آمریکا همچنان در حال بررسی تأثیر هوش مصنوعی بر اشتغال هستند — و تا این لحظه، هیچ فاجعهای که برخی رسانهها و بدبینان وعده میدادند، دیده نمیشود.
اما با نگاهی دقیقتر، روندهایی در حال شکلگیری است که تا حدی نتایج پژوهش اخیر دانشگاه استنفورد را تأیید میکند.
💼 نکات کلیدی:
✅اجرای واقعی فناوریهای هوش مصنوعی تازه آغاز شده است.
✅از سال گذشته، تعداد موقعیتهای شغلی مرتبط با ادغام هوش مصنوعی در فرآیندهای تجاری بهطور پیوسته در حال افزایش است.
پژوهشگران شرکتها را به دو گروه تقسیم کردند:
♻️شرکتهای AI-adopters (پذیرفته و بهکارگیرندهی هوش مصنوعی) و سایر شرکتها.
♻️نتیجه: در گروه نخست، روند استخدام تغییر کرده — کاهش استخدام نیروهای تازهکار (Junior) و افزایش جذب متخصصان ارشد (Senior).
♻️هرچند این شرکتها هنوز تنها حدود ۱۷٪ از بازار کار را تشکیل میدهند و تأثیر فعلاً ملایم است.
📘 نام پژوهش نیز جالب است:
Generative AI as Seniority-Biased Technological Change —
«هوش مصنوعی مولد بهعنوان تغییری فناورانه با سوگیری به نفع نیروهای باتجربه».
🎓 بررسیها نشان میدهد که تأثیر این روند به سطح دانشگاه محل تحصیل نیروهای تازهکار نیز بستگی دارد:
✳️فارغالتحصیلان دانشگاههای برتر کمترین آسیب را دیدهاند.
✳️به شکل جالبی، فارغالتحصیلان دانشگاههای ضعیفتر هم وضعیت نسبتاً بهتری دارند — چون ارزانترند.
✳️اما آسیبدیدهترین گروه، دانشآموختگان دانشگاههای متوسط هستند که در رقابت بازار کار عقب افتادهاند.
📈 نتیجه:
فعلاً خبری از «آخرالزمان شغلی با هوش مصنوعی» نیست،
اما ساختار بازار کار آرامآرام تغییر میکند —
به نفع نیروهای باتجربه و به زیان تازهکارها.
🔗 منبع: The Economist
#هوش_مصنوعی #بازارکار #اقتصاد #آینده_شغل #AI #Economist #GenerativeAI
👍1😁1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 FlashWorld —
تولید صحنههای سهبعدی در ۵ ثانیه با یک GPU ⚡️
سیستم جدید FlashWorld معرفی شد — مدلی که میتواند از یک تصویر یا فقط یک توضیح متنی، صحنههای سهبعدی واقعی و با جزئیات بالا تولید کند.
🚀 ویژگیها:
♻️تا ۱۰۰ برابر سریعتر از روشهای قبلی
♻️کیفیت بالا و فوتورئالیستی
♻️تولید کامل صحنه در ۵ ثانیه فقط با یک GPU
به زبان ساده، FlashWorld کاری میکند که با یک کلیک، جهان سهبعدیات ساخته شود — مثل فشردن دکمه «render reality».
🔗 کد:
github.com/imlixinyang/FlashWorld
🌐 صفحه پروژه:
imlixinyang.github.io/FlashWorld-Project-Page
#AI #3D #FlashWorld #GenerativeAI #هوش_مصنوعی #گرافیک #یادگیری_ماشین
تولید صحنههای سهبعدی در ۵ ثانیه با یک GPU ⚡️
سیستم جدید FlashWorld معرفی شد — مدلی که میتواند از یک تصویر یا فقط یک توضیح متنی، صحنههای سهبعدی واقعی و با جزئیات بالا تولید کند.
🚀 ویژگیها:
♻️تا ۱۰۰ برابر سریعتر از روشهای قبلی
♻️کیفیت بالا و فوتورئالیستی
♻️تولید کامل صحنه در ۵ ثانیه فقط با یک GPU
به زبان ساده، FlashWorld کاری میکند که با یک کلیک، جهان سهبعدیات ساخته شود — مثل فشردن دکمه «render reality».
🔗 کد:
github.com/imlixinyang/FlashWorld
🌐 صفحه پروژه:
imlixinyang.github.io/FlashWorld-Project-Page
#AI #3D #FlashWorld #GenerativeAI #هوش_مصنوعی #گرافیک #یادگیری_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI