🖥 مدل HunyuanImage 2.1 اکنون در نسخه کوانتیزه منتشر شد!
این مدل متنبهتصویر میتواند خروجیهایی با رزولوشن 2K تولید کند و حالا امکان اجرای آن بهصورت محلی (local) هم فراهم شده است.
💡 برای اجرای نسخه کوانتیزه به حداقل ۲۴ گیگابایت VRAM نیاز دارید.
🟢 Hugging Face
@rss_ai_ir
#هوش_مصنوعی #HunyuanImage #تولید_تصویر #مدل_زبان #AI #StableDiffusion #ImageGeneration
این مدل متنبهتصویر میتواند خروجیهایی با رزولوشن 2K تولید کند و حالا امکان اجرای آن بهصورت محلی (local) هم فراهم شده است.
💡 برای اجرای نسخه کوانتیزه به حداقل ۲۴ گیگابایت VRAM نیاز دارید.
🟢 Hugging Face
@rss_ai_ir
#هوش_مصنوعی #HunyuanImage #تولید_تصویر #مدل_زبان #AI #StableDiffusion #ImageGeneration
😁9👍7🎉4❤2🔥2
📸 HunyuanImage 2.1 –
دردسرهای تست مدل تصویری تنسنت
✅یکی از کاربران تجربهاش از تست HunyuanImage-2.1 در رزولوشن 2048×2048 را به اشتراک گذاشته:
⚡ نتیجه اولیه:
✳️خیلی کند ⏳
✳️کیفیت خروجی نسبت به زمان محاسبه، ارزشمند نیست 😕
🔹 مسائل اصلی:
✳️مدل بسیار حجیم است و از چندین ماژول (denoiser، refiner، reprompter و ...) تشکیل شده.
✳️حتی روی کارت H100 هم با CPU offloading اجرای آن به شدت کند میشود.
✳️نیاز به 200 گیگابایت RAM (60GB روی GPU + 140GB روی CPU) داشت!
🔹 تجربه اجرا:
✳️بارگذاری مدلها حدود ۳ دقیقه طول میکشد.
✳️تولید تصویر ۲K روی H100 حدود ۱ دقیقه.
✳️اجرای refiner یا rewrite (بازنویسی پرامپت) زمان را تا ۵ دقیقه افزایش میدهد.
✳️خروجی در بهترین حالت کمی بهتر از Qwen Image است، اما نه خیلی متفاوت.
🔹 نقاط قوت:
✅ درک عالی پرامپت
✅ عملکرد خوب در تولید متن روی تصویر، مناظر، انیمه و آبسترهها
🔹 نقاط ضعف:
❌ سرعت بسیار پایین
❌ مدیریت حافظه ناکارآمد (CPU ↔ GPU swapping)
❌ کیفیت نهچندان خاص روی تصاویر انسان
❌ خروجی کمی «سوخته» یا بیش از حد اشباع
📌 نویسنده جمعبندی میکند که فعلاً ادامه دادن با این مدل ارزش وقت ندارد و باید منتظر ادغام با ComfyUI و بهبود مدیریت حافظه بود.
🔗 کد و جزئیات در گیتهاب
#هوش_مصنوعی #تنسنت #تولید_تصویر #HunyuanImage #مدل_دیفیوژن #مولد_تصویر #پردازش_تصویر #کامفی #GPU #AI_Models #ImageGeneration
دردسرهای تست مدل تصویری تنسنت
✅یکی از کاربران تجربهاش از تست HunyuanImage-2.1 در رزولوشن 2048×2048 را به اشتراک گذاشته:
⚡ نتیجه اولیه:
✳️خیلی کند ⏳
✳️کیفیت خروجی نسبت به زمان محاسبه، ارزشمند نیست 😕
🔹 مسائل اصلی:
✳️مدل بسیار حجیم است و از چندین ماژول (denoiser، refiner، reprompter و ...) تشکیل شده.
✳️حتی روی کارت H100 هم با CPU offloading اجرای آن به شدت کند میشود.
✳️نیاز به 200 گیگابایت RAM (60GB روی GPU + 140GB روی CPU) داشت!
🔹 تجربه اجرا:
✳️بارگذاری مدلها حدود ۳ دقیقه طول میکشد.
✳️تولید تصویر ۲K روی H100 حدود ۱ دقیقه.
✳️اجرای refiner یا rewrite (بازنویسی پرامپت) زمان را تا ۵ دقیقه افزایش میدهد.
✳️خروجی در بهترین حالت کمی بهتر از Qwen Image است، اما نه خیلی متفاوت.
🔹 نقاط قوت:
✅ درک عالی پرامپت
✅ عملکرد خوب در تولید متن روی تصویر، مناظر، انیمه و آبسترهها
🔹 نقاط ضعف:
❌ سرعت بسیار پایین
❌ مدیریت حافظه ناکارآمد (CPU ↔ GPU swapping)
❌ کیفیت نهچندان خاص روی تصاویر انسان
❌ خروجی کمی «سوخته» یا بیش از حد اشباع
📌 نویسنده جمعبندی میکند که فعلاً ادامه دادن با این مدل ارزش وقت ندارد و باید منتظر ادغام با ComfyUI و بهبود مدیریت حافظه بود.
🔗 کد و جزئیات در گیتهاب
#هوش_مصنوعی #تنسنت #تولید_تصویر #HunyuanImage #مدل_دیفیوژن #مولد_تصویر #پردازش_تصویر #کامفی #GPU #AI_Models #ImageGeneration
🎉37🥰35👍34❤32🔥31👏31😁21
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1