VIRSUN
7.45K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🖥 مدل HunyuanImage 2.1 اکنون در نسخه کوانتیزه منتشر شد!

این مدل متن‌به‌تصویر می‌تواند خروجی‌هایی با رزولوشن 2K تولید کند و حالا امکان اجرای آن به‌صورت محلی (local) هم فراهم شده است.

💡 برای اجرای نسخه کوانتیزه به حداقل ۲۴ گیگابایت VRAM نیاز دارید.

🟢 Hugging Face

@rss_ai_ir

#هوش_مصنوعی #HunyuanImage #تولید_تصویر #مدل_زبان #AI #StableDiffusion #ImageGeneration
😁9👍7🎉42🔥2
📸 HunyuanImage 2.1 –
دردسرهای تست مدل تصویری تنسنت

یکی از کاربران تجربه‌اش از تست HunyuanImage-2.1 در رزولوشن 2048×2048 را به اشتراک گذاشته:

نتیجه اولیه:

✳️خیلی کند
✳️کیفیت خروجی نسبت به زمان محاسبه، ارزشمند نیست 😕


🔹 مسائل اصلی:

✳️مدل بسیار حجیم است و از چندین ماژول (denoiser، refiner، reprompter و ...) تشکیل شده.
✳️حتی روی کارت H100 هم با CPU offloading اجرای آن به شدت کند می‌شود.
✳️نیاز به 200 گیگابایت RAM (60GB روی GPU + 140GB روی CPU) داشت!


🔹 تجربه اجرا:

✳️بارگذاری مدل‌ها حدود ۳ دقیقه طول می‌کشد.
✳️تولید تصویر ۲K روی H100 حدود ۱ دقیقه.
✳️اجرای refiner یا rewrite (بازنویسی پرامپت) زمان را تا ۵ دقیقه افزایش می‌دهد.
✳️خروجی در بهترین حالت کمی بهتر از Qwen Image است، اما نه خیلی متفاوت.


🔹 نقاط قوت:
درک عالی پرامپت
عملکرد خوب در تولید متن روی تصویر، مناظر، انیمه و آبستره‌ها

🔹 نقاط ضعف:
سرعت بسیار پایین
مدیریت حافظه ناکارآمد (CPU GPU swapping)
کیفیت نه‌چندان خاص روی تصاویر انسان
خروجی کمی «سوخته» یا بیش از حد اشباع

📌 نویسنده جمع‌بندی می‌کند که فعلاً ادامه دادن با این مدل ارزش وقت ندارد و باید منتظر ادغام با ComfyUI و بهبود مدیریت حافظه بود.

🔗 کد و جزئیات در گیت‌هاب


#هوش_مصنوعی #تنسنت #تولید_تصویر #HunyuanImage #مدل_دیفیوژن #مولد_تصویر #پردازش_تصویر #کامفی #GPU #AI_Models #ImageGeneration
🎉37🥰35👍3432🔥31👏31😁21
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1