VIRSUN

خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.

چی‌کار می‌کنه؟

✅بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

✅آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

✅پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.

من خودم یک تست زدم:
بهش گفتم:

solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

❌هنوز image2image نداره.

❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

❌وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

❌برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

❌به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

❌گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.

جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news

❤1👍1🔥1👏1

1.11K views16:45

VIRSUN

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 در meta.ai حالا میشه نمونه‌هایی شبیه Vine دید.

⛔️به نظرم از نظر مکانیک خیلی عقب‌تر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپ‌فیک #AI #GenerativeAI

1.15K views12:23

VIRSUN

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

🎤 تجربه‌ای فراتر از گفتار با Octave 2 از Hume AI

✅مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آن‌قدر طبیعی که حتی می‌تواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---

🎧 ویژگی‌های کلیدی:

♻️شبیه‌سازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه به‌صورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلون‌کردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگ‌های تعاملی و اپلیکیشن‌های صوتی هوش مصنوعی

---

💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.

🎙 می‌توانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2

#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir

👍1

1.4K views03:12

VIRSUN

6:00

This media is not supported in your browser

VIEW IN TELEGRAM

😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست

📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana

❤1

1.46K views03:30

VIRSUN

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

😳 باورکردنی نیست اگر این درز اطلاعات واقعیت داشته باشه!

🎶 احتمالاGemini 3.0 ظاهراً قادره موسیقی اصلی بسازه و خودش اجراش کنه!

گوگل واقعاً داره مرز بین مدل زبانی و هنرمند دیجیتال رو از بین می‌بره.
مدل نه‌تنها متن و تصویر، بلکه حالا نت، ریتم، و اجرای زنده‌ی موسیقی رو هم تولید می‌کنه.

🎹 اگه درست باشه، یعنی وارد دوره‌ای شدیم که مدل‌های مولد چندوجهی (multimodal) واقعاً می‌تونن خلاقیت انسانی رو شبیه‌سازی کنن.

@rss_ai_ir

#Gemini3 #AI #Google #GenerativeAI #MusicAI #Innovation

👍3

319 viewsedited 03:35

VIRSUN

1:42

This media is not supported in your browser

VIEW IN TELEGRAM

💻🤯 Gemini 3.0 Pro
می‌تواند شبیه‌ساز کامل سیستم‌عامل بسازد!

گوگل با مدل جدید Gemini 3.0 Pro مرزهای خلاقیت هوش مصنوعی را جابه‌جا کرده است — کاربران گزارش داده‌اند که این مدل می‌تواند تنها با یک پرامپت ساده، یک سیستم‌عامل شبیه Windows یا macOS را به‌طور کامل در قالب یک فایل HTML ایجاد کند!

🔹 یکی از کاربران از Gemini خواسته بود:

> «یک سیستم‌عامل وب مانند Windows بساز با ویرایشگر متن، ترمینال (با پشتیبانی از Python)، فایل‌منیجر، Paint، ویرایشگر ویدیو و چند ابزار دیگر.»
و مدل تمام کد را در یک مرحله تحویل داد.

🔹 نتیجه؟
یک شبیه‌ساز کامل و تعاملی از Windows و macOS که تنها با HTML، CSS و JavaScript در مرورگر اجرا می‌شود — با آیکون‌ها، انیمیشن‌ها و اپ‌های واقعی.

🔹 دموی زنده را می‌توانید اینجا ببینید:
🪟 نسخه Windows
🍎 نسخه macOS

🔹 نسخه عمومی Gemini 3.0 طبق شایعات در اکتبر منتشر می‌شود، و مدل‌های Pro در Google AI Studio در دسترس خواهند بود.

اگر این دمو واقعاً بازتاب توانایی‌های مدل باشد، Gemini به‌زودی مرز بین دستیار برنامه‌نویسی و خالق خودکار نرم‌افزار را از بین خواهد برد.

@rss_ai_ir

#Gemini3 #AI #Google #WebOS #GenerativeAI #Coding #Innovation

❤4🔥3

404 views16:46

VIRSUN

🔥 خبر داغ برای علاقه‌مندان هوش مصنوعی!

کاربرها گزارش داده‌اند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.

🎬 نسخه‌ی جدید Veo طبق شایعات:

♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالت‌های سینمایی و پری‌ست‌های نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow

❌به‌نظر می‌رسه گوگل داره جدی‌تر از همیشه وارد رقابت با Sora از OpenAI می‌شه.

@rss_ai_ir

#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora

1.46K views17:01

VIRSUN

📊 هوش مصنوعی و بازار کار آمریکا؛ هنوز خبری از آخرالزمان نیست، اما نشانه‌هایی نگران‌کننده دیده می‌شود

پژوهشگران بازار کار آمریکا همچنان در حال بررسی تأثیر هوش مصنوعی بر اشتغال هستند — و تا این لحظه، هیچ فاجعه‌ای که برخی رسانه‌ها و بدبینان وعده می‌دادند، دیده نمی‌شود.
اما با نگاهی دقیق‌تر، روندهایی در حال شکل‌گیری است که تا حدی نتایج پژوهش اخیر دانشگاه استنفورد را تأیید می‌کند.

💼 نکات کلیدی:

✅اجرای واقعی فناوری‌های هوش مصنوعی تازه آغاز شده است.
✅از سال گذشته، تعداد موقعیت‌های شغلی مرتبط با ادغام هوش مصنوعی در فرآیندهای تجاری به‌طور پیوسته در حال افزایش است.

پژوهشگران شرکت‌ها را به دو گروه تقسیم کردند:
♻️شرکت‌های AI-adopters (پذیرفته‌ و به‌کارگیرنده‌ی هوش مصنوعی) و سایر شرکت‌ها.
♻️نتیجه: در گروه نخست، روند استخدام تغییر کرده — کاهش استخدام نیروهای تازه‌کار (Junior) و افزایش جذب متخصصان ارشد (Senior).
♻️هرچند این شرکت‌ها هنوز تنها حدود ۱۷٪ از بازار کار را تشکیل می‌دهند و تأثیر فعلاً ملایم است.

📘 نام پژوهش نیز جالب است:
Generative AI as Seniority-Biased Technological Change —
«هوش مصنوعی مولد به‌عنوان تغییری فناورانه با سوگیری به نفع نیروهای باتجربه».

🎓 بررسی‌ها نشان می‌دهد که تأثیر این روند به سطح دانشگاه محل تحصیل نیروهای تازه‌کار نیز بستگی دارد:

✳️فارغ‌التحصیلان دانشگاه‌های برتر کمترین آسیب را دیده‌اند.

✳️به شکل جالبی، فارغ‌التحصیلان دانشگاه‌های ضعیف‌تر هم وضعیت نسبتاً بهتری دارند — چون ارزان‌ترند.

✳️اما آسیب‌دیده‌ترین گروه، دانش‌آموختگان دانشگاه‌های متوسط هستند که در رقابت بازار کار عقب افتاده‌اند.

📈 نتیجه:
فعلاً خبری از «آخرالزمان شغلی با هوش مصنوعی» نیست،
اما ساختار بازار کار آرام‌آرام تغییر می‌کند —
به نفع نیروهای باتجربه و به زیان تازه‌کارها.

🔗 منبع: The Economist

#هوش_مصنوعی #بازارکار #اقتصاد #آینده_شغل #AI #Economist #GenerativeAI

👍1😁1💔1

3.83K views16:50

VIRSUN

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

🌍 FlashWorld —
تولید صحنه‌های سه‌بعدی در ۵ ثانیه با یک GPU ⚡️

سیستم جدید FlashWorld معرفی شد — مدلی که می‌تواند از یک تصویر یا فقط یک توضیح متنی، صحنه‌های سه‌بعدی واقعی و با جزئیات بالا تولید کند.

🚀 ویژگی‌ها:

♻️تا ۱۰۰ برابر سریع‌تر از روش‌های قبلی
♻️کیفیت بالا و فوتورئالیستی
♻️تولید کامل صحنه در ۵ ثانیه فقط با یک GPU

به زبان ساده، FlashWorld کاری می‌کند که با یک کلیک، جهان سه‌بعدی‌ات ساخته شود — مثل فشردن دکمه «render reality».

🔗 کد:
github.com/imlixinyang/FlashWorld
🌐 صفحه پروژه:
imlixinyang.github.io/FlashWorld-Project-Page

#AI #3D #FlashWorld #GenerativeAI #هوش_مصنوعی #گرافیک #یادگیری_ماشین

1.47K views13:09

VIRSUN

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)

🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.

🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI

305 views03:44

About

Blog

Apps

Platform