VIRSUN
6.11K subscribers
1.05K photos
608 videos
5 files
674 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 در meta.ai حالا میشه نمونه‌هایی شبیه Vine دید.

⛔️به نظرم از نظر مکانیک خیلی عقب‌تر از Sora ـه،
ولی خب این رقابت سریع پیش میره – بعید نیست ظرف چند هفته متا هم Cameo رو به سرویسش اضافه کنه.
@rss_ai_ir
#هوش_مصنوعی #MetaAI #Sora #دیپ‌فیک #AI #GenerativeAI
This media is not supported in your browser
VIEW IN TELEGRAM
🎤 تجربه‌ای فراتر از گفتار با Octave 2 از Hume AI

مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آن‌قدر طبیعی که حتی می‌تواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---

🎧 ویژگی‌های کلیدی:

♻️شبیه‌سازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه به‌صورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلون‌کردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگ‌های تعاملی و اپلیکیشن‌های صوتی هوش مصنوعی

---

💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.

🎙 می‌توانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2

#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست


📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
1
This media is not supported in your browser
VIEW IN TELEGRAM
😳 باورکردنی نیست اگر این درز اطلاعات واقعیت داشته باشه!

🎶 احتمالاGemini 3.0 ظاهراً قادره موسیقی اصلی بسازه و خودش اجراش کنه!

گوگل واقعاً داره مرز بین مدل زبانی و هنرمند دیجیتال رو از بین می‌بره.
مدل نه‌تنها متن و تصویر، بلکه حالا نت، ریتم، و اجرای زنده‌ی موسیقی رو هم تولید می‌کنه.

🎹 اگه درست باشه، یعنی وارد دوره‌ای شدیم که مدل‌های مولد چندوجهی (multimodal) واقعاً می‌تونن خلاقیت انسانی رو شبیه‌سازی کنن.

@rss_ai_ir

#Gemini3 #AI #Google #GenerativeAI #MusicAI #Innovation
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
💻🤯 Gemini 3.0 Pro
می‌تواند شبیه‌ساز کامل سیستم‌عامل بسازد!

گوگل با مدل جدید Gemini 3.0 Pro مرزهای خلاقیت هوش مصنوعی را جابه‌جا کرده است — کاربران گزارش داده‌اند که این مدل می‌تواند تنها با یک پرامپت ساده، یک سیستم‌عامل شبیه Windows یا macOS را به‌طور کامل در قالب یک فایل HTML ایجاد کند!

🔹 یکی از کاربران از Gemini خواسته بود:
> «یک سیستم‌عامل وب مانند Windows بساز با ویرایشگر متن، ترمینال (با پشتیبانی از Python)، فایل‌منیجر، Paint، ویرایشگر ویدیو و چند ابزار دیگر.»
و مدل تمام کد را در یک مرحله تحویل داد.



🔹 نتیجه؟
یک شبیه‌ساز کامل و تعاملی از Windows و macOS که تنها با HTML، CSS و JavaScript در مرورگر اجرا می‌شود — با آیکون‌ها، انیمیشن‌ها و اپ‌های واقعی.

🔹 دموی زنده را می‌توانید اینجا ببینید:
🪟 نسخه Windows
🍎 نسخه macOS

🔹 نسخه عمومی Gemini 3.0 طبق شایعات در اکتبر منتشر می‌شود، و مدل‌های Pro در Google AI Studio در دسترس خواهند بود.

اگر این دمو واقعاً بازتاب توانایی‌های مدل باشد، Gemini به‌زودی مرز بین دستیار برنامه‌نویسی و خالق خودکار نرم‌افزار را از بین خواهد برد.

@rss_ai_ir

#Gemini3 #AI #Google #WebOS #GenerativeAI #Coding #Innovation
4🔥3
🔥 خبر داغ برای علاقه‌مندان هوش مصنوعی!

کاربرها گزارش داده‌اند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.

🎬 نسخه‌ی جدید Veo طبق شایعات:

♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالت‌های سینمایی و پری‌ست‌های نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow


به‌نظر می‌رسه گوگل داره جدی‌تر از همیشه وارد رقابت با Sora از OpenAI می‌شه.

@rss_ai_ir

#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
📊 هوش مصنوعی و بازار کار آمریکا؛ هنوز خبری از آخرالزمان نیست، اما نشانه‌هایی نگران‌کننده دیده می‌شود

پژوهشگران بازار کار آمریکا همچنان در حال بررسی تأثیر هوش مصنوعی بر اشتغال هستند — و تا این لحظه، هیچ فاجعه‌ای که برخی رسانه‌ها و بدبینان وعده می‌دادند، دیده نمی‌شود.
اما با نگاهی دقیق‌تر، روندهایی در حال شکل‌گیری است که تا حدی نتایج پژوهش اخیر دانشگاه استنفورد را تأیید می‌کند.

💼 نکات کلیدی:

اجرای واقعی فناوری‌های هوش مصنوعی تازه آغاز شده است.
از سال گذشته، تعداد موقعیت‌های شغلی مرتبط با ادغام هوش مصنوعی در فرآیندهای تجاری به‌طور پیوسته در حال افزایش است.

پژوهشگران شرکت‌ها را به دو گروه تقسیم کردند:
♻️شرکت‌های AI-adopters (پذیرفته‌ و به‌کارگیرنده‌ی هوش مصنوعی) و سایر شرکت‌ها.
♻️نتیجه: در گروه نخست، روند استخدام تغییر کرده — کاهش استخدام نیروهای تازه‌کار (Junior) و افزایش جذب متخصصان ارشد (Senior).
♻️هرچند این شرکت‌ها هنوز تنها حدود ۱۷٪ از بازار کار را تشکیل می‌دهند و تأثیر فعلاً ملایم است.


📘 نام پژوهش نیز جالب است:
Generative AI as Seniority-Biased Technological Change —
«هوش مصنوعی مولد به‌عنوان تغییری فناورانه با سوگیری به نفع نیروهای باتجربه».

🎓 بررسی‌ها نشان می‌دهد که تأثیر این روند به سطح دانشگاه محل تحصیل نیروهای تازه‌کار نیز بستگی دارد:

✳️فارغ‌التحصیلان دانشگاه‌های برتر کمترین آسیب را دیده‌اند.

✳️به شکل جالبی، فارغ‌التحصیلان دانشگاه‌های ضعیف‌تر هم وضعیت نسبتاً بهتری دارند — چون ارزان‌ترند.

✳️اما آسیب‌دیده‌ترین گروه، دانش‌آموختگان دانشگاه‌های متوسط هستند که در رقابت بازار کار عقب افتاده‌اند.


📈 نتیجه:
فعلاً خبری از «آخرالزمان شغلی با هوش مصنوعی» نیست،
اما ساختار بازار کار آرام‌آرام تغییر می‌کند —
به نفع نیروهای باتجربه و به زیان تازه‌کارها.

🔗 منبع: The Economist

#هوش_مصنوعی #بازارکار #اقتصاد #آینده_شغل #AI #Economist #GenerativeAI
👍1😁1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 FlashWorld —
تولید صحنه‌های سه‌بعدی در ۵ ثانیه با یک GPU ⚡️

سیستم جدید FlashWorld معرفی شد — مدلی که می‌تواند از یک تصویر یا فقط یک توضیح متنی، صحنه‌های سه‌بعدی واقعی و با جزئیات بالا تولید کند.

🚀 ویژگی‌ها:

♻️تا ۱۰۰ برابر سریع‌تر از روش‌های قبلی
♻️کیفیت بالا و فوتورئالیستی
♻️تولید کامل صحنه در ۵ ثانیه فقط با یک GPU


به زبان ساده، FlashWorld کاری می‌کند که با یک کلیک، جهان سه‌بعدی‌ات ساخته شود — مثل فشردن دکمه «render reality».

🔗 کد:
github.com/imlixinyang/FlashWorld
🌐 صفحه پروژه:
imlixinyang.github.io/FlashWorld-Project-Page

#AI #3D #FlashWorld #GenerativeAI #هوش_مصنوعی #گرافیک #یادگیری_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI