VIRSUN
10.2K subscribers
1.11K photos
667 videos
5 files
740 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎤 تجربه‌ای فراتر از گفتار با Octave 2 از Hume AI

مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آن‌قدر طبیعی که حتی می‌تواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---

🎧 ویژگی‌های کلیدی:

♻️شبیه‌سازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه به‌صورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلون‌کردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگ‌های تعاملی و اپلیکیشن‌های صوتی هوش مصنوعی

---

💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.

🎙 می‌توانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2

#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست


📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
1
This media is not supported in your browser
VIEW IN TELEGRAM
😳 باورکردنی نیست اگر این درز اطلاعات واقعیت داشته باشه!

🎶 احتمالاGemini 3.0 ظاهراً قادره موسیقی اصلی بسازه و خودش اجراش کنه!

گوگل واقعاً داره مرز بین مدل زبانی و هنرمند دیجیتال رو از بین می‌بره.
مدل نه‌تنها متن و تصویر، بلکه حالا نت، ریتم، و اجرای زنده‌ی موسیقی رو هم تولید می‌کنه.

🎹 اگه درست باشه، یعنی وارد دوره‌ای شدیم که مدل‌های مولد چندوجهی (multimodal) واقعاً می‌تونن خلاقیت انسانی رو شبیه‌سازی کنن.

@rss_ai_ir

#Gemini3 #AI #Google #GenerativeAI #MusicAI #Innovation
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
💻🤯 Gemini 3.0 Pro
می‌تواند شبیه‌ساز کامل سیستم‌عامل بسازد!

گوگل با مدل جدید Gemini 3.0 Pro مرزهای خلاقیت هوش مصنوعی را جابه‌جا کرده است — کاربران گزارش داده‌اند که این مدل می‌تواند تنها با یک پرامپت ساده، یک سیستم‌عامل شبیه Windows یا macOS را به‌طور کامل در قالب یک فایل HTML ایجاد کند!

🔹 یکی از کاربران از Gemini خواسته بود:
> «یک سیستم‌عامل وب مانند Windows بساز با ویرایشگر متن، ترمینال (با پشتیبانی از Python)، فایل‌منیجر، Paint، ویرایشگر ویدیو و چند ابزار دیگر.»
و مدل تمام کد را در یک مرحله تحویل داد.



🔹 نتیجه؟
یک شبیه‌ساز کامل و تعاملی از Windows و macOS که تنها با HTML، CSS و JavaScript در مرورگر اجرا می‌شود — با آیکون‌ها، انیمیشن‌ها و اپ‌های واقعی.

🔹 دموی زنده را می‌توانید اینجا ببینید:
🪟 نسخه Windows
🍎 نسخه macOS

🔹 نسخه عمومی Gemini 3.0 طبق شایعات در اکتبر منتشر می‌شود، و مدل‌های Pro در Google AI Studio در دسترس خواهند بود.

اگر این دمو واقعاً بازتاب توانایی‌های مدل باشد، Gemini به‌زودی مرز بین دستیار برنامه‌نویسی و خالق خودکار نرم‌افزار را از بین خواهد برد.

@rss_ai_ir

#Gemini3 #AI #Google #WebOS #GenerativeAI #Coding #Innovation
4🔥3
🔥 خبر داغ برای علاقه‌مندان هوش مصنوعی!

کاربرها گزارش داده‌اند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.

🎬 نسخه‌ی جدید Veo طبق شایعات:

♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالت‌های سینمایی و پری‌ست‌های نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow


به‌نظر می‌رسه گوگل داره جدی‌تر از همیشه وارد رقابت با Sora از OpenAI می‌شه.

@rss_ai_ir

#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
📊 هوش مصنوعی و بازار کار آمریکا؛ هنوز خبری از آخرالزمان نیست، اما نشانه‌هایی نگران‌کننده دیده می‌شود

پژوهشگران بازار کار آمریکا همچنان در حال بررسی تأثیر هوش مصنوعی بر اشتغال هستند — و تا این لحظه، هیچ فاجعه‌ای که برخی رسانه‌ها و بدبینان وعده می‌دادند، دیده نمی‌شود.
اما با نگاهی دقیق‌تر، روندهایی در حال شکل‌گیری است که تا حدی نتایج پژوهش اخیر دانشگاه استنفورد را تأیید می‌کند.

💼 نکات کلیدی:

اجرای واقعی فناوری‌های هوش مصنوعی تازه آغاز شده است.
از سال گذشته، تعداد موقعیت‌های شغلی مرتبط با ادغام هوش مصنوعی در فرآیندهای تجاری به‌طور پیوسته در حال افزایش است.

پژوهشگران شرکت‌ها را به دو گروه تقسیم کردند:
♻️شرکت‌های AI-adopters (پذیرفته‌ و به‌کارگیرنده‌ی هوش مصنوعی) و سایر شرکت‌ها.
♻️نتیجه: در گروه نخست، روند استخدام تغییر کرده — کاهش استخدام نیروهای تازه‌کار (Junior) و افزایش جذب متخصصان ارشد (Senior).
♻️هرچند این شرکت‌ها هنوز تنها حدود ۱۷٪ از بازار کار را تشکیل می‌دهند و تأثیر فعلاً ملایم است.


📘 نام پژوهش نیز جالب است:
Generative AI as Seniority-Biased Technological Change —
«هوش مصنوعی مولد به‌عنوان تغییری فناورانه با سوگیری به نفع نیروهای باتجربه».

🎓 بررسی‌ها نشان می‌دهد که تأثیر این روند به سطح دانشگاه محل تحصیل نیروهای تازه‌کار نیز بستگی دارد:

✳️فارغ‌التحصیلان دانشگاه‌های برتر کمترین آسیب را دیده‌اند.

✳️به شکل جالبی، فارغ‌التحصیلان دانشگاه‌های ضعیف‌تر هم وضعیت نسبتاً بهتری دارند — چون ارزان‌ترند.

✳️اما آسیب‌دیده‌ترین گروه، دانش‌آموختگان دانشگاه‌های متوسط هستند که در رقابت بازار کار عقب افتاده‌اند.


📈 نتیجه:
فعلاً خبری از «آخرالزمان شغلی با هوش مصنوعی» نیست،
اما ساختار بازار کار آرام‌آرام تغییر می‌کند —
به نفع نیروهای باتجربه و به زیان تازه‌کارها.

🔗 منبع: The Economist

#هوش_مصنوعی #بازارکار #اقتصاد #آینده_شغل #AI #Economist #GenerativeAI
👍1😁1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 FlashWorld —
تولید صحنه‌های سه‌بعدی در ۵ ثانیه با یک GPU ⚡️

سیستم جدید FlashWorld معرفی شد — مدلی که می‌تواند از یک تصویر یا فقط یک توضیح متنی، صحنه‌های سه‌بعدی واقعی و با جزئیات بالا تولید کند.

🚀 ویژگی‌ها:

♻️تا ۱۰۰ برابر سریع‌تر از روش‌های قبلی
♻️کیفیت بالا و فوتورئالیستی
♻️تولید کامل صحنه در ۵ ثانیه فقط با یک GPU


به زبان ساده، FlashWorld کاری می‌کند که با یک کلیک، جهان سه‌بعدی‌ات ساخته شود — مثل فشردن دکمه «render reality».

🔗 کد:
github.com/imlixinyang/FlashWorld
🌐 صفحه پروژه:
imlixinyang.github.io/FlashWorld-Project-Page

#AI #3D #FlashWorld #GenerativeAI #هوش_مصنوعی #گرافیک #یادگیری_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
🚀 علی‌بابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯

شرکت Alibaba از سامانه‌ی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراک‌گذاری هوشمند GPU که بهره‌وری در سرویس‌دهی مدل‌های زبانی بزرگ (LLM) را تا ۸ برابر افزایش می‌دهد! ⚙️

📊 نتایج حیرت‌انگیز:

🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا

💡 در آزمایش بتای سه‌ماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر



---

🔥 چطور کار می‌کند؟

در حالت عادی، بسیاری از GPUها در زمان سرویس‌دهی به مدل‌های «سرد» (کم‌استفاده) بلااستفاده می‌مانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواست‌ها را انجام می‌دادند.

💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل می‌کند:

یعنی GPUها می‌توانند در حین تولید پاسخ (در سطح توکن) بین مدل‌ها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️


---

نتیجه:

✳️هر GPU می‌تواند تا ۷ مدل را هم‌زمان پشتیبانی کند (در سیستم‌های دیگر: ۲ تا ۳ مدل)

✳️تأخیر هنگام سوئیچ بین مدل‌ها تا ۹۷٪ کاهش یافته است

✳️مدل‌های «داغ» (پُرکاربرد) در اولویت می‌مانند، مدل‌های «سرد» فقط در لحظه‌های کوتاه منابع می‌گیرند



---

🧩 ویژه برای مرحله استنتاج (Inference):

همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمان‌بندی دقیق بار کاری (load scheduling) بهینه شده است.

در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب می‌شود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایین‌تر. 💰


---

مزایا:

♻️کاهش چشمگیر هزینه‌ی هر توکن
♻️افزایش بهره‌وری سخت‌افزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد


🔗 منبع: South China Morning Post

#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 RTFM:
مدل جدید WorldLab برای تولید دنیای تعاملی

مدل WorldLab که قبلاً چندین بار درباره‌اش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.

ویژگی‌های اصلی:

🔁 حافظه‌ی بی‌نهایت (infinite context)

🎨 اسکین‌های غیر فتو‌ریالیستی با سبک‌های متنوع

🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت


🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی می‌شود.)

📖 مقاله‌ی رسمی:
worldlabs.ai/blog/rtfm


---

💡 مسئله‌ی اصلی:
تولید «جهان‌های زنده» به کمک مدل‌های مولد به مراتب پرهزینه‌تر از LLMهاست.
اگر بخواهیم مثل مدل‌های ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازه‌ی کل رمان «فرانکشتاین»!
برای تعامل یک‌ساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سخت‌افزاری غیرممکن است.


---

⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا می‌شود و تجربه‌ی تعاملی روان ارائه می‌دهد.

راز کار در این است که به‌جای ذخیره‌ی تمام فریم‌ها، فقط موارد زیر نگهداری می‌شوند:

♻️زاویه‌های دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه به‌طور قابل توجهی تغییر کند، مدل فریم‌ها را از نو می‌سازد — صرفه‌جویی عظیم در حافظه!


---

🎥 نتیجه:
مدل RTFM می‌تواند صحنه‌هایی با جزئیات بالا، بازتاب‌ها، سطوح براق، سایه‌ها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آن‌قدر چشم‌گیر است که این جزئیات کوچک به چشم نمی‌آیند.


---

📌 جمع‌بندی:
WorldLab با RTFM نشان می‌دهد که آینده‌ی مدل‌های مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.

@rss_ai_ir

#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی