VIRSUN
7.22K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🎙 مجموعه OpenAI و معرفی GPT-Realtime؛ پیشرفته‌ترین مدل گفتار به گفتار

مدل جدید gpt-realtime حالا استاندارد تازه‌ای برای دستیارهای صوتی و بات‌های تماس تعریف می‌کند.

💰 قیمت‌ها:

🎧 ورودی صوتی: ۳۲ دلار به ازای هر ۱ میلیون توکن

🗂 ورودی کش‌شده: ۰.۴ دلار به ازای هر ۱ میلیون توکن

🔊 خروجی صوتی: ۶۴ دلار به ازای هر ۱ میلیون توکن


📊 نتایج بنچمارک‌ها:

MultiChallenge (Audio) – دقت در دنبال‌کردن دستورهای صوتی:
gpt-realtime: %۳۰.۵
gpt-4o-realtime-preview-2025-06-03: %۲۶.۵
gpt-4o-realtime-preview-2024-12-17: %۲۰.۶

ComplexFuncBench (Audio) – دقت در اجرای دستورهای پیچیده:
gpt-realtime: %۶۶.۵
gpt-4o-realtime-preview-2025-06-03: %۵۸.۹
gpt-4o-realtime-preview-2024-12-17: %۴۹.۷


🔑 چرا مهم است؟

درک بهتر و دقیق‌تر دستورهای صوتی 🎯

کاهش خطا در فهم گفتار 🗣

آماده برای استفاده واقعی در دستیارهای صوتی و مراکز تماس 📞


این مدل با داده‌های باکیفیت و پاداش‌دهی تخصصی آموزش دیده و کیفیت صدای خروجی آن بسیار طبیعی است.

#هوش_مصنوعی #OpenAI #گفتار_به_گفتار #VoiceAI #GPTRealtime
@rss_ai_ir
👍1🔥1👏1
🎙️ Qwen3-ASR
؛ مدل جهانی تشخیص گفتار

🟢 پشتیبانی از EN/CN + ۹ زبان دیگر: ar, de, en, es, fr, it, ja, ko, pt, ru, zh
🟢 تشخیص خودکار زبان
🟢 توانایی تشخیص گفتار حتی در شرایط دشوار — مثل خواندن آواز، رپ یا صحبت با موسیقی پس‌زمینه (WER <8%؛ کمتر از ۸ خطا در هر ۱۰۰ کلمه)
🟢 عملکرد پایدار در نویز، کیفیت پایین یا فاصله زیاد
🟢 امکان افزودن کلمات/عبارات اختصاصی (مثل نام‌ها یا اصطلاحات صنعتی) برای تشخیص دقیق‌تر

🔗 API
🔗 ModelScope Demo
🔗 Hugging Face Demo
🔗 Blog

@rss_ai_ir

#هوش_مصنوعی #تشخیص_گفتار #Qwen3 #VoiceAI #یادگیری_عمیق #یادگیری_ماشین
🔥18👍16🥰16🎉15👏13😁1110
This media is not supported in your browser
VIEW IN TELEGRAM
⚠️ ویژگی جدید در Grok: شنیدن به جای خواندن 🎧

مدل Grok قابلیت تازه‌ای به نام Read Aloud اضافه کرده است. حالا می‌توانید پاسخ‌های هوش مصنوعی را به‌جای خواندن، در قالب صدای طبیعی و شبیه انسان بشنوید.

🔹 تجربه کاربری ساده‌تر و روان‌تر
🔹 صدای طبیعی و نزدیک به گفتار واقعی
🔹 امکان استفاده در موقعیت‌هایی که خواندن دشوار است

این یعنی حالا هوش مصنوعی می‌تواند نه فقط بنویسد، بلکه به‌جای شما صحبت کند. 🤖🗣️

#Grok #هوش_مصنوعی #VoiceAI #AIApps #تکنولوژی

@rss_ai_ir
👍5🔥2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎤 تجربه‌ای فراتر از گفتار با Octave 2 از Hume AI

مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آن‌قدر طبیعی که حتی می‌تواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---

🎧 ویژگی‌های کلیدی:

♻️شبیه‌سازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه به‌صورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلون‌کردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگ‌های تعاملی و اپلیکیشن‌های صوتی هوش مصنوعی

---

💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.

🎙 می‌توانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2

#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ کپی صدای شما فقط در ۱۰ ثانیه! 🎙️

سرویسی جدید معرفی شده که می‌تونه صدای هرکسی رو در کمتر از ۱۰ ثانیه ضبط و شبیه‌سازی کنه 😳
بعد از اون، هر متنی رو با همون صدا و لحن طبیعی شما می‌خونه — مستقیم داخل مرورگر، بدون نیاز به نصب هیچ برنامه‌ای.

🎧 ویژگی‌ها:
• فقط ۱۰ ثانیه ضبط صدا برای کپی کامل 🎤
• پشتیبانی از ده‌ها زبان از جمله فارسی 🇮🇷
• صدای طبیعی، دقیق و بدون تأخیر
• مناسب برای ویدیو، پادکست، و پروژه‌های شخصی

🟢 تستش کنید — واقعاً حیرت‌انگیزه!
https://vocloner.com/

@rss_ai_ir
#هوش_مصنوعی #AIvoice #clone #تولید_صدا #VoiceAI #AItools #گویندگی #سنتز_صدا #TextToSpeech
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامه‌نویس ۲۳ ساله از هند دومین مدل متن‌باز هوش مصنوعی گفتار در جهان را ساختند!

مدل آن‌ها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راه‌حل‌های Google هم پیشی گرفته است.

🔹 مشخصات فنی:

♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلی‌ثانیه


💡 نتیجه واضح است:
امروز دیگر فقط غول‌های فناوری نیستند که می‌توانند مدل‌های پیشرفته بسازند — هرکسی با اراده و دانش کافی می‌تواند دستاورد جهانی خلق کند.

🔗 huggingface.co/maya-research/maya1

@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤‍🔥51
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 مجموعه ElevenLabs از نسخه جدید ابزار تبدیل گفتار به متن خود رونمایی کرد — Scribe v2

مدل جدید Scribe v2 اکنون قادر است گفتار را با تأخیر تنها ۱۵۰ میلی‌ثانیه به متن تبدیل کند — سرعتی تقریباً آنی!

🔹 ویژگی‌های کلیدی:

تشخیص و برچسب‌گذاری خودکار گویندگان مختلف 🗣️

پشتیبانی از ۹۲ زبان از جمله فارسی و روسی 🌍

قابلیت استریم زنده (Live Streaming) و اتصال از طریق API

مناسب برای رویدادها، سخنرانی‌ها و زیرنویس هم‌زمان ویدیوها

عملکرد بهتر نسبت به Gemini 2.5 Flash، GPT-4o MiniTranscribe و Deepgram Nova 3


📘 جزئیات فنی و مستندات:
👉 https://elevenlabs.io/docs/models#scribe-v2-realtime

📡 با این مدل، ElevenLabs عملاً به رهبر جدید Speech-to-Text بلادرنگ (Real-Time) تبدیل شده است.

#ElevenLabs #هوش_مصنوعی #SpeechToText #RealtimeAI #Transcription #VoiceAI #cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
🎙مجموعه Eleven Labs وارد فاز خرید صداهای واقعی شد!

این شرکت فعلاً شروع کرده به خرید و لایسنس‌کردن صدای افراد – بیشتر بازیگران، اما فقط محدود به آن‌ها نیست. فعلاً این صداها فقط در اپلیکیشن رسمی خودش برای خواندن کتاب‌های صوتی و متن‌ها استفاده می‌شوند:

📚 📱 ElevenReader App

اما سؤال جذاب اینجاست:

🤔 آیا این صداها به‌زودی وارد دنیای دوبله و صداگذاری ویدئوها هم می‌شوند؟
و از آن جذاب‌تر:
چقدر مانده تا شاهد بورس خرید و فروش صداها باشیم؟ جایی که هر کسی بتواند صدای خود را لایسنس کند و درآمد داشته باشد!

🔗 لینک جزئیات بیشتر:
https://elevenlabs.io/iconic-voices

#هوش_مصنوعی #تولید_صدا #VoiceAI #ElevenLabs #صداگذاری
@rss_ai_ir
😁8🥰75👍5🔥5👏5🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
ویسِ چت‌جی‌پی‌تی مستقیم داخل همان چت فعال شد!
@rss_ai_ir 🎤🤖

از حالا می‌توانید بدون هیچ سوییچ یا مود جداگانه، فقط شروع کنید به صحبت‌کردن — چت‌جی‌پی‌تی هم‌زمان با حرف‌زدن شما پاسخ می‌دهد!

ویژگی‌های نسخه جدید:
🔹 ویس مستقیماً داخل همان پنجرهٔ چت
🔹 پاسخ‌ها در لحظه روی متن ظاهر می‌شوند
🔹 می‌توانید هم‌زمان اسکرول کنید، پیام‌های قبلی را ببینید
🔹 تصاویر، نقشه‌ها و ویژوال‌ها در لحظه نمایش داده می‌شوند
🔹 روی موبایل و وب فعال می‌شود
🔹 فقط کافی‌ست اپ را آپدیت کنید

این دقیقاً همان تجربهٔ یک دستیار شخصی لحظه‌ای است.
هوش مصنوعی که هم می‌بیند، هم می‌شنود، هم حرف می‌زند — و همه‌چیز در یک پنجره.

#ChatGPT #VoiceAI #AIUX #AIAssistant @rss_ai_ir
👍32🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 گوگل یکی پس از دیگری سورپرایز می‌کند!

🎧 مدل Gemini 2.5 Flash Native Audio به‌روزرسانی بزرگی دریافت کرده و حالا مکالمه‌های زنده طبیعی‌تر، پیروی دقیق‌تر از دستورها و ترجمه گفتار‌به‌گفتار در لحظه را ارائه می‌دهد.

🗣️ تعامل صوتی روان‌تر
پاسخ‌دهی سریع‌تر در مکالمات زنده
🌍 ترجمه هم‌زمان بین زبان‌ها بدون وقفه
🤖 تجربه‌ای نزدیک‌تر به گفت‌وگوی انسانی

این آپدیت نشان می‌دهد گوگل به‌طور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایه‌گذاری کرده است.

@rss_ai_ir

#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence
👍1🔥1