🎙 مجموعه OpenAI و معرفی GPT-Realtime؛ پیشرفتهترین مدل گفتار به گفتار
مدل جدید gpt-realtime حالا استاندارد تازهای برای دستیارهای صوتی و باتهای تماس تعریف میکند.
💰 قیمتها:
🎧 ورودی صوتی: ۳۲ دلار به ازای هر ۱ میلیون توکن
🗂 ورودی کششده: ۰.۴ دلار به ازای هر ۱ میلیون توکن
🔊 خروجی صوتی: ۶۴ دلار به ازای هر ۱ میلیون توکن
📊 نتایج بنچمارکها:
MultiChallenge (Audio) – دقت در دنبالکردن دستورهای صوتی:
▫ gpt-realtime: %۳۰.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۲۶.۵
▫ gpt-4o-realtime-preview-2024-12-17: %۲۰.۶
ComplexFuncBench (Audio) – دقت در اجرای دستورهای پیچیده:
▫ gpt-realtime: %۶۶.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۵۸.۹
▫ gpt-4o-realtime-preview-2024-12-17: %۴۹.۷
🔑 چرا مهم است؟
درک بهتر و دقیقتر دستورهای صوتی 🎯
کاهش خطا در فهم گفتار 🗣
آماده برای استفاده واقعی در دستیارهای صوتی و مراکز تماس 📞
این مدل با دادههای باکیفیت و پاداشدهی تخصصی آموزش دیده و کیفیت صدای خروجی آن بسیار طبیعی است.
#هوش_مصنوعی #OpenAI #گفتار_به_گفتار #VoiceAI #GPTRealtime
@rss_ai_ir
مدل جدید gpt-realtime حالا استاندارد تازهای برای دستیارهای صوتی و باتهای تماس تعریف میکند.
💰 قیمتها:
🎧 ورودی صوتی: ۳۲ دلار به ازای هر ۱ میلیون توکن
🗂 ورودی کششده: ۰.۴ دلار به ازای هر ۱ میلیون توکن
🔊 خروجی صوتی: ۶۴ دلار به ازای هر ۱ میلیون توکن
📊 نتایج بنچمارکها:
MultiChallenge (Audio) – دقت در دنبالکردن دستورهای صوتی:
▫ gpt-realtime: %۳۰.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۲۶.۵
▫ gpt-4o-realtime-preview-2024-12-17: %۲۰.۶
ComplexFuncBench (Audio) – دقت در اجرای دستورهای پیچیده:
▫ gpt-realtime: %۶۶.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۵۸.۹
▫ gpt-4o-realtime-preview-2024-12-17: %۴۹.۷
🔑 چرا مهم است؟
درک بهتر و دقیقتر دستورهای صوتی 🎯
کاهش خطا در فهم گفتار 🗣
آماده برای استفاده واقعی در دستیارهای صوتی و مراکز تماس 📞
این مدل با دادههای باکیفیت و پاداشدهی تخصصی آموزش دیده و کیفیت صدای خروجی آن بسیار طبیعی است.
#هوش_مصنوعی #OpenAI #گفتار_به_گفتار #VoiceAI #GPTRealtime
@rss_ai_ir
👍1🔥1👏1
🎙️ Qwen3-ASR
؛ مدل جهانی تشخیص گفتار
🟢 پشتیبانی از EN/CN + ۹ زبان دیگر: ar, de, en, es, fr, it, ja, ko, pt, ru, zh
🟢 تشخیص خودکار زبان
🟢 توانایی تشخیص گفتار حتی در شرایط دشوار — مثل خواندن آواز، رپ یا صحبت با موسیقی پسزمینه (WER <8%؛ کمتر از ۸ خطا در هر ۱۰۰ کلمه)
🟢 عملکرد پایدار در نویز، کیفیت پایین یا فاصله زیاد
🟢 امکان افزودن کلمات/عبارات اختصاصی (مثل نامها یا اصطلاحات صنعتی) برای تشخیص دقیقتر
🔗 API
🔗 ModelScope Demo
🔗 Hugging Face Demo
🔗 Blog
@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #Qwen3 #VoiceAI #یادگیری_عمیق #یادگیری_ماشین
؛ مدل جهانی تشخیص گفتار
🟢 پشتیبانی از EN/CN + ۹ زبان دیگر: ar, de, en, es, fr, it, ja, ko, pt, ru, zh
🟢 تشخیص خودکار زبان
🟢 توانایی تشخیص گفتار حتی در شرایط دشوار — مثل خواندن آواز، رپ یا صحبت با موسیقی پسزمینه (WER <8%؛ کمتر از ۸ خطا در هر ۱۰۰ کلمه)
🟢 عملکرد پایدار در نویز، کیفیت پایین یا فاصله زیاد
🟢 امکان افزودن کلمات/عبارات اختصاصی (مثل نامها یا اصطلاحات صنعتی) برای تشخیص دقیقتر
🔗 API
🔗 ModelScope Demo
🔗 Hugging Face Demo
🔗 Blog
@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #Qwen3 #VoiceAI #یادگیری_عمیق #یادگیری_ماشین
🔥18👍16🥰16🎉15👏13😁11❤10
This media is not supported in your browser
VIEW IN TELEGRAM
⚠️ ویژگی جدید در Grok: شنیدن به جای خواندن 🎧
مدل Grok قابلیت تازهای به نام Read Aloud اضافه کرده است. حالا میتوانید پاسخهای هوش مصنوعی را بهجای خواندن، در قالب صدای طبیعی و شبیه انسان بشنوید.
🔹 تجربه کاربری سادهتر و روانتر
🔹 صدای طبیعی و نزدیک به گفتار واقعی
🔹 امکان استفاده در موقعیتهایی که خواندن دشوار است
این یعنی حالا هوش مصنوعی میتواند نه فقط بنویسد، بلکه بهجای شما صحبت کند. 🤖🗣️
#Grok #هوش_مصنوعی #VoiceAI #AIApps #تکنولوژی
@rss_ai_ir
مدل Grok قابلیت تازهای به نام Read Aloud اضافه کرده است. حالا میتوانید پاسخهای هوش مصنوعی را بهجای خواندن، در قالب صدای طبیعی و شبیه انسان بشنوید.
🔹 تجربه کاربری سادهتر و روانتر
🔹 صدای طبیعی و نزدیک به گفتار واقعی
🔹 امکان استفاده در موقعیتهایی که خواندن دشوار است
این یعنی حالا هوش مصنوعی میتواند نه فقط بنویسد، بلکه بهجای شما صحبت کند. 🤖🗣️
#Grok #هوش_مصنوعی #VoiceAI #AIApps #تکنولوژی
@rss_ai_ir
👍5🔥2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎤 تجربهای فراتر از گفتار با Octave 2 از Hume AI
✅مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آنقدر طبیعی که حتی میتواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---
🎧 ویژگیهای کلیدی:
♻️شبیهسازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه بهصورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلونکردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگهای تعاملی و اپلیکیشنهای صوتی هوش مصنوعی
---
💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.
🎙 میتوانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2
#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
✅مدل جدید Octave 2 درک گفتار مصنوعی را به سطحی تازه رسانده — آنقدر طبیعی که حتی میتواند زمزمه (whisper) کند و اصطلاحات عامیانه را به خاطر بسپارد! 😮
---
🎧 ویژگیهای کلیدی:
♻️شبیهسازی کامل صدا، لهجه، لحن و سبک گفتار
♻️قابلیت تنظیم دقیق تلفظ هر واژه بهصورت جداگانه
♻️پشتیبانی از ۱۱ زبان زنده دنیا، از جمله فارسی و روسی
♻️امکان ساخت صداهای جدید یا کلونکردن صدای واقعی
♻️کاملاً مناسب برای ساخت پادکست، دیالوگهای تعاملی و اپلیکیشنهای صوتی هوش مصنوعی
---
💸 نسخه رایگان:
تا ۲۰ دقیقه تولید صوت در ماه رایگان در دسترس است.
🎙 میتوانید همین حالا آن را امتحان کنید 👇
🌐 Hume AI - Octave 2
#AI #VoiceAI #TTS #HumeAI #Octave2 #SpeechSynthesis #GenerativeAI @rss_ai_ir
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ کپی صدای شما فقط در ۱۰ ثانیه! 🎙️
سرویسی جدید معرفی شده که میتونه صدای هرکسی رو در کمتر از ۱۰ ثانیه ضبط و شبیهسازی کنه 😳
بعد از اون، هر متنی رو با همون صدا و لحن طبیعی شما میخونه — مستقیم داخل مرورگر، بدون نیاز به نصب هیچ برنامهای.
🎧 ویژگیها:
• فقط ۱۰ ثانیه ضبط صدا برای کپی کامل 🎤
• پشتیبانی از دهها زبان از جمله فارسی 🇮🇷
• صدای طبیعی، دقیق و بدون تأخیر
• مناسب برای ویدیو، پادکست، و پروژههای شخصی
🟢 تستش کنید — واقعاً حیرتانگیزه!
https://vocloner.com/
@rss_ai_ir
#هوش_مصنوعی #AIvoice #clone #تولید_صدا #VoiceAI #AItools #گویندگی #سنتز_صدا #TextToSpeech
سرویسی جدید معرفی شده که میتونه صدای هرکسی رو در کمتر از ۱۰ ثانیه ضبط و شبیهسازی کنه 😳
بعد از اون، هر متنی رو با همون صدا و لحن طبیعی شما میخونه — مستقیم داخل مرورگر، بدون نیاز به نصب هیچ برنامهای.
🎧 ویژگیها:
• فقط ۱۰ ثانیه ضبط صدا برای کپی کامل 🎤
• پشتیبانی از دهها زبان از جمله فارسی 🇮🇷
• صدای طبیعی، دقیق و بدون تأخیر
• مناسب برای ویدیو، پادکست، و پروژههای شخصی
🟢 تستش کنید — واقعاً حیرتانگیزه!
https://vocloner.com/
@rss_ai_ir
#هوش_مصنوعی #AIvoice #clone #تولید_صدا #VoiceAI #AItools #گویندگی #سنتز_صدا #TextToSpeech
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامهنویس ۲۳ ساله از هند دومین مدل متنباز هوش مصنوعی گفتار در جهان را ساختند!
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤🔥5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 مجموعه ElevenLabs از نسخه جدید ابزار تبدیل گفتار به متن خود رونمایی کرد — Scribe v2
مدل جدید Scribe v2 اکنون قادر است گفتار را با تأخیر تنها ۱۵۰ میلیثانیه به متن تبدیل کند — سرعتی تقریباً آنی!
🔹 ویژگیهای کلیدی:
تشخیص و برچسبگذاری خودکار گویندگان مختلف 🗣️
پشتیبانی از ۹۲ زبان از جمله فارسی و روسی 🌍
قابلیت استریم زنده (Live Streaming) و اتصال از طریق API
مناسب برای رویدادها، سخنرانیها و زیرنویس همزمان ویدیوها
عملکرد بهتر نسبت به Gemini 2.5 Flash، GPT-4o MiniTranscribe و Deepgram Nova 3 ⚡
📘 جزئیات فنی و مستندات:
👉 https://elevenlabs.io/docs/models#scribe-v2-realtime
📡 با این مدل، ElevenLabs عملاً به رهبر جدید Speech-to-Text بلادرنگ (Real-Time) تبدیل شده است.
#ElevenLabs #هوش_مصنوعی #SpeechToText #RealtimeAI #Transcription #VoiceAI #cgevent
مدل جدید Scribe v2 اکنون قادر است گفتار را با تأخیر تنها ۱۵۰ میلیثانیه به متن تبدیل کند — سرعتی تقریباً آنی!
🔹 ویژگیهای کلیدی:
تشخیص و برچسبگذاری خودکار گویندگان مختلف 🗣️
پشتیبانی از ۹۲ زبان از جمله فارسی و روسی 🌍
قابلیت استریم زنده (Live Streaming) و اتصال از طریق API
مناسب برای رویدادها، سخنرانیها و زیرنویس همزمان ویدیوها
عملکرد بهتر نسبت به Gemini 2.5 Flash، GPT-4o MiniTranscribe و Deepgram Nova 3 ⚡
📘 جزئیات فنی و مستندات:
👉 https://elevenlabs.io/docs/models#scribe-v2-realtime
📡 با این مدل، ElevenLabs عملاً به رهبر جدید Speech-to-Text بلادرنگ (Real-Time) تبدیل شده است.
#ElevenLabs #هوش_مصنوعی #SpeechToText #RealtimeAI #Transcription #VoiceAI #cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
🎙مجموعه Eleven Labs وارد فاز خرید صداهای واقعی شد!
این شرکت فعلاً شروع کرده به خرید و لایسنسکردن صدای افراد – بیشتر بازیگران، اما فقط محدود به آنها نیست. فعلاً این صداها فقط در اپلیکیشن رسمی خودش برای خواندن کتابهای صوتی و متنها استفاده میشوند:
📚 📱 ElevenReader App
اما سؤال جذاب اینجاست:
🤔 آیا این صداها بهزودی وارد دنیای دوبله و صداگذاری ویدئوها هم میشوند؟
و از آن جذابتر:
⏳ چقدر مانده تا شاهد بورس خرید و فروش صداها باشیم؟ جایی که هر کسی بتواند صدای خود را لایسنس کند و درآمد داشته باشد!
🔗 لینک جزئیات بیشتر:
https://elevenlabs.io/iconic-voices
#هوش_مصنوعی #تولید_صدا #VoiceAI #ElevenLabs #صداگذاری
@rss_ai_ir
این شرکت فعلاً شروع کرده به خرید و لایسنسکردن صدای افراد – بیشتر بازیگران، اما فقط محدود به آنها نیست. فعلاً این صداها فقط در اپلیکیشن رسمی خودش برای خواندن کتابهای صوتی و متنها استفاده میشوند:
📚 📱 ElevenReader App
اما سؤال جذاب اینجاست:
🤔 آیا این صداها بهزودی وارد دنیای دوبله و صداگذاری ویدئوها هم میشوند؟
و از آن جذابتر:
⏳ چقدر مانده تا شاهد بورس خرید و فروش صداها باشیم؟ جایی که هر کسی بتواند صدای خود را لایسنس کند و درآمد داشته باشد!
🔗 لینک جزئیات بیشتر:
https://elevenlabs.io/iconic-voices
#هوش_مصنوعی #تولید_صدا #VoiceAI #ElevenLabs #صداگذاری
@rss_ai_ir
😁8🥰7❤5👍5🔥5👏5🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
✨ ویسِ چتجیپیتی مستقیم داخل همان چت فعال شد!
@rss_ai_ir 🎤🤖
از حالا میتوانید بدون هیچ سوییچ یا مود جداگانه، فقط شروع کنید به صحبتکردن — چتجیپیتی همزمان با حرفزدن شما پاسخ میدهد!
ویژگیهای نسخه جدید:
🔹 ویس مستقیماً داخل همان پنجرهٔ چت
🔹 پاسخها در لحظه روی متن ظاهر میشوند
🔹 میتوانید همزمان اسکرول کنید، پیامهای قبلی را ببینید
🔹 تصاویر، نقشهها و ویژوالها در لحظه نمایش داده میشوند
🔹 روی موبایل و وب فعال میشود
🔹 فقط کافیست اپ را آپدیت کنید
این دقیقاً همان تجربهٔ یک دستیار شخصی لحظهای است.
هوش مصنوعی که هم میبیند، هم میشنود، هم حرف میزند — و همهچیز در یک پنجره.
#ChatGPT #VoiceAI #AIUX #AIAssistant @rss_ai_ir
@rss_ai_ir 🎤🤖
از حالا میتوانید بدون هیچ سوییچ یا مود جداگانه، فقط شروع کنید به صحبتکردن — چتجیپیتی همزمان با حرفزدن شما پاسخ میدهد!
ویژگیهای نسخه جدید:
🔹 ویس مستقیماً داخل همان پنجرهٔ چت
🔹 پاسخها در لحظه روی متن ظاهر میشوند
🔹 میتوانید همزمان اسکرول کنید، پیامهای قبلی را ببینید
🔹 تصاویر، نقشهها و ویژوالها در لحظه نمایش داده میشوند
🔹 روی موبایل و وب فعال میشود
🔹 فقط کافیست اپ را آپدیت کنید
این دقیقاً همان تجربهٔ یک دستیار شخصی لحظهای است.
هوش مصنوعی که هم میبیند، هم میشنود، هم حرف میزند — و همهچیز در یک پنجره.
#ChatGPT #VoiceAI #AIUX #AIAssistant @rss_ai_ir
👍3❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 گوگل یکی پس از دیگری سورپرایز میکند!
🎧 مدل Gemini 2.5 Flash Native Audio بهروزرسانی بزرگی دریافت کرده و حالا مکالمههای زنده طبیعیتر، پیروی دقیقتر از دستورها و ترجمه گفتاربهگفتار در لحظه را ارائه میدهد.
🗣️ تعامل صوتی روانتر
⚡ پاسخدهی سریعتر در مکالمات زنده
🌍 ترجمه همزمان بین زبانها بدون وقفه
🤖 تجربهای نزدیکتر به گفتوگوی انسانی
این آپدیت نشان میدهد گوگل بهطور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایهگذاری کرده است.
@rss_ai_ir
#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence
🎧 مدل Gemini 2.5 Flash Native Audio بهروزرسانی بزرگی دریافت کرده و حالا مکالمههای زنده طبیعیتر، پیروی دقیقتر از دستورها و ترجمه گفتاربهگفتار در لحظه را ارائه میدهد.
🗣️ تعامل صوتی روانتر
⚡ پاسخدهی سریعتر در مکالمات زنده
🌍 ترجمه همزمان بین زبانها بدون وقفه
🤖 تجربهای نزدیکتر به گفتوگوی انسانی
این آپدیت نشان میدهد گوگل بهطور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایهگذاری کرده است.
@rss_ai_ir
#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence
👍1🔥1