Интересная мысль от Jim Fan - NVidia Senior Research manager:
OpenAI, как ожидается, завтра продемонстрирует голосового помощника в режиме реального времени.
Что нужно для того, чтобы обеспечить реалистичный опыт?
Почти все голосовые ИИ проходят через 3 этапа:
1. Распознавание речи или "ASR": аудио -> текст1, например, Whisper;
2. LLM, который планирует, что сказать дальше: текст1 -> текст2;
3. Синтез речи или "TTS": текст2 -> аудио, например, ElevenLabs или VALL-E.
В прошлом году я сделал рисунок (в заголовке), чтобы показать, как сделать Siri/Alexa в 10 раз лучше.
Однако буквальное прохождение через эти 3 этапа приводит к огромной задержке.
Пользовательский опыт резко ухудшается, если нам приходится ждать 5 секунд для каждого ответа. Это нарушает погружение и кажется безжизненным, даже если сам синтезированный звук звучит реалистично.
Естественные диалоги в корне не работают таким образом.
Мы, люди:
> думаем о том, что сказать дальше, одновременно слушая и говоря;
> вставляем "да, хм, а?" в подходящие моменты;
> предсказываем, когда собеседник закончит, и сразу же перехватываем инициативу;
> органично решаем удобно ли говорить одновременно с собеседником, не будучи грубым при этом;
> грациозно справляемся с перебиваниями (спорно, стоит ли учить этому ИИ). В настоящее время ИИ-ассистенты либо не могут быть прерваны (очень раздражает), либо просто останавливаются, когда обнаруживают звуковое событие, и теряют ход мысли;
> участвуем в групповом разговоре. Мы отлично умеем вести беседы с несколькими собеседниками одновременно.
Недостаточно просто последовательно ускорить каждую из 3 нейронных сетей.
Для решения задачи диалога в реальном времени требуется переосмыслить всю систему, максимально перекрыть каждый компонент и научиться делать вмешательства в реальном времени.
Или, возможно, еще лучше - просто иметь 1 нейросеть, переводящую аудио в аудио.
Сквозной подход всегда выигрывает.
#OpenAI #NVidia #voice #agents
———
@tsingular
OpenAI, как ожидается, завтра продемонстрирует голосового помощника в режиме реального времени.
Что нужно для того, чтобы обеспечить реалистичный опыт?
Почти все голосовые ИИ проходят через 3 этапа:
1. Распознавание речи или "ASR": аудио -> текст1, например, Whisper;
2. LLM, который планирует, что сказать дальше: текст1 -> текст2;
3. Синтез речи или "TTS": текст2 -> аудио, например, ElevenLabs или VALL-E.
В прошлом году я сделал рисунок (в заголовке), чтобы показать, как сделать Siri/Alexa в 10 раз лучше.
Однако буквальное прохождение через эти 3 этапа приводит к огромной задержке.
Пользовательский опыт резко ухудшается, если нам приходится ждать 5 секунд для каждого ответа. Это нарушает погружение и кажется безжизненным, даже если сам синтезированный звук звучит реалистично.
Естественные диалоги в корне не работают таким образом.
Мы, люди:
> думаем о том, что сказать дальше, одновременно слушая и говоря;
> вставляем "да, хм, а?" в подходящие моменты;
> предсказываем, когда собеседник закончит, и сразу же перехватываем инициативу;
> органично решаем удобно ли говорить одновременно с собеседником, не будучи грубым при этом;
> грациозно справляемся с перебиваниями (спорно, стоит ли учить этому ИИ). В настоящее время ИИ-ассистенты либо не могут быть прерваны (очень раздражает), либо просто останавливаются, когда обнаруживают звуковое событие, и теряют ход мысли;
> участвуем в групповом разговоре. Мы отлично умеем вести беседы с несколькими собеседниками одновременно.
Недостаточно просто последовательно ускорить каждую из 3 нейронных сетей.
Для решения задачи диалога в реальном времени требуется переосмыслить всю систему, максимально перекрыть каждый компонент и научиться делать вмешательства в реальном времени.
Или, возможно, еще лучше - просто иметь 1 нейросеть, переводящую аудио в аудио.
Сквозной подход всегда выигрывает.
#OpenAI #NVidia #voice #agents
———
@tsingular
Truecaller и Microsoft создают ИИ-ассистента с голосом пользователя
Truecaller совместно с Microsoft Azure AI Speech позволит пользователям создавать ИИ-голос на основе своих записей для автоматического ответа на звонки.
Цель - добавить ощущение персонализации и комфорта при общении с цифровыми ассистентами.
Microsoft Azure AI Speech предоставляет технологию "Personal Voice" для генерации ИИ-голосов, но ограничивает её использование и требует согласия записываемых людей.
Также Microsoft добавляет водяные знаки к сгенерированным голосам для безопасности.
ИИ-зумеры переизобрели автоответчик с записью голоса :)
#Truecaller #Azure #Voice
-------
@tsingular
Truecaller совместно с Microsoft Azure AI Speech позволит пользователям создавать ИИ-голос на основе своих записей для автоматического ответа на звонки.
Цель - добавить ощущение персонализации и комфорта при общении с цифровыми ассистентами.
Microsoft Azure AI Speech предоставляет технологию "Personal Voice" для генерации ИИ-голосов, но ограничивает её использование и требует согласия записываемых людей.
Также Microsoft добавляет водяные знаки к сгенерированным голосам для безопасности.
ИИ-зумеры переизобрели автоответчик с записью голоса :)
#Truecaller #Azure #Voice
-------
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили голосовой режим.
До конца недели обещают раскатить на всех подписчиков chatGPT.
50 языков и качественные эмоции.
#OpenAI #voice
------
@tsingular
До конца недели обещают раскатить на всех подписчиков chatGPT.
50 языков и качественные эмоции.
#OpenAI #voice
------
@tsingular
🤔10❤4
Все больше примеров нового голоса OpenaAI.
Детализация поражает, конечно.
Там не только эмоции, но и звуки вообще любые и все в тему.
Это как много каналов качественных признаков, которые обрабатываются параллельно и пересобираются как многослойный пирог в итоговый звук.
Сказка про животных, Шекспир в лицах, мяу-алфавит, ну и конечно же гвоздь программы - пьяная нейронка
Сотни тысяч лет эволюции, миллиарды в разработку, десятки лет кропотливого труда тысяч учёных, но мы не летим в космос, а спаиваем нейроку. Ну, победа, конечно :).
#OpenAI #voice
———
@tsingular
Детализация поражает, конечно.
Там не только эмоции, но и звуки вообще любые и все в тему.
Это как много каналов качественных признаков, которые обрабатываются параллельно и пересобираются как многослойный пирог в итоговый звук.
Сказка про животных, Шекспир в лицах, мяу-алфавит, ну и конечно же гвоздь программы - пьяная нейронка
Сотни тысяч лет эволюции, миллиарды в разработку, десятки лет кропотливого труда тысяч учёных, но мы не летим в космос, а спаиваем нейроку. Ну, победа, конечно :).
#OpenAI #voice
———
@tsingular
🔥5👏2😁2🤔2
Telegram
Machinelearning
💬 Hibiki (2B и 1B) - новая модель синхронного перевода РЕЧИ В РЕЧЬ.
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki…
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki…
Синхронные переводчики всё.
https://t.iss.one/ai_machinelearning_big_data/6715
🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5
#translation #voice
———
@tsingular
https://t.iss.one/ai_machinelearning_big_data/6715
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki превосходит предыдущие модели по качеству перевода, естественности и по схожести говорящих и приближается к переводчикам-людям.
> Открытая модель
> Потоковый перевод: обрабатывает аудио в реальном времени
> Многопотоковая архитектура: использует архитектуру Moshi для моделирования исходной и целевой речи
> Способна работать в шумных условиях
> Обучена на 48 Nvidia H100
> Работает с MLX, Candle и PyTorch
> На данный момент поддерживает французский и английский языки (дальше больше)
> Отлично подходит на запусках на девайсах
🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5
#translation #voice
———
@tsingular
🤯10❤1
AI agent for travel built on Amazon Nova Sonic
About Amazon
🔊 Amazon Nova Sonic: Революция в голосовом AI — понимает не только ЧТО, но и КАК вы говорите
Amazon запустил новую модель Nova Sonic — первый фундаментальный AI, который объединяет распознавание и генерацию речи в единой архитектуре, делая голосовое взаимодействие по-настоящему человечным.
Ключевые возможности:
• Единая модель (не разрозненные ASR+LLM+TTS)
• Понимание тона, интонации и темпа речи
• Адаптация ответа под эмоциональный контекст
• Естественные паузы и умение "не перебивать"
• Корректная обработка прерываний разговора
Техническая начинка:
• Двунаправленный streaming API через HTTP/2
• Контекстное окно в 32K токенов
• До 8 минут в одной сессии
• Function calling для интеграции внешних сервисов
• RAG для работы с корпоративными данными
• Поддержка американского и британского английского
Практическое применение:
• Автоматизация контакт-центров
• Виртуальные туристические консультанты
• Образовательные приложения
• Игры с голосовым интерфейсом
• AI-ассистенты для работы с корпоративными дашбордами
Модель уже доступна через Amazon Bedrock в регионе US East (N. Virginia).
Для Python-разработчиков выпущен экспериментальный SDK для работы с бидирекциональным стримингом.
AWS явно в лидерах ИИ разработок. Не перестают удивлять, хотя о них и меньше "кричат", чем про OpenAI или Google.
Послушайте пример в прикрепе к посту.
#Amazon #Nova #Voice #AWS #sound
———
@tsingular
Amazon запустил новую модель Nova Sonic — первый фундаментальный AI, который объединяет распознавание и генерацию речи в единой архитектуре, делая голосовое взаимодействие по-настоящему человечным.
Ключевые возможности:
• Единая модель (не разрозненные ASR+LLM+TTS)
• Понимание тона, интонации и темпа речи
• Адаптация ответа под эмоциональный контекст
• Естественные паузы и умение "не перебивать"
• Корректная обработка прерываний разговора
Техническая начинка:
• Двунаправленный streaming API через HTTP/2
• Контекстное окно в 32K токенов
• До 8 минут в одной сессии
• Function calling для интеграции внешних сервисов
• RAG для работы с корпоративными данными
• Поддержка американского и британского английского
Практическое применение:
• Автоматизация контакт-центров
• Виртуальные туристические консультанты
• Образовательные приложения
• Игры с голосовым интерфейсом
• AI-ассистенты для работы с корпоративными дашбордами
Модель уже доступна через Amazon Bedrock в регионе US East (N. Virginia).
Для Python-разработчиков выпущен экспериментальный SDK для работы с бидирекциональным стримингом.
AWS явно в лидерах ИИ разработок. Не перестают удивлять, хотя о них и меньше "кричат", чем про OpenAI или Google.
Послушайте пример в прикрепе к посту.
#Amazon #Nova #Voice #AWS #sound
———
@tsingular
👍6⚡4❤1
Корпорация из Редмонда вводит голосовую активацию своего цифрового ассистента в Windows 11 через команду 'Hey, Copilot!'.
В тестовом режиме уже доступна участником программы Windows Insiders.
После произнесения ключевой фразы появляется плавающий интерфейс микрофона и звуковое подтверждение активации.
Технология использует локальное распознавание с 10-секундным аудиобуфером без отправки данных в облако.
Система работает офлайн, хотя полный функционал Copilot Voice требует сетевого соединения.
Обновление доступно пользователям с англоязычным интерфейсом при наличии версии приложения 1.25051.10.0 или новее.
Привет, товарищ майор! :)
#Microsoft #Copilot #Voice
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡1👍1