Технозаметки Малышева
5.61K subscribers
2.8K photos
937 videos
38 files
3.08K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Интересная мысль от Jim Fan - NVidia Senior Research manager:

OpenAI, как ожидается, завтра продемонстрирует голосового помощника в режиме реального времени.

Что нужно для того, чтобы обеспечить реалистичный опыт?

Почти все голосовые ИИ проходят через 3 этапа:
1. Распознавание речи или "ASR": аудио -> текст1, например, Whisper;
2. LLM, который планирует, что сказать дальше: текст1 -> текст2;
3. Синтез речи или "TTS": текст2 -> аудио, например, ElevenLabs или VALL-E.

В прошлом году я сделал рисунок (в заголовке), чтобы показать, как сделать Siri/Alexa в 10 раз лучше.
Однако буквальное прохождение через эти 3 этапа приводит к огромной задержке.
Пользовательский опыт резко ухудшается, если нам приходится ждать 5 секунд для каждого ответа. Это нарушает погружение и кажется безжизненным, даже если сам синтезированный звук звучит реалистично.

Естественные диалоги в корне не работают таким образом.
Мы, люди:
> думаем о том, что сказать дальше, одновременно слушая и говоря;
> вставляем "да, хм, а?" в подходящие моменты;
> предсказываем, когда собеседник закончит, и сразу же перехватываем инициативу;
> органично решаем удобно ли говорить одновременно с собеседником, не будучи грубым при этом;
> грациозно справляемся с перебиваниями (спорно, стоит ли учить этому ИИ). В настоящее время ИИ-ассистенты либо не могут быть прерваны (очень раздражает), либо просто останавливаются, когда обнаруживают звуковое событие, и теряют ход мысли;
> участвуем в групповом разговоре. Мы отлично умеем вести беседы с несколькими собеседниками одновременно.

Недостаточно просто последовательно ускорить каждую из 3 нейронных сетей.
Для решения задачи диалога в реальном времени требуется переосмыслить всю систему, максимально перекрыть каждый компонент и научиться делать вмешательства в реальном времени.
Или, возможно, еще лучше - просто иметь 1 нейросеть, переводящую аудио в аудио.
Сквозной подход всегда выигрывает.

#OpenAI #NVidia #voice #agents
———
@tsingular
Truecaller и Microsoft создают ИИ-ассистента с голосом пользователя

Truecaller совместно с Microsoft Azure AI Speech позволит пользователям создавать ИИ-голос на основе своих записей для автоматического ответа на звонки.
Цель - добавить ощущение персонализации и комфорта при общении с цифровыми ассистентами.
Microsoft Azure AI Speech предоставляет технологию "Personal Voice" для генерации ИИ-голосов, но ограничивает её использование и требует согласия записываемых людей.
Также Microsoft добавляет водяные знаки к сгенерированным голосам для безопасности.

ИИ-зумеры переизобрели автоответчик с записью голоса :)

#Truecaller #Azure #Voice
-------
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили голосовой режим.

До конца недели обещают раскатить на всех подписчиков chatGPT.

50 языков и качественные эмоции.

#OpenAI #voice
------
@tsingular
🤔104
Все больше примеров нового голоса OpenaAI.

Детализация поражает, конечно.
Там не только эмоции, но и звуки вообще любые и все в тему.

Это как много каналов качественных признаков, которые обрабатываются параллельно и пересобираются как многослойный пирог в итоговый звук.

Сказка про животных, Шекспир в лицах, мяу-алфавит, ну и конечно же гвоздь программы - пьяная нейронка

Сотни тысяч лет эволюции, миллиарды в разработку, десятки лет кропотливого труда тысяч учёных, но мы не летим в космос, а спаиваем нейроку. Ну, победа, конечно :).

#OpenAI #voice
———
@tsingular
🔥5👏2😁2🤔2
Синхронные переводчики всё.

https://t.iss.one/ai_machinelearning_big_data/6715

Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.

Hibiki превосходит предыдущие модели по качеству перевода, естественности и по схожести говорящих и приближается к переводчикам-людям.

> Открытая модель
> Потоковый перевод: обрабатывает аудио в реальном времени
> Многопотоковая архитектура: использует архитектуру Moshi для моделирования исходной и целевой речи
> Способна работать в шумных условиях
> Обучена на 48 Nvidia H100
> Работает с MLX, Candle и PyTorch
> На данный момент поддерживает французский и английский языки (дальше больше)
> Отлично подходит на запусках на девайсах


🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5

#translation #voice
———
@tsingular
🤯101
AI agent for travel built on Amazon Nova Sonic
About Amazon
🔊 Amazon Nova Sonic: Революция в голосовом AI — понимает не только ЧТО, но и КАК вы говорите

Amazon запустил новую модель Nova Sonic — первый фундаментальный AI, который объединяет распознавание и генерацию речи в единой архитектуре, делая голосовое взаимодействие по-настоящему человечным.

Ключевые возможности:
• Единая модель (не разрозненные ASR+LLM+TTS)
• Понимание тона, интонации и темпа речи
• Адаптация ответа под эмоциональный контекст
• Естественные паузы и умение "не перебивать"
• Корректная обработка прерываний разговора

Техническая начинка:
• Двунаправленный streaming API через HTTP/2
• Контекстное окно в 32K токенов
• До 8 минут в одной сессии
• Function calling для интеграции внешних сервисов
• RAG для работы с корпоративными данными
• Поддержка американского и британского английского

Практическое применение:
• Автоматизация контакт-центров
• Виртуальные туристические консультанты
• Образовательные приложения
• Игры с голосовым интерфейсом
• AI-ассистенты для работы с корпоративными дашбордами

Модель уже доступна через Amazon Bedrock в регионе US East (N. Virginia).

Для Python-разработчиков выпущен экспериментальный SDK для работы с бидирекциональным стримингом.

AWS явно в лидерах ИИ разработок. Не перестают удивлять, хотя о них и меньше "кричат", чем про OpenAI или Google.
Послушайте пример в прикрепе к посту.

#Amazon #Nova #Voice #AWS #sound
———
@tsingular
👍641
👋"Привет Copilot" - Microsoft запускает голосовую активацию ИИ

Корпорация из Редмонда вводит голосовую активацию своего цифрового ассистента в Windows 11 через команду 'Hey, Copilot!'.

В тестовом режиме уже доступна участником программы Windows Insiders.

После произнесения ключевой фразы появляется плавающий интерфейс микрофона и звуковое подтверждение активации.

Технология использует локальное распознавание с 10-секундным аудиобуфером без отправки данных в облако.

Система работает офлайн, хотя полный функционал Copilot Voice требует сетевого соединения.

Обновление доступно пользователям с англоязычным интерфейсом при наличии версии приложения 1.25051.10.0 или новее.

Привет, товарищ майор! :)

#Microsoft #Copilot #Voice
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1