Технозаметки Малышева

0:44

OpenAI выпустили голосовой режим.

До конца недели обещают раскатить на всех подписчиков chatGPT.

50 языков и качественные эмоции.

#OpenAI #voice
------
@tsingular

🤔10❤4

4.15K views19:21

0:14

0:54

1:03

0:31

Все больше примеров нового голоса OpenaAI.

Детализация поражает, конечно.
Там не только эмоции, но и звуки вообще любые и все в тему.

Это как много каналов качественных признаков, которые обрабатываются параллельно и пересобираются как многослойный пирог в итоговый звук.

Сказка про животных, Шекспир в лицах, мяу-алфавит, ну и конечно же гвоздь программы - пьяная нейронка

Сотни тысяч лет эволюции, миллиарды в разработку, десятки лет кропотливого труда тысяч учёных, но мы не летим в космос, а спаиваем нейроку. Ну, победа, конечно :).

#OpenAI #voice
———
@tsingular

🔥5👏2😁2🤔2

1.26K views13:40

💬 Hibiki (2B и 1B) - новая модель синхронного перевода РЕЧИ В РЕЧЬ.

Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.

Hibiki…

1:29

Machinelearning

Синхронные переводчики всё.

https://t.iss.one/ai_machinelearning_big_data/6715

Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.

Hibiki превосходит предыдущие модели по качеству перевода, естественности и по схожести говорящих и приближается к переводчикам-людям.

> Открытая модель
> Потоковый перевод: обрабатывает аудио в реальном времени
> Многопотоковая архитектура: использует архитектуру Moshi для моделирования исходной и целевой речи
> Способна работать в шумных условиях
> Обучена на 48 Nvidia H100
> Работает с MLX, Candle и PyTorch
> На данный момент поддерживает французский и английский языки (дальше больше)
> Отлично подходит на запусках на девайсах

🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5

#translation #voice
———
@tsingular

🤯10❤1

1.12K viewsedited 16:25

AI agent for travel built on Amazon Nova Sonic

About Amazon

🔊 Amazon Nova Sonic: Революция в голосовом AI — понимает не только ЧТО, но и КАК вы говорите

Amazon запустил новую модель Nova Sonic — первый фундаментальный AI, который объединяет распознавание и генерацию речи в единой архитектуре, делая голосовое взаимодействие по-настоящему человечным.

Ключевые возможности:
• Единая модель (не разрозненные ASR+LLM+TTS)
• Понимание тона, интонации и темпа речи
• Адаптация ответа под эмоциональный контекст
• Естественные паузы и умение "не перебивать"
• Корректная обработка прерываний разговора

Техническая начинка:
• Двунаправленный streaming API через HTTP/2
• Контекстное окно в 32K токенов
• До 8 минут в одной сессии
• Function calling для интеграции внешних сервисов
• RAG для работы с корпоративными данными
• Поддержка американского и британского английского

Практическое применение:
• Автоматизация контакт-центров
• Виртуальные туристические консультанты
• Образовательные приложения
• Игры с голосовым интерфейсом
• AI-ассистенты для работы с корпоративными дашбордами

Модель уже доступна через Amazon Bedrock в регионе US East (N. Virginia).

Для Python-разработчиков выпущен экспериментальный SDK для работы с бидирекциональным стримингом.

AWS явно в лидерах ИИ разработок. Не перестают удивлять, хотя о них и меньше "кричат", чем про OpenAI или Google.
Послушайте пример в прикрепе к посту.

#Amazon #Nova #Voice #AWS #sound
———
@tsingular

👍6⚡4❤1

1.04K views06:10