Zen of Python

Text-to-image — было, Text-to-video тоже. А как насчёт Speech-to-Speech

Энтузиаст с ютуба сделал Speech-to-Speech систему, с которой можно лампово поболтать холодным зимним вечером под чашечку чая, ну или не совсем лампово. Потому как всё зависит от промпта, который вы дадите своему виртуальному собеседнику. В случае автора — это Джули (девушка хакер из даркнета) и Джони — (сумасшедший исследователь искусственного интеллекта).

Всё это дело работает локально и на удивление имеет довольно низкую задержку. Для распознавания речи применяется Whisper от OpenAI. Затем текст обрабатывается моделью Mistral 7B в LM Studio для генерации ответа, который в итоге озвучивается с помощью библиотеки Open Voice.

#позалипать #project #python

⚡6❤1👍1🍌1

4.28K views15:08

About

Blog

Apps

Platform