Forwarded from Нейроканал
This media is not supported in your browser
VIEW IN TELEGRAM
Text-to-image — было, Text-to-video тоже. А как насчёт Speech-to-Speech
Энтузиаст с ютуба сделал Speech-to-Speech систему, с которой можно лампово поболтать холодным зимним вечером под чашечку чая, ну или не совсем лампово. Потому как всё зависит от промпта, который вы дадите своему виртуальному собеседнику. В случае автора — это Джули (девушка хакер из даркнета) и Джони — (сумасшедший исследователь искусственного интеллекта).
Всё это дело работает локально и на удивление имеет довольно низкую задержку. Для распознавания речи применяется Whisper от OpenAI. Затем текст обрабатывается моделью Mistral 7B в LM Studio для генерации ответа, который в итоге озвучивается с помощью библиотеки Open Voice.
#позалипать #project #python
Энтузиаст с ютуба сделал Speech-to-Speech систему, с которой можно лампово поболтать холодным зимним вечером под чашечку чая, ну или не совсем лампово. Потому как всё зависит от промпта, который вы дадите своему виртуальному собеседнику. В случае автора — это Джули (девушка хакер из даркнета) и Джони — (сумасшедший исследователь искусственного интеллекта).
Всё это дело работает локально и на удивление имеет довольно низкую задержку. Для распознавания речи применяется Whisper от OpenAI. Затем текст обрабатывается моделью Mistral 7B в LM Studio для генерации ответа, который в итоге озвучивается с помощью библиотеки Open Voice.
#позалипать #project #python
⚡6❤1👍1🍌1