Innovation & Research
2.88K subscribers
416 photos
57 videos
149 files
4.47K links
“Push-the-envelope” Channel
Download Telegram
VALL-E от Microsoft имитирует любой голос по трем секундам аудио

Инструмент построен на базе технологии сжатия звука EnCodec от Meta* и первоначально планировался для улучшения качества голосовой связи.

Впоследствии выяснилось, что система умеет имитировать не только голос, но и интонации, и даже шумы окружающей среды, с которыми была сделана исходная запись.

Нейросеть была обучена на датасете Libri-light, содержащем 60 тыс. часов англоязычных разговоров 7 тыс. разных людей.

Сеть пока находится на ранней стадии разработки и плохо справляется с разными акцентами, однако уже имитирует речь достаточно хорошо, чтобы вывести дипфейки на новый уровень.
Поэтому Microsoft решила не выкладывать исходный код в открытый доступ.

*организация запрещена в России как экстремистская


#Microsoft #бигтехи #голос #имитация #нейросеть

https://arxiv.org/abs/2301.02111