VALL-E от Microsoft имитирует любой голос по трем секундам аудио
Инструмент построен на базе технологии сжатия звука EnCodec от Meta* и первоначально планировался для улучшения качества голосовой связи.
Впоследствии выяснилось, что система умеет имитировать не только голос, но и интонации, и даже шумы окружающей среды, с которыми была сделана исходная запись.
Нейросеть была обучена на датасете Libri-light, содержащем 60 тыс. часов англоязычных разговоров 7 тыс. разных людей.
Сеть пока находится на ранней стадии разработки и плохо справляется с разными акцентами, однако уже имитирует речь достаточно хорошо, чтобы вывести дипфейки на новый уровень.
Поэтому Microsoft решила не выкладывать исходный код в открытый доступ.
*организация запрещена в России как экстремистская
#Microsoft #бигтехи #голос #имитация #нейросеть
https://arxiv.org/abs/2301.02111
Инструмент построен на базе технологии сжатия звука EnCodec от Meta* и первоначально планировался для улучшения качества голосовой связи.
Впоследствии выяснилось, что система умеет имитировать не только голос, но и интонации, и даже шумы окружающей среды, с которыми была сделана исходная запись.
Нейросеть была обучена на датасете Libri-light, содержащем 60 тыс. часов англоязычных разговоров 7 тыс. разных людей.
Сеть пока находится на ранней стадии разработки и плохо справляется с разными акцентами, однако уже имитирует речь достаточно хорошо, чтобы вывести дипфейки на новый уровень.
Поэтому Microsoft решила не выкладывать исходный код в открытый доступ.
*организация запрещена в России как экстремистская
#Microsoft #бигтехи #голос #имитация #нейросеть
https://arxiv.org/abs/2301.02111