De acordo com notícias da IT House em 27 de julho, a Microsoft lançou recentemente um modelo de fala chamado NaturalSpeech2, que usa um design de "difusão potencial" e tem um efeito notável no nível de síntese de fala de amostra zero. que pode oferecer aos usuários uma experiência de síntese de fala diversificada e de alta qualidade. Ao contrário dos sistemas tradicionais de fala para texto (TTS), o NaturalSpeech2 da Microsoft usa "vetores contínuos" em vez de "tokens discretos" para representar a fala, resultando em fragmentos de fala mais completos que não produzem "leituras de bastão" "não sentimentais" (uma fala em uma palavra)" fenômeno. Os resultados experimentais mostram que a fala gerada pelo NaturalSpeech2 sob a condição de amostra zero é quase consistente com a prosódia do prompt de fala e a fala real, e a naturalidade (medida por CMOS) nos conjuntos de teste LibriTTS e VCTK é indistinguível da discurso verdadeiro.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
De acordo com notícias da IT House em 27 de julho, a Microsoft lançou recentemente um modelo de fala chamado NaturalSpeech2, que usa um design de "difusão potencial" e tem um efeito notável no nível de síntese de fala de amostra zero. que pode oferecer aos usuários uma experiência de síntese de fala diversificada e de alta qualidade. Ao contrário dos sistemas tradicionais de fala para texto (TTS), o NaturalSpeech2 da Microsoft usa "vetores contínuos" em vez de "tokens discretos" para representar a fala, resultando em fragmentos de fala mais completos que não produzem "leituras de bastão" "não sentimentais" (uma fala em uma palavra)" fenômeno. Os resultados experimentais mostram que a fala gerada pelo NaturalSpeech2 sob a condição de amostra zero é quase consistente com a prosódia do prompt de fala e a fala real, e a naturalidade (medida por CMOS) nos conjuntos de teste LibriTTS e VCTK é indistinguível da discurso verdadeiro.