De acordo com notícias da IT House em 27 de julho, a Microsoft lançou recentemente um modelo de fala chamado NaturalSpeech2, que usa um design de "difusão potencial" e tem um efeito notável no nível de síntese de fala de amostra zero. que pode oferecer aos usuários uma experiência de síntese de fala diversificada e de alta qualidade. Ao contrário dos sistemas tradicionais de fala para texto (TTS), o NaturalSpeech2 da Microsoft usa "vetores contínuos" em vez de "tokens discretos" para representar a fala, resultando em fragmentos de fala mais completos que não produzem "leituras de bastão" "não sentimentais" (uma fala em uma palavra)" fenômeno. Os resultados experimentais mostram que a fala gerada pelo NaturalSpeech2 sob a condição de amostra zero é quase consistente com a prosódia do prompt de fala e a fala real, e a naturalidade (medida por CMOS) nos conjuntos de teste LibriTTS e VCTK é indistinguível da discurso verdadeiro.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
Altcoin Season Update
15k Popularidade
Trump Pressures Powell
760 Popularidade
ETH Breaks $3600
936 Popularidade
4Gate 2025 Q2 Report Released
41k Popularidade
5Gate Derivatives Volume Hits New High
17k Popularidade
6CPI Data Incoming
61k Popularidade
7Join Gate VIP to Win MacBook
31k Popularidade
8MicroStrategy Buys More Bitcoin
3k Popularidade
9BTC Hits New High
94k Popularidade
10My Gate Moments
27k Popularidade

Marcar

sitemap