Selon des nouvelles d'IT House du 27 juillet, Microsoft a récemment lancé un modèle de parole appelé NaturalSpeech2, qui utilise une conception de "diffusion potentielle" et a un effet exceptionnel au niveau de la synthèse vocale à échantillon zéro. qui peut offrir aux utilisateurs une expérience de synthèse vocale de haute qualité et diversifiée. Contrairement aux systèmes traditionnels de synthèse vocale (TTS), NaturalSpeech2 de Microsoft utilise des "vecteurs continus" au lieu de "jetons discrets" pour représenter la parole, ce qui donne des fragments de parole plus complets qui ne produisent pas de "lectures de bâton" "non sentimentales" (un discours en un mot)" phénomène. Les résultats expérimentaux montrent que la parole générée par NaturalSpeech2 dans la condition d'échantillon zéro est presque cohérente avec la prosodie de l'invite vocale et la parole réelle, et le naturel (mesuré par CMOS) sur les ensembles de test LibriTTS et VCTK est indiscernable de la vrai discours.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Selon des nouvelles d'IT House du 27 juillet, Microsoft a récemment lancé un modèle de parole appelé NaturalSpeech2, qui utilise une conception de "diffusion potentielle" et a un effet exceptionnel au niveau de la synthèse vocale à échantillon zéro. qui peut offrir aux utilisateurs une expérience de synthèse vocale de haute qualité et diversifiée. Contrairement aux systèmes traditionnels de synthèse vocale (TTS), NaturalSpeech2 de Microsoft utilise des "vecteurs continus" au lieu de "jetons discrets" pour représenter la parole, ce qui donne des fragments de parole plus complets qui ne produisent pas de "lectures de bâton" "non sentimentales" (un discours en un mot)" phénomène. Les résultats expérimentaux montrent que la parole générée par NaturalSpeech2 dans la condition d'échantillon zéro est presque cohérente avec la prosodie de l'invite vocale et la parole réelle, et le naturel (mesuré par CMOS) sur les ensembles de test LibriTTS et VCTK est indiscernable de la vrai discours.