IT House の 7 月 27 日のニュースによると、マイクロソフトは最近、「潜在的拡散」設計を使用し、ゼロサンプル音声合成レベルで優れた効果を発揮する NaturalSpeech2 と呼ばれる音声モデルを発表しました。ユーザーに高品質で多様な音声合成体験を提供できます。従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表すために「離散トークン」の代わりに「連続ベクトル」を使用し、その結果、「非感傷的な」「棒読み」(英語での音声) を生成しない、より完全な音声の断片が生成されます。一言）」現象。実験結果は、ゼロサンプル条件下で NaturalSpeech2 によって生成された音声が、音声プロンプトおよび実際の音声の韻律とほぼ一致しており、LibriTTS および VCTK テストセットでの自然さ (CMOS で測定) が、本当のスピーチ。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

0/400

コメントなし