CeVIOの音声合成の原理


※他にも情報があればぜひ追加お願いします!




音声合成のしくみ~波形接続とSPSS~――BELL-UV-AGE-4さん

最近主流の音声合成の手法2つを、初心者向きに分かりやすく解説した動画です。
VOICEROIDやVOCALOIDで採用されている「波形接続型音声合成」
CeVIOで採用されている「統計的パラメトリック音声合成(SPSS)」の原理が分かります。


※ただし、動画内の「ささらメソッド」に関する説明はあくまでSPSS全般のもので、CeVIOの原理はこれと異なる部分もありますので、その点はご注意ください。
※2022年現在、SPSSはDNNを採用した方法などの登場により、まとめて「統計的音声合成」と呼ばれる事が多くなっています。




各種資料


「統計的音声合成技術の現在・過去・未来」(2015)



2015年の名工大・徳田先生(CeVIOのエンジンを開発するテクノスピーチ社の共同代表でもあります)の講演資料です。

「統計的音声合成の展開と展望」(2019)



2019年の名工大・徳田先生の講演資料です。「統計的音声合成技術の現在・過去・未来」よりもDNNなどの新しい記述について詳しく記載があります。





関係者ツイート

「CeVIO AIは大量に誰かの声で収録した学習ビッグデータに、少量の声優さんの声をブレンドして作る」と言っている人を見かけましたが、間違った情報です。
ささらもゆかりさんも、六花さんも可不さんも、演者さんの声100%で他人の声は混ざってないですよ。
https://twitter.com/Kawade_Yoichi/status/1528566362326835200

学習データが不足する場合は、品質向上のため別の人の声で補完することはあり得るので、今後も含め常に全部が全部純度100%という約束ではない点はご理解ください。品質改善できなくなると困るので。
通常は十分な収録データがあれば、演者さんの声100%でCeVIO AIのボイスは完成します。

ボイスを本人の声だけから作っているかどうかという話を見かけましたが、間違った情報を訂正していくのが大事なのは言うまでもないこととして、
データ量、データの質、話者の特性等によって最適な方法が変わるので、特に制約を付けずにお任せいただくのが良いのだろうと思います。
https://twitter.com/kazicnet/status/1528749904469774336


関連ページ





タグ:

音声合成
+ タグ編集
  • タグ:
  • 音声合成

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2022年10月10日 02:53