「CeVIOの音声合成の原理」の編集履歴(バックアップ)一覧はこちら
「CeVIOの音声合成の原理」(2022/10/10 (月) 02:53:08) の最新版変更点
追加された行は緑色になります。
削除された行は赤色になります。
----
#contents_line
※他にも情報があればぜひ追加お願いします!
----
*音声合成のしくみ~波形接続とSPSS~――BELL-UV-AGE-4さん
最近主流の音声合成の手法2つを、初心者向きに分かりやすく解説した動画です。
VOICEROIDやVOCALOIDで採用されている&bold(){「波形接続型音声合成」}と
CeVIOで採用されている&bold(){「統計的パラメトリック音声合成(SPSS)」}の原理が分かります。
(ただし、動画内の「ささらメソッド」に関する説明はあくまでSPSS全般のもので、CeVIOの原理はこれと異なる部分もありますので、その点はご注意ください。)
#nicovideo2(http://www.nicovideo.jp/watch/sm29439324)
----
*各種資料
** 「統計的音声合成技術の現在・過去・未来」(2015)
-[[スライド資料>>https://www.sp.nitech.ac.jp/~tokuda/tokuda_SIG-SLP_2015_for_pdf.pdf]]
2015年の名工大・徳田先生(CeVIOのエンジンを開発するテクノスピーチ社の共同代表でもあります)の講演資料です。
** 「統計的音声合成の展開と展望」(2019)
-[[スライド資料>>http://www.sp.nitech.ac.jp/~tokuda/20191206_%E9%9F%B3%E5%A3%B0%E8%A8%80%E8%AA%9E%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A0%EF%BC%88%E5%BE%B3%E7%94%B0%E6%8B%9B%E5%BE%85%E8%AC%9B%E6%BC%94%EF%BC%89.pdf]]
--https://www.ieice.org/ken/paper/20191206X1T1/
2019年の名工大・徳田先生の講演資料です。「統計的音声合成技術の現在・過去・未来」よりもDNNなどの新しい記述について詳しく記載があります。
----
*関係者ツイート
#twitter_widget3(){<blockquote class="twitter-tweet"><p lang="ja" dir="ltr">「CeVIO AIは大量に誰かの声で収録した学習ビッグデータに、少量の声優さんの声をブレンドして作る」と言っている人を見かけましたが、間違った情報です。<br>ささらもゆかりさんも、六花さんも可不さんも、演者さんの声100%で他人の声は混ざってないですよ。</p>— 川出 陽一 (@Kawade_Yoichi) <a href="https://twitter.com/Kawade_Yoichi/status/1528566362326835200?ref_src=twsrc%5Etfw">May 23, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>}
>「CeVIO AIは大量に誰かの声で収録した学習ビッグデータに、少量の声優さんの声をブレンドして作る」と言っている人を見かけましたが、間違った情報です。
>ささらもゆかりさんも、六花さんも可不さんも、演者さんの声100%で他人の声は混ざってないですよ。
>https://twitter.com/Kawade_Yoichi/status/1528566362326835200
>学習データが不足する場合は、品質向上のため別の人の声で補完することはあり得るので、今後も含め常に全部が全部純度100%という約束ではない点はご理解ください。品質改善できなくなると困るので。
>通常は十分な収録データがあれば、演者さんの声100%でCeVIO AIのボイスは完成します。
#twitter_widget3(){<blockquote class="twitter-tweet"><p lang="ja" dir="ltr">ボイスを本人の声だけから作っているかどうかという話を見かけましたが、間違った情報を訂正していくのが大事なのは言うまでもないこととして、<br>データ量、データの質、話者の特性等によって最適な方法が変わるので、特に制約を付けずにお任せいただくのが良いのだろうと思います。</p>— Kazuhiro Nakamura (@kazicnet) <a href="https://twitter.com/kazicnet/status/1528749904469774336?ref_src=twsrc%5Etfw">May 23, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>}
>ボイスを本人の声だけから作っているかどうかという話を見かけましたが、間違った情報を訂正していくのが大事なのは言うまでもないこととして、
>データ量、データの質、話者の特性等によって最適な方法が変わるので、特に制約を付けずにお任せいただくのが良いのだろうと思います。
>https://twitter.com/kazicnet/status/1528749904469774336
----
*関連ページ
-[[よくある質問(Q&A) / ボカロやボイロとは違うものですか?>>よくある質問(Q&A)/1#id_564178e3]]
-[[よくある質問(Q&A) / 音声合成の方法は、ボイスロイドやボカロ・UTAUとどう違うんですか?>>よくある質問(Q&A)/1#id_a8393de6]]
-[[CeVIO AI・CeVIO Proの情報まとめ/技術面について]]
----
----
#contents_line
※他にも情報があればぜひ追加お願いします!
----
*音声合成のしくみ~波形接続とSPSS~――BELL-UV-AGE-4さん
最近主流の音声合成の手法2つを、初心者向きに分かりやすく解説した動画です。
VOICEROIDやVOCALOIDで採用されている&bold(){「波形接続型音声合成」}と
CeVIOで採用されている&bold(){「統計的パラメトリック音声合成(SPSS)」}の原理が分かります。
※ただし、動画内の「ささらメソッド」に関する説明はあくまでSPSS全般のもので、CeVIOの原理はこれと異なる部分もありますので、その点はご注意ください。
※2022年現在、SPSSはDNNを採用した方法などの登場により、まとめて「&bold(){統計的音声合成}」と呼ばれる事が多くなっています。
#nicovideo2(http://www.nicovideo.jp/watch/sm29439324)
----
*各種資料
** 「統計的音声合成技術の現在・過去・未来」(2015)
-[[スライド資料>>https://www.sp.nitech.ac.jp/~tokuda/tokuda_SIG-SLP_2015_for_pdf.pdf]]
2015年の名工大・徳田先生(CeVIOのエンジンを開発するテクノスピーチ社の共同代表でもあります)の講演資料です。
** 「統計的音声合成の展開と展望」(2019)
-[[スライド資料>>http://www.sp.nitech.ac.jp/~tokuda/20191206_%E9%9F%B3%E5%A3%B0%E8%A8%80%E8%AA%9E%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A0%EF%BC%88%E5%BE%B3%E7%94%B0%E6%8B%9B%E5%BE%85%E8%AC%9B%E6%BC%94%EF%BC%89.pdf]]
--https://www.ieice.org/ken/paper/20191206X1T1/
2019年の名工大・徳田先生の講演資料です。「統計的音声合成技術の現在・過去・未来」よりもDNNなどの新しい記述について詳しく記載があります。
----
*関係者ツイート
#twitter_widget3(){<blockquote class="twitter-tweet"><p lang="ja" dir="ltr">「CeVIO AIは大量に誰かの声で収録した学習ビッグデータに、少量の声優さんの声をブレンドして作る」と言っている人を見かけましたが、間違った情報です。<br>ささらもゆかりさんも、六花さんも可不さんも、演者さんの声100%で他人の声は混ざってないですよ。</p>— 川出 陽一 (@Kawade_Yoichi) <a href="https://twitter.com/Kawade_Yoichi/status/1528566362326835200?ref_src=twsrc%5Etfw">May 23, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>}
>「CeVIO AIは大量に誰かの声で収録した学習ビッグデータに、少量の声優さんの声をブレンドして作る」と言っている人を見かけましたが、間違った情報です。
>ささらもゆかりさんも、六花さんも可不さんも、演者さんの声100%で他人の声は混ざってないですよ。
>https://twitter.com/Kawade_Yoichi/status/1528566362326835200
>学習データが不足する場合は、品質向上のため別の人の声で補完することはあり得るので、今後も含め常に全部が全部純度100%という約束ではない点はご理解ください。品質改善できなくなると困るので。
>通常は十分な収録データがあれば、演者さんの声100%でCeVIO AIのボイスは完成します。
#twitter_widget3(){<blockquote class="twitter-tweet"><p lang="ja" dir="ltr">ボイスを本人の声だけから作っているかどうかという話を見かけましたが、間違った情報を訂正していくのが大事なのは言うまでもないこととして、<br>データ量、データの質、話者の特性等によって最適な方法が変わるので、特に制約を付けずにお任せいただくのが良いのだろうと思います。</p>— Kazuhiro Nakamura (@kazicnet) <a href="https://twitter.com/kazicnet/status/1528749904469774336?ref_src=twsrc%5Etfw">May 23, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>}
>ボイスを本人の声だけから作っているかどうかという話を見かけましたが、間違った情報を訂正していくのが大事なのは言うまでもないこととして、
>データ量、データの質、話者の特性等によって最適な方法が変わるので、特に制約を付けずにお任せいただくのが良いのだろうと思います。
>https://twitter.com/kazicnet/status/1528749904469774336
----
*関連ページ
-[[よくある質問(Q&A) / ボカロやボイロとは違うものですか?>>よくある質問(Q&A)/1#id_564178e3]]
-[[よくある質問(Q&A) / 音声合成の方法は、ボイスロイドやボカロ・UTAUとどう違うんですか?>>よくある質問(Q&A)/1#id_a8393de6]]
-[[CeVIO AI・CeVIO Proの情報まとめ/技術面について]]
----