名探偵コナンのボイスチェンジャーが現実のものになりました。
先日、テレビで音声生成 AI で総理の声を再現する映像を見て驚きました。
その技術について興味を持ち、実際に試してみたので共有したいと思います。
どうやってやるか
- 音声モデルの作成には RVC WebUI というライブラリを使う
- Google Colaboratory 版を利用するのが環境依存がないため便利
- GUI でポチポチ選択して設定しながら進めることができる
- リアルタイム変換には VC Cientが使える
必要なもの
- 学習させる音声データ
- 多いほど精度はあがる
- 合計 5 分ほどのデータで試してみたが、かなり精度が高く驚いた
- 各種ライブラリ
- RVC WebUi
- CV Client
手順
graph TD
subgraph rvc["RVC WebUI"]
model["音声モデルを生成する"]
end
subgraph cvc["CV Client"]
change["モデルを使ってリアルタイム変換する"]
end
model --> cvc
手順詳細は以下が参考になります。
- 日本人のための RVC WebUI の使い方:簡単オリジナル AI ボイスチェンジャー作成
- 【AI ボイチェン】VC Client の使い方!RVC モデルを使ってリアルタイムにボイスチェンジしてみよう
仕組み
「図解】超高性能 AI ボイスチェンジャー「RVC」のしくみ・コツ」という記事を見つけましたが、ふんわりとしか理解できませんでした。