名探偵コナンのボイスチェンジャーが現実のものになりました。

蝶ネクタイの男の子

先日、テレビで音声生成 AI で総理の声を再現する映像を見て驚きました。

その技術について興味を持ち、実際に試してみたので共有したいと思います。

どうやってやるか

  • 音声モデルの作成には RVC WebUI というライブラリを使う
    • Google Colaboratory 版を利用するのが環境依存がないため便利
    • GUI でポチポチ選択して設定しながら進めることができる
  • リアルタイム変換には VC Cientが使える

必要なもの

  • 学習させる音声データ
    • 多いほど精度はあがる
    • 合計 5 分ほどのデータで試してみたが、かなり精度が高く驚いた
  • 各種ライブラリ
    • RVC WebUi
    • CV Client

手順

graph TD

subgraph rvc["RVC WebUI"]
  model["音声モデルを生成する"]
end

subgraph cvc["CV Client"]
  change["モデルを使ってリアルタイム変換する"]
end


model --> cvc

手順詳細は以下が参考になります。

仕組み

図解】超高性能 AI ボイスチェンジャー「RVC」のしくみ・コツ」という記事を見つけましたが、ふんわりとしか理解できませんでした。

参考にした記事