美少女VTuber始めました。AIボイスチェンジャーで女声のライブ配信方法の紹介

こんにちは、テリーです。急激に進化しているAI技術をキャッチアップするだけで大変な毎日です。ChatGPT、Stable Diffusionに並んで進化が目覚ましくニーズも強い、AIボイスチェンジャーのプロダクトがたくさん公開されています。

今回はAIボイスチェンジャーをライブ配信に利用し、男声を女声に変換してライブ配信するアプリケーションをご紹介します。見た目も声も性別もすべて思い通り。これであなたは真のバーチャル美少女キャラになれるかもしれません。

対象読者

  • OBS Studioから各種動画サイト(YouTube等)へ声を変更してライブ配信したい人
  • 各種ビデオ会議サイト(Zoom、Google Meet等)で声を変更したい人

動作確認環境

macOSで動作確認をしています。Windowsでも大筋は同じです。

  • macOS Ventura 13.5.2
  • OBS 29.1.3
  • VC Client v.1.5.3.13
  • VB-Cable 108 MAY 2021

ボイスチェンジャーとは

ボイスチェンジャーとは、人の声をデジタル的に変更・加工する装置やソフトウェアのことを指します。このツールは、さまざまな目的のために、元の声を別の声質やトーンに変換するのに使用されます。例えば、プライバシーの保護、音声の特性を変えるエンターテインメントの目的、動画編集、ゲーム、特定の役を演じる声優などで使用されることがあります。

初期のボイスチェンジャーは、声のピッチ、速度、トーン、エコーを変更する装置でしたが、近年のAI技術を利用した変換技術が進化しており、より自然でリアルな声の変換が可能になってきています。

ボイスチェンジャーのアプリは大きく分けて2種類、収録済みの音声を変換するボイスチェンジャーと、リアルタイムに変換するボイスチェンジャーに分けられます。リアルタイムでの処理が求められる場合は、処理速度が非常に重要となるため、そのトレードオフとして、複雑な変換やフィルタリングが難しくなります。また、映像の口の動きと変換後の音声のズレが気になるため、映像を音声に合わせてわずかに遅延させる等の工夫も必要です。

ボイスチェンジャーアプリのインストール

ボイスチェンジャーのアプリは有償・無償のものがたくさんありますが、本記事ではVC Clientというソフトウェアをご紹介します。Windows, Mac, Linuxに対応しています。

こちらのサイトから、最新のバージョンをダウンロードします。macの場合は一番上の行の中央付近にある「hugging face」のリンクをクリックします。

Hugging Faceのサイトが開きます。最新でないバージョンも並んでいて見にくいですが、マウスカーソルを合わせてリンク先ファイル名を確認しつつ、最新の 「MMVCServerSIO_mac_onnxcpu-nocuda_v.1.5.3.13.zip」をダウンロードします。下矢印のアイコンをクリックすると、一番簡単にダウンロードできます。

ダウンロードしたzipファイルを解凍し、Finderから「MMVCServerSIO.app」を右クリックして表示されたメニューから「開く」をクリックします。警告が表示されますが、OKを押します。すると学習済みデータ等3GBのダウンロードが始まります(回線の速度によりますが2-5分ほどかかります)。ダウンロードが終わったら、いったん終了します。

次に「startHttp.command」を押すとアプリが起動します。

アプリのインストール手順は以上です。使い方は後述します。

仮想音声デバイスのインストール

ボイスチェンジャーアプリにより出力される音声データをZoomやOBS、ブラウザ等に渡すために仮想オーディオデバイスというものが必要です。仮想スピーカーと仮想マイクが対になっていて、仮想スピーカーに対して出力した音声データを、仮想マイクを経由して別のアプリが受け取ることができます。

mac向けにはBlackHoleというアプリとVB-Cableというアプリが有名です。VB-Cableの方が設定項目が少なく初心者向きです。本記事ではWindowsにも対応しているVB-Cableをご紹介します。

こちらのサイトから、オレンジ色のボタンをクリックして、「VBCable_MACDriver_Pack108.zip」をダウンロードし、解凍します。

解凍したファイルの中の「VBCable_MACDriver_Pack108.dmg」をダブルクリックし、さらに「vb-cable-installer.pkg」アイコンをダブルクリックすると、インストーラが起動し、「続ける」を押していくとインストールが完了します。

仮想オーディオデバイスのインストールが完了したら、ここで一度OSを再起動します。サウンドデバイスの中の「入力」「出力」ともに「VB-Cable」が含まれていればインストールは成功です。

VC Clientの設定

ここまでが大変でしたが、あと少しです。上述の「startHttp.command」をダブルクリックしてVC Clientを実行します。たくさん設定項目がありますが、ここでは必要最小限のものをご紹介します。

まず、オーディオデバイスの設定をします。

「input」には自分の生の声を取り込むマイクデバイスを選択します。外部マイクがある場合は「外部マイク (Build-in)」、ない場合はパソコン内蔵のマイク「MacBook Proのマイク (Build-in)」を選択します。

「output」には、VC Clientが生成した音声データの出力先スピーカーを指定します。仮想オーディオデバイス「VB-Cable (Virtual)」を指定します。

「monitor」には、VC Clientが生成した音声データを自分自身で確認するためのイヤホン・ヘッドフォンを指定します。最初は「外部ヘッドフォン (Built-in)」を指定します。動作確認が取れて、音量・音質に自信がついたら「none」に戻します。

次にCHUNKサイズを指定します。この値が小さいほどリアルタイム性が高まりますが、計算量にも関わってくるので、「96 (256.0 ms, 12288)」程度から始めて、自分のパソコンにあった数値を見つけてください。

次にNOISEを指定します。ノイズ検出を強くすると、鼻息や呼吸音が変換されなくなりますが、一方で話し始めの一文字目の音が落ちることがあります。よいマイクを使っている場合はノイズ検出を弱めにしてもよいでしょう。

NOISEの各設定項目について説明します。「Echo」はChromeブラウザに付属のエコーキャンセラーを指します。ヘッドフォンがない場合にチェックを入れるとハウリングが起こりにくくなります。ノイズは若干増える傾向にあります。「Sup1」はChromeブラウザに付属のノイズ除去機能です。「Sup2」はAmazon Chime SDKに付属のノイズ除去機能です。C20という品質モードが指定されています。今のところ変更はできません。

Sup1, Sup2のどちらがよいかは、周りのノイズの種類と大きさによります。ファンの音、キーボードの音、人の会話、雨、風、車、電車など、得意不得意がありますので、Sup2で試してイマイチならば、Sup1にすると良いでしょう。

最後に「TUNE」を設定します。デフォルト値は「0」ですが、男の声を女の声に変換する場合は「12」付近の値が推奨されています。「設定保存」ボタンを押すと次回起動時にもこの値で始められます。

以上の設定が終わったら「start」ボタンを押し、下図のように明るめの緑色になったらマイクに向けて何かを話し、ヘッドフォンで音を確認してください。自分で口に出してからワンテンポ0.5秒ほど遅れて変換後の声が聞こえます。VC Clientをインストールした直後のデフォルト設定は「つくよみちゃん」になっているのでので、彼女の声に変換されます。

VC Clientの設定は以上です。

ビデオ会議アプリの設定

ここではGoogle Meetの設定をご紹介しますが、Zoom、Teams、LINEでもほぼ同様です。唯一Whats Appだけは仮想オーディオでの入力を受け付けてくれませんでした。

設定をするのは「マイク」です。これまでは内蔵マイクまたは外部マイクを使用してきましたが、VC Clientを経由した音声を使用する場合は仮想オーディオデバイス「VB-Cable (Virtual)」を選択します。VC Clientでノイズ除去をしている場合は、ビデオ会議側のノイズキャンセルはオフにしてもよいでしょう。

Google Meetの場合は「録画して確認」機能があるので、大事な場面では事前に確認すると良いでしょう。

Google Meetの設定画面

OBSの設定

VC Clientの出力をOBSに取り込むには、OBSの「ソース」に「音声入力キャプチャ」を追加します。名前はお好みで「vb-cable」や「仮想オーディオ」などにすると良いでしょう。

名前を入力した次のダイアログでは仮想オーディオ「VB-Cable」を選択します。

音声ミキサーの欄に「vb-cable」が追加されます。ここに「マイク」がある場合は「スピーカー」のアイコンをクリックしてミュートし、生の声が配信されないようにします。

「オーディオの詳細プロパティ」を押し、「音声モニタリング」の欄を「モニターと出力」にします。モニターによる確認が不要になったら「モニターオフ」に変更します。

「設定」ダイアログの「音声」の中ほどに「モニタリングデバイス」という項目があります。これを「外部ヘッドフォン」にします。

OBSの設定は以上です。配信ボタンを押せば、YouTube等に女性の声で配信できます。録画ボタンを押せば映像とともに女性の声で音声が書き出されます。

サンプル

最後にサンプル動画をお見せします。下記のようにしゃべっています。

「こんにちは、テリヤキです。VC Clientを使って女の子の声になっています。中の人はおじさんです。声が変わっても話し方はそう簡単に変えられないので、キャラの作り込みはまた別次元の話になります。バイバイ」

https://terry-pixiv.github.io/knowledge_movie/202309_vcclient_h264.mp4

まとめ

リアルタイムに女声に変換し配信するための、AIボイスチェンジャーのインストールと初期設定をご紹介しました。声が変わっても話し方や話題などはおじさんのままなので、真のバーチャル美少女化は一朝一夕ではありません。AIボイスチェンジャーも他のAI技術と同様に日進月歩で進化中です。今はまだボイスチェンジャーっぽさが残っていますが、人間にはそう簡単に区別がつかなくなるのは時間の問題でしょう。毎日さまざまなプロダクトが公開されていますので、ぜひ挑戦してください。