え?何?機械なの?機械のフリの人なの?
春先の外出自粛から、久々にニコ動側で動きだした時、話題は聞いていた「たべるんごのうた」をチェックした時の話です。流れで聴いた「AIきりたん」なる歌声に驚愕ww
今回この記事に作成のために作ったサンプルです
どんな仕組みなの?
長いことボカロも使ってますが、今までの聞いてきた合成音声とは全く別次元の歌声なので、調べてみた所「AIきりたん」は「NEUTRINO」というシステムで動いており、SHACHIさんという方が開発したフリーウェアのようでした。個人では流石に無理だろうと調べていくと、現在、明治大学の準教授をされている森勢将雅先生が音声合成システム「WORLD」を開発・公開し、「きりたん」の声も、許諾を得て録音し直してAI学習用音声データとして公開するなどの活動をされていました。これらのデータを元に、SHACHIさんは、フリーウェア「NEUTRINO」を開発されたようです。旧来方式のの簡単なプログラムしか書けない私からすれば、基礎データがあるとは言え、個人でAIベースのソフトを作れるなんて、ものすごい技術だと思います。
ちなみに、森勢教授の「WORLD」の技術の一部はUTAUやCeVIOなどでも利用されているものです。
簡単に使ってみた
今回、実際にWindows環境で、使用してみました。NEUTRINOは、MAC版、Linux版もあるようです。他環境の方はNEUTRINO公式HPをご覧ください。
流れとしては
0.インストール
1.歌唱データの作成
2.音声データへ変換
です。
インストールは一度しかしないので、実質1~2だけの作業と考えると思ったよりはかなりお手軽な作業です。
0.インストール
NEUTRINO公式HPよりデータをDL。解凍して任意のフォルダにまとめるだけ。アンインストールはフォルダごとデータを削除するだけだそうです。
1.歌唱データの作成
歌わせる元データはMusicXMLであり、NEUTRINO自体に編集ソフトはありません。
MusicXMLは名前の通りXML形式のテキストファイルで、演奏情報と歌詞情報が盛り込まれています。一般には楽譜情報のやりとりに使われるXMLファイルです。NEUTRINO公式からはフリーウェアの楽譜編集ソフトmusescoreでのデータ作成が推奨されています。
楽譜と対応する歌詞を打ち込んだら、XML形式でNEUTRINOフォルダ内のscoreフォルダに保存すれば完了。こちらも簡単です。私は普段Finaleという楽譜編集ソフトを使っており、こちらもMusicXMLを書き出せるので、今回のテストはFinaleでXMLファイルを作りましたが、問題なく歌わせることができました。
2.音声データへ変換
ここがNEUTRINOの根幹部分です。実行プログラムの拡張子がexeであることすら忘れかけていましたが、拡張子batのバッチファイルの編集が必要なのは、ある意味新鮮です。ネットで検索すると多くの人がこれをバットファイルと呼んでいますが、正しくはバッチファイルです。下の図の通り、PCにやらせる一連の作業(バッチ処理)が書かれたテキストファイルでbatchの先頭3文字が拡張子なので、見慣れないために読み間違えているようです。
Run.batファイルをメモ帳などで開き下の図に従って内容を変更し保存してください。
上のgif画像で繰り返し説明してますが、基本は1で作ったXMLファイルの名前を指定するだけなので簡単です。
あとは、run.batを実行して結果を待つだけ。
懐かしい感じのコマンドプロンプトが出て結果はNEUTRINOフォルダ内のoutputフォルダにwavファイルとして保存されます。
実行にかかった時間は26秒の歌声に対して28秒、もちろんCPUパワーに依存すると思います。第8世代のcore i7での結果ですので参考程度に考えてください。
2020年4月20日公開のVersion 0.200からはNFS版というWORLDで作ったものを更に加工する機能があるようで、こちらはNVIDIAのGPUに積まれたRAMを計算領域に使っているようです。規格に合うGPUを積んでいないPCは、この機能は使えないので、バッチファイルのNFSに関わる部分に「:」を書いて機能しないようにする必要があります。私はPCではゲームをしないので、NVIDIAのGPUは積んでいませんから、常時「:」が入れています。
まとめ
思っていたより簡単に歌わせることができる反面、AIが勝手に学習対象の歌手のように歌わせるので、思い通りにコントロールするという感じではないようでした。作り手としては自由にコントロールしたいと思う所ですが、ボカロ界隈で言われるいわゆる「調教」はできないようです。まぁ、お手軽にこれだけ歌ってもらえるのは素晴らしいことです。
ところで、先ほどGPUがなければ使えなかったNFS版の機能ですが、NEUTRINOにはGoogleのクラウドPCで動作させるオンラインバージョンもあり、そちらを使えば、GPUの無い人でもNFS版を使えるようです。いずれ、こちらにも挑戦して結果をご報告しようと思います。
また、歌唱データ作成についてですが、CubaseProにもXML書き出し機能があり、こちらでできれば更に便利だと思ったのですが、結論から言うと変換に失敗しました。データを眺める限り、五線に関する情報が増えている程度なのですが、何かが邪魔をしているようなので研究の余地があるところです。
と、色々と分かったことを記事にまとめましたが、これから使われる方々にこの情報が有効に活用されれば幸いです。
コメント
コメントを投稿