スキップしてメイン コンテンツに移動

AIきりたんって誰?(簡単な使い方)



え?何?機械なの?機械のフリの人なの?

 春先の外出自粛から、久々にニコ動側で動きだした時、話題は聞いていた「たべるんごのうた」をチェックした時の話です。流れで聴いた「AIきりたん」なる歌声に驚愕ww

今回この記事に作成のために作ったサンプルです

どんな仕組みなの?

 長いことボカロも使ってますが、今までの聞いてきた合成音声とは全く別次元の歌声なので、調べてみた所「AIきりたん」は「NEUTRINO」というシステムで動いており、SHACHIさんという方が開発したフリーウェアのようでした。個人では流石に無理だろうと調べていくと、現在、明治大学の準教授をされている森勢将雅先生が音声合成システム「WORLD」を開発・公開し、「きりたん」の声も、許諾を得て録音し直してAI学習用音声データとして公開するなどの活動をされていました。これらのデータを元に、SHACHIさんは、フリーウェア「NEUTRINO」を開発されたようです。旧来方式のの簡単なプログラムしか書けない私からすれば、基礎データがあるとは言え、個人でAIベースのソフトを作れるなんて、ものすごい技術だと思います。
 ちなみに、森勢教授の「WORLD」の技術の一部はUTAUやCeVIOなどでも利用されているものです。

簡単に使ってみた

 今回、実際にWindows環境で、使用してみました。NEUTRINOは、MAC版、Linux版もあるようです。他環境の方はNEUTRINO公式HPをご覧ください。

流れとしては
0.インストール
1.歌唱データの作成
2.音声データへ変換
です。

 インストールは一度しかしないので、実質1~2だけの作業と考えると思ったよりはかなりお手軽な作業です。

0.インストール
 NEUTRINO公式HPよりデータをDL。解凍して任意のフォルダにまとめるだけ。アンインストールはフォルダごとデータを削除するだけだそうです。

1.歌唱データの作成
 歌わせる元データはMusicXMLであり、NEUTRINO自体に編集ソフトはありません。
 MusicXMLは名前の通りXML形式のテキストファイルで、演奏情報と歌詞情報が盛り込まれています。一般には楽譜情報のやりとりに使われるXMLファイルです。NEUTRINO公式からはフリーウェアの楽譜編集ソフトmusescoreでのデータ作成が推奨されています。
 楽譜と対応する歌詞を打ち込んだら、XML形式でNEUTRINOフォルダ内のscoreフォルダに保存すれば完了。こちらも簡単です。私は普段Finaleという楽譜編集ソフトを使っており、こちらもMusicXMLを書き出せるので、今回のテストはFinaleでXMLファイルを作りましたが、問題なく歌わせることができました。

2.音声データへ変換

 ここがNEUTRINOの根幹部分です。実行プログラムの拡張子がexeであることすら忘れかけていましたが、拡張子batのバッチファイルの編集が必要なのは、ある意味新鮮です。ネットで検索すると多くの人がこれをバットファイルと呼んでいますが、正しくはバッチファイルです。下の図の通り、PCにやらせる一連の作業(バッチ処理)が書かれたテキストファイルでbatchの先頭3文字が拡張子なので、見慣れないために読み間違えているようです。
 Run.batファイルをメモ帳などで開き下の図に従って内容を変更し保存してください。



 上のgif画像で繰り返し説明してますが、基本は1で作ったXMLファイルの名前を指定するだけなので簡単です。
 あとは、run.batを実行して結果を待つだけ。
 懐かしい感じのコマンドプロンプトが出て結果はNEUTRINOフォルダ内のoutputフォルダにwavファイルとして保存されます。


 実行にかかった時間は26秒の歌声に対して28秒、もちろんCPUパワーに依存すると思います。第8世代のcore i7での結果ですので参考程度に考えてください。

 2020年4月20日公開のVersion 0.200からはNFS版というWORLDで作ったものを更に加工する機能があるようで、こちらはNVIDIAのGPUに積まれたRAMを計算領域に使っているようです。規格に合うGPUを積んでいないPCは、この機能は使えないので、バッチファイルのNFSに関わる部分に「:」を書いて機能しないようにする必要があります。私はPCではゲームをしないので、NVIDIAのGPUは積んでいませんから、常時「:」が入れています。

まとめ

 思っていたより簡単に歌わせることができる反面、AIが勝手に学習対象の歌手のように歌わせるので、思い通りにコントロールするという感じではないようでした。作り手としては自由にコントロールしたいと思う所ですが、ボカロ界隈で言われるいわゆる「調教」はできないようです。まぁ、お手軽にこれだけ歌ってもらえるのは素晴らしいことです。

 ところで、先ほどGPUがなければ使えなかったNFS版の機能ですが、NEUTRINOにはGoogleのクラウドPCで動作させるオンラインバージョンもあり、そちらを使えば、GPUの無い人でもNFS版を使えるようです。いずれ、こちらにも挑戦して結果をご報告しようと思います。
 また、歌唱データ作成についてですが、CubaseProにもXML書き出し機能があり、こちらでできれば更に便利だと思ったのですが、結論から言うと変換に失敗しました。データを眺める限り、五線に関する情報が増えている程度なのですが、何かが邪魔をしているようなので研究の余地があるところです。

 と、色々と分かったことを記事にまとめましたが、これから使われる方々にこの情報が有効に活用されれば幸いです。
 

コメント

このブログの人気の投稿

KONTAKT6のパラアウトについて

久々の記事投稿w今回はKonakt6のパラアウトについて説明します♪ 前記事にある通り、KOMPLETE 12 ULTIMATEを買ったものの、ストレージ容量不足のために、インストールできず一か月かけて容量確保してインストールw いざ、使ってみたところ、今回はKontakt6ではなく、Kontaktという名前で表示されるようですね。 GUIもほぼ変わってないので、最初気は付かずKontakt5を使っていましたw で、やはり、 kontakt6は初期状態ではパラアウトできなかった ので、いつものパラアウトの儀式が必要でしたwとは言え、手順は過去バージョンと同じなので簡単です。 KONTAKT6のパラアウト設定方法 ※主はCubaseを使っておりますが、他DAWについても基本を同じかと思います。 ①右上のメニューからOUTPUTを開く ②下にOUTPUTが表示されるので、+ボタンで開くメニューからQuantityを7にしてOKボタン。(2ch×7=14パラ 元の2chがあるので計8ステレオ出力できます) ③Presets/Batch Configurationメニューから▶Save current output section state as default for ▶ All Formatsを選択して変更を保存。 ④ 超重要!Kontact6の画面を閉じるだけでなく、DAW上から完全に終了させる。 (一度Kontaktを立ち上げ直さないと次の作業ができません。) ⑤Kontact6を立ち上げ直し、フェーダー下のチャンネルが割り振られていない-|-ボタンで設定画面を開き、not connectedを選択してchごとにst2,3,4,5…と割り振っていきます。 ⑥全8ch左右それぞれが設定できたらこうなります。(今回AUX専用の出力先も用意されているようです) ⑦ここまでできたらPresets/Batch Configurationメニューから▶Save current output section state as default for ▶ All Formatsを選択して変更を保存。 ⑧ またも超重要!Kontact6の画面を閉じるだけでなく、DAW上から完全

初音ミクNTについて思うこと

 2020年が始まり、1ヶ月が過ぎようとしています。最近の今年の1番の関心事は初音ミクNTの行方といったところでしょう。  正月早々に、私も購入予約をしましたが、システムの移行はどうかな?ご存知ない方のために簡単に触れると、初音ミクNTはボカロではないのです。この動画を見て、え?同じじゃないの?と感じられる方も多いことでしょう。現在はボカロという言葉で一括りにされる合成音声に歌を歌わせるシステムを世に広めたのはYAMAHA社が開発したVOCALOIDシステムです。VOCALOIDシステムは開発当初のVOCALOID1からVOCALOID5まで5つのバージョンが開発され進化を続けています。  2007年に発表された初音ミクは、クリプトン・フューチャー・メディア社が、VOCALOID2システムを利用して商品化したキャラクタボイスです。当時のニコニコ動画ブームも相まって、爆発的な人気となり、そこからのボカロブームは皆さんもご存知の通りです。もしかしたら、初音ミクをきっかけにDTMを始めた方も多いのではないでしょうか。私も初音ミク発売と同時に購入した口ですが、2004年にカイトやメイコに興味を持って楽器店で相談した事があり、「こんなの使えないよ」と楽器屋に止められた過去があるので、あの3年後に世界が一変したなという懐かしい思い出もあったりします。その後、VOCALOID以外にもUTAUなど合成音声に歌わせるシステムはちらほら見られるようになり、ユーザー視点では、複数のプラットフォームが存在するのは面倒だとずっと考えていました。それは、VOCALOIDを打ち込むためのエディターが複数存在していたことも原因の一つです。  VOCALOID開発を牽引してきたYAMAHA社の剣持さんが担当を離れてから発表されたVOCALOID5システムは、方向性が大分変わり、どちらかというと一般音楽クリエイター向け音源としてチューニングされているように感じます。そして、システムバージョンが上がる度に追従して発売されてきたVOCALOID初音ミクが1年以上も反応を示さなかったので、何かあるのだろうと思っていたところでの昨年末の発音ミクNTの発表でした。  正直、慣れ親しんだ声を使うために購入はしたものの、私の性格からすると別々のエディタを立ち上げて使うのは煩わしく、結果としてクリプトン社キ