stMind

about Tech, Computer vision and Machine learning

Tensorflowとpythonで書かれたmusic source separationのためのライブラリSpleeter

deezer.io

github.com

music source separationは、複数の楽器演奏パートの合成音源から個別の演奏パート(trackやstem等と呼ぶ)に分割するタスクのこと。例えば、ボーカル、ベース、ドラム、その他、それぞれの音源に分割するなど。

https://archives.ismir.net/ismir2019/latebreaking/000036.pdf

ISMIR2019(International Symposium on Music Information Retrieval)のextended abstractにあるImplementation detailsは以下の通りです。

  • 12層のU-net
    • 6層のencoder / 6層のdecoder
  • Single GPUで1週間学習
  • musdb18のテストデータセット(3時間27分のaudio)に対して、4つのパートに分割して、wavファイルに出力するまで2分以下
    • Tensorflowのモデルをロードする時間(15秒程度)を含む
    • RTX2080Ti、Intel Xeon Gold 6134 CPU @ 3.20GHz
  • 100秒のaudioであれば、1秒以下で4つのパートに分割できる
  • 公開の既存システムOpen-Unmixと比較して、多くの指標で精度向上