Tensorflowとpythonで書かれたmusic source separationのためのライブラリSpleeter

music source separationは、複数の楽器演奏パートの合成音源から個別の演奏パート（trackやstem等と呼ぶ）に分割するタスクのこと。例えば、ボーカル、ベース、ドラム、その他、それぞれの音源に分割するなど。

ISMIR2019（International Symposium on Music Information Retrieval）のextended abstractにあるImplementation detailsは以下の通りです。

12層のU-net
- 6層のencoder / 6層のdecoder
Single GPUで1週間学習
musdb18のテストデータセット（3時間27分のaudio）に対して、4つのパートに分割して、wavファイルに出力するまで2分以下
- Tensorflowのモデルをロードする時間（15秒程度）を含む
- RTX2080Ti、Intel Xeon Gold 6134 CPU @ 3.20GHz
100秒のaudioであれば、1秒以下で4つのパートに分割できる
公開の既存システムOpen-Unmixと比較して、多くの指標で精度向上

stMind