Det har gjorts en del arbete med att ta en mix och separera ut instrumenten ur den (blind source separation brukar det kallas), men den här utgår från videoanalys av vilka instrument som producerar vilka ljud.

Artikel från MIT här.