60 Auditory Scenes for investigating cocktail party deafness - Matthias Kranebitter
Naturalne środowiska słuchowe obejmują wiele równocześnie rozbrzmiewających dźwięków. Wszystkie razem składają się na jeden złożony sygnał docierający do ucha. W jaki sposób ludzki mózg czerpie informacje z tego ciągłego, przytłaczającego chaosu otaczających nas fal dźwiękowych? Zagadnienie to znane jest potocznie jako „efekt cocktail party”. Wyzwaniem dla słuchu jest w takiej sytuacji ustalenie, które składowe tego dźwięku powinien zgrupować i traktować jako części tego samego źródła czy obiektu dźwiękowego. Nieprawidłowe grupowanie może bowiem sprawić, że słuchacz usłyszy nieistniejące dźwięki zbudowane z błędnych kombinacji oryginalnych składowych.
„Efekt cocktail party” stanowi zasadnicze wyzwanie dla systemów nasłuchu maszynowego i sztucznej inteligencji. Nadzwyczajna zdolność ludzkiego mózgu do kierowania uwagi na interesujące dźwięki przy ignorowaniu innych, a także na przekierowywanie uwagi pomiędzy różnymi źródłami dźwięku w wielowarstwowym środowisku dźwiękowym nadal pozostaje poza zasięgiem możliwości maszyn.
Według SCASRT (Standard Computational Auditory Scene Recognition Test) ludzie rozpoznają średnio 57 różnych scen z dokładnością do 78%. Najlepszy wynik rozpoznawania przez system nasłuchu maszynowego to 56% dla 33 różnych scen; rezultat ten osiągnął program Cithaeron Audition Model 3.1.
Matthias Kranebitter