Psychologen kennen seit Jahrzehnten den sogenannten „Cocktail-Party-Effekt“, ein Name, der an die Mad-Men-Ära erinnert, in der er geprägt wurde. Es handelt sich dabei um die bemerkenswerte menschliche Fähigkeit, sich in praktisch jeder Umgebung – einem Klassenzimmer, einer Sportveranstaltung oder einer Kaffeebar – auf einen einzelnen Sprecher zu konzentrieren, selbst wenn die Stimme dieser Person scheinbar von einer plappernden Menge übertönt wird.
Um zu verstehen, wie selektives Hören im Gehirn funktioniert, arbeiteten der UCSF-Neurochirurg Edward Chang, MD, Mitglied der UCSF-Fakultät für neurologische Chirurgie und des Keck Center for Integrative Neuroscience, und der UCSF-Postdoktorand Nima Mesgarani, PhD, mit drei Patienten, die sich wegen schwerer Epilepsie einer Gehirnoperation unterzogen.
Teil dieser Operation ist es, die Teile des Gehirns zu lokalisieren, die für die behindernden Anfälle verantwortlich sind. Das UCSF-Epilepsie-Team findet diese Stellen, indem es die Aktivität des Gehirns über eine Woche hinweg mit einer dünnen Folie aus bis zu 256 Elektroden aufzeichnet, die unter dem Schädel auf der äußeren Oberfläche oder dem Kortex des Gehirns platziert werden. Diese Elektroden zeichnen die Aktivität im Temporallappen auf – der Heimat des auditorischen Kortex.
Die UCSF ist eines der wenigen führenden akademischen Epilepsie-Zentren, in denen diese fortschrittlichen intrakraniellen Aufzeichnungen durchgeführt werden, und, so Chang, die Fähigkeit, sicher vom Gehirn selbst aufzuzeichnen, bietet einzigartige Möglichkeiten, unser grundlegendes Wissen darüber, wie das Gehirn funktioniert, zu erweitern.
„Die Kombination aus hochauflösenden Hirnaufnahmen und leistungsfähigen Dekodieralgorithmen öffnet ein Fenster in das subjektive Erleben des Geistes, das wir bisher noch nie gesehen haben“, sagte Chang.
In den Experimenten hörten die Patienten zwei Sprachproben, die ihnen gleichzeitig vorgespielt wurden und bei denen verschiedene Sätze von unterschiedlichen Sprechern gesprochen wurden. Sie wurden gebeten, die Wörter zu identifizieren, die sie von einem der beiden Sprecher gesprochen hörten.
Die Autoren wendeten dann neue Dekodierungsmethoden an, um aus der Analyse der Gehirnaktivitätsmuster zu „rekonstruieren“, was die Probanden hörten. Auffallend war, dass die Autoren feststellten, dass die neuronalen Antworten im auditorischen Kortex nur die des anvisierten Sprechers widerspiegelten. Sie fanden heraus, dass ihr Dekodierungsalgorithmus anhand dieser neuronalen Muster vorhersagen konnte, welchem Sprecher und sogar welchen spezifischen Wörtern die Testperson zuhörte. Der Algorithmus funktionierte so gut, dass wir nicht nur die richtigen Antworten vorhersagen konnten, sondern auch, wenn die Aufmerksamkeit auf ein falsches Wort gerichtet war“, so Chang.
Spracherkennung durch das menschliche Gehirn und Maschinen
Die neuen Erkenntnisse zeigen, dass die Repräsentation von Sprache im Kortex nicht nur die gesamte äußere akustische Umgebung widerspiegelt, sondern nur das, was wir wirklich hören wollen oder müssen.
Sie stellen einen großen Fortschritt im Verständnis dar, wie das menschliche Gehirn Sprache verarbeitet, mit unmittelbaren Auswirkungen auf die Untersuchung von Beeinträchtigungen während des Alterns, Aufmerksamkeitsstörungen, Autismus und Sprachlernstörungen.
Außerdem sagte Chang, der auch Co-Direktor des Center for Neural Engineering and Prostheses an der UC Berkeley und der UCSF ist, dass wir vielleicht eines Tages in der Lage sein werden, diese Technologie für neuroprothetische Geräte zur Dekodierung der Absichten und Gedanken von gelähmten Patienten, die nicht kommunizieren können, zu nutzen.
Die Erkenntnis, dass unser Gehirn so verdrahtet ist, dass es einige auditive Hinweise gegenüber anderen bevorzugt, könnte sogar zu neuen Ansätzen für die Automatisierung und Verbesserung der Art und Weise führen, wie sprachaktivierte elektronische Schnittstellen Geräusche filtern, um verbale Befehle richtig zu erkennen.
Wie das Gehirn sich so effektiv auf eine einzelne Stimme konzentrieren kann, ist ein Problem, das für die Unternehmen, die Verbrauchertechnologien herstellen, von großem Interesse ist, da der zukünftige Markt für alle Arten von elektronischen Geräten mit sprachaktivierten Schnittstellen riesig ist. Während die Spracherkennungstechnologien, die solche Schnittstellen wie Apples Siri ermöglichen, in den letzten Jahren einen weiten Weg zurückgelegt haben, sind sie bei weitem nicht so ausgereift wie das menschliche Sprachsystem.
Eine durchschnittliche Person kann in einen lauten Raum gehen und mit relativer Leichtigkeit ein privates Gespräch führen – als ob alle anderen Stimmen im Raum stummgeschaltet wären. Tatsächlich, so Mesgarani, ein Ingenieur mit einem Hintergrund in der automatischen Spracherkennungsforschung, ist die Technik, die erforderlich ist, um eine einzelne verständliche Stimme von einer Kakophonie von Lautsprechern und Hintergrundgeräuschen zu trennen, ein überraschend schwieriges Problem.
Spracherkennung, so Mesgarani, ist „etwas, das Menschen bemerkenswert gut können, aber es stellt sich heraus, dass die maschinelle Emulation dieser menschlichen Fähigkeit extrem schwierig ist.“
Diese Arbeit wurde von den National Institutes of Health und der Ester A. and Joseph Klingenstein Foundation finanziert.