Psychologen weten al tientallen jaren van het zogenaamde “cocktail party effect”, een naam die doet denken aan het Mad Men-tijdperk waarin het werd bedacht. Het is het opmerkelijke menselijke vermogen om zich te concentreren op een enkele spreker in vrijwel elke omgeving – een klaslokaal, sportevenement of koffiebar – zelfs als de stem van die persoon schijnbaar wordt overstemd door een kwebbelende menigte.
Om te begrijpen hoe selectief horen in de hersenen werkt, werkten UCSF neurochirurg Edward Chang, MD, lid van de faculteit van de UCSF afdeling Neurologische Chirurgie en het Keck Center for Integrative Neuroscience, en UCSF postdoctoraal medewerker Nima Mesgarani, PhD, met drie patiënten die een hersenoperatie ondergingen voor ernstige epilepsie.
Een onderdeel van deze operatie is het lokaliseren van de delen van de hersenen die verantwoordelijk zijn voor de invaliderende aanvallen. Het UCSF epilepsieteam vindt die plaatsen door gedurende een week de hersenactiviteit in kaart te brengen met behulp van een dunne plaat met 256 elektroden die onder de schedel op het buitenoppervlak van de hersenen of de cortex worden geplaatst. Deze elektroden registreren de activiteit in de temporale kwab – de thuisbasis van de auditieve cortex.
UCSF is een van de weinige vooraanstaande academische epilepsiecentra waar deze geavanceerde intracraniële opnames worden gedaan, en, zei Chang, de mogelijkheid om veilig opnames te maken van de hersenen zelf biedt unieke mogelijkheden om onze fundamentele kennis van de werking van de hersenen te vergroten.
“De combinatie van hoge-resolutie hersenopnamen en krachtige decoderingsalgoritmen opent een venster op de subjectieve ervaring van de geest die we nog nooit eerder hebben gezien,” zei Chang.
In de experimenten luisterden patiënten naar twee spraakmonsters die tegelijkertijd voor hen werden afgespeeld en waarin verschillende zinnen werden gesproken door verschillende sprekers. Hen werd gevraagd de woorden te identificeren die zij hoorden uitgesproken door een van de twee sprekers.
De auteurs pasten vervolgens nieuwe decoderingsmethoden toe om te “reconstrueren” wat de proefpersonen hoorden door het analyseren van hun hersenactiviteitspatronen. Opvallend was dat de auteurs ontdekten dat de neurale reacties in de auditieve cortex alleen die van de beoogde spreker weerspiegelden. Zij ontdekten dat hun decoderingsalgoritme op basis van deze neurale patronen kon voorspellen naar welke spreker en zelfs naar welke specifieke woorden de proefpersoon luisterde. Met andere woorden, ze konden zien wanneer de aandacht van de luisteraar afdwaalde naar een andere spreker.
“Het algoritme werkte zo goed dat we niet alleen de juiste reacties konden voorspellen, maar zelfs wanneer ze aandacht besteedden aan het verkeerde woord,” zei Chang.
Speech Recognition by the Human Brain and Machines
De nieuwe bevindingen laten zien dat de representatie van spraak in de cortex niet alleen de hele externe akoestische omgeving weerspiegelt, maar in plaats daarvan alleen wat we echt willen of moeten horen.
Ze betekenen een belangrijke vooruitgang in het begrip van hoe het menselijk brein taal verwerkt, met onmiddellijke implicaties voor de studie van stoornissen bij veroudering, aandachtstekortstoornis, autisme en taalleerstoornissen.
Daarnaast zei Chang, die ook co-directeur is van het Center for Neural Engineering and Prostheses aan UC Berkeley en UCSF, dat we deze technologie op een dag misschien kunnen gebruiken voor neuroprothetische apparaten voor het decoderen van de bedoelingen en gedachten van verlamde patiënten die niet kunnen communiceren.
Hoe onze hersenen bedraad zijn om bepaalde auditieve signalen te verkiezen boven andere, kan zelfs nieuwe benaderingen inspireren in de richting van het automatiseren en verbeteren van de manier waarop spraakgestuurde elektronische interfaces geluiden filteren om verbale commando’s goed te detecteren.
Hoe de hersenen zich zo effectief kunnen concentreren op een enkele stem is een probleem van groot belang voor de bedrijven die consumententechnologieën maken, vanwege de enorme toekomstige markt voor allerlei elektronische apparaten met spraak-actieve interfaces. Hoewel de spraakherkenningstechnologieën die interfaces als Apple’s Siri mogelijk maken de laatste jaren een lange weg hebben afgelegd, zijn ze bij lange na niet zo geavanceerd als het menselijke spraaksysteem.
Een gemiddeld persoon kan een lawaaierige kamer binnenlopen en met relatief gemak een privé-gesprek voeren — alsof alle andere stemmen in de kamer zijn gedempt. In feite, zei Mesgarani, een ingenieur met een achtergrond in automatisch spraakherkenningsonderzoek, is de techniek die nodig is om een enkele verstaanbare stem te scheiden van een kakofonie van sprekers en achtergrondlawaai een verrassend moeilijk probleem.
Spraakherkenning, zei hij, is “iets waar mensen opmerkelijk goed in zijn, maar het blijkt dat machine-emulatie van dit menselijk vermogen extreem moeilijk is.”
Dit werk werd gefinancierd door de National Institutes of Health en de Ester A. en Joseph Klingenstein Foundation.