Gli psicologi conoscono da decenni il cosiddetto “effetto cocktail party”, un nome che evoca l’era di Mad Men in cui è stato coniato. Si tratta della notevole capacità umana di concentrarsi su un singolo oratore in qualsiasi ambiente – un’aula, un evento sportivo o un bar – anche se la voce di quella persona è apparentemente soffocata da una folla di chiacchieroni.
Per capire come funziona l’udito selettivo nel cervello, il neurochirurgo dell’UCSF Edward Chang, MD, membro di facoltà del Dipartimento di Neurochirurgia dell’UCSF e del Keck Center for Integrative Neuroscience, e il postdoc dell’UCSF Nima Mesgarani, PhD, hanno lavorato con tre pazienti che stavano subendo un intervento chirurgico al cervello per una grave epilessia.
Parte di questo intervento prevede di individuare le parti del cervello responsabili di crisi invalidanti. Il team dell’UCSF per l’epilessia trova questi luoghi mappando l’attività del cervello per una settimana, con un sottile foglio di fino a 256 elettrodi posti sotto il cranio sulla superficie esterna del cervello o corteccia. Questi elettrodi registrano l’attività nel lobo temporale – sede della corteccia uditiva.
UCSF è uno dei pochi centri accademici leader nell’epilessia dove queste registrazioni intracraniche avanzate sono fatte, e, Chang ha detto, la capacità di registrare in modo sicuro dal cervello stesso fornisce opportunità uniche per avanzare la nostra conoscenza fondamentale di come funziona il cervello.
“La combinazione di registrazioni cerebrali ad alta risoluzione e potenti algoritmi di decodifica apre una finestra sull’esperienza soggettiva della mente che non abbiamo mai visto prima”, ha detto Chang.
Negli esperimenti, i pazienti hanno ascoltato due campioni di discorso riprodotti contemporaneamente in cui diverse frasi erano pronunciate da diversi oratori. Gli autori hanno poi applicato nuovi metodi di decodifica per “ricostruire” ciò che i soggetti hanno sentito analizzando i loro modelli di attività cerebrale. Sorprendentemente, gli autori hanno scoperto che le risposte neurali nella corteccia uditiva riflettevano solo quelle dell’oratore in questione. Hanno scoperto che il loro algoritmo di decodifica poteva prevedere quale oratore e anche quali parole specifiche il soggetto stava ascoltando sulla base di quei modelli neurali. In altre parole, potevano dire quando l’attenzione dell’ascoltatore si spostava su un altro oratore.
“L’algoritmo funzionava così bene che potevamo prevedere non solo le risposte corrette, ma anche quando prestavano attenzione alla parola sbagliata”, ha detto Chang.
Riconoscimento del parlato da parte del cervello umano e delle macchine
Le nuove scoperte mostrano che la rappresentazione del parlato nella corteccia non riflette solo l’intero ambiente acustico esterno, ma solo ciò che vogliamo o abbiamo davvero bisogno di sentire.
Rappresentano un importante progresso nella comprensione di come il cervello umano elabora il linguaggio, con implicazioni immediate per lo studio dei disturbi durante l’invecchiamento, del disturbo da deficit di attenzione, dell’autismo e dei disturbi dell’apprendimento del linguaggio.
Inoltre, Chang, che è anche co-direttore del Center for Neural Engineering and Prostheses alla UC Berkeley e UCSF, ha detto che potremmo un giorno essere in grado di utilizzare questa tecnologia per dispositivi neuroprotesici per decodificare le intenzioni e i pensieri di pazienti paralizzati che non possono comunicare.
Rivelando come il nostro cervello è cablato per favorire alcuni spunti uditivi rispetto ad altri, potrebbe anche ispirare nuovi approcci per automatizzare e migliorare il modo in cui le interfacce elettroniche ad attivazione vocale filtrano i suoni al fine di rilevare correttamente i comandi verbali.
Come il cervello possa concentrarsi così efficacemente su una singola voce è un problema di grande interesse per le aziende che producono tecnologie di consumo a causa del tremendo mercato futuro per tutti i tipi di dispositivi elettronici con interfacce vocali attive. Mentre le tecnologie di riconoscimento vocale che permettono interfacce come Siri di Apple hanno fatto molta strada negli ultimi anni, non sono nemmeno lontanamente sofisticate quanto il sistema vocale umano.
Una persona media può entrare in una stanza rumorosa e avere una conversazione privata con relativa facilità – come se tutte le altre voci nella stanza fossero silenziate. Infatti, ha detto Mesgarani, un ingegnere con un background nella ricerca sul riconoscimento automatico del parlato, l’ingegneria richiesta per separare una singola voce intelligibile da una cacofonia di altoparlanti e rumore di fondo è un problema sorprendentemente difficile.
Il riconoscimento del parlato, ha detto, è “qualcosa in cui gli umani sono notevolmente bravi, ma si scopre che l’emulazione da parte delle macchine di questa abilità umana è estremamente difficile.”
Questo lavoro è stato finanziato dal National Institutes of Health e dalla Ester A. and Joseph Klingenstein Foundation.