Articles

1

Posted on

Les psychologues connaissent depuis des décennies le fameux « effet cocktail party », un nom qui évoque l’époque Mad Men dans laquelle il a été inventé. Il s’agit de la remarquable capacité humaine à se concentrer sur un seul interlocuteur dans pratiquement n’importe quel environnement — une salle de classe, un événement sportif ou un café — même si la voix de cette personne semble noyée dans une foule jacassante.

Pour comprendre comment l’audition sélective fonctionne dans le cerveau, le neurochirurgien de l’UCSF Edward Chang, MD, membre de la faculté du département de chirurgie neurologique de l’UCSF et du centre Keck pour les neurosciences intégratives, et le boursier postdoctoral de l’UCSF Nima Mesgarani, PhD, ont travaillé avec trois patients qui subissaient une chirurgie du cerveau pour une épilepsie sévère.

Une partie de cette chirurgie consiste à localiser les parties du cerveau responsables des crises invalidantes. L’équipe d’épilepsie de l’UCSF trouve ces endroits en cartographiant l’activité du cerveau pendant une semaine, avec une fine feuille comprenant jusqu’à 256 électrodes placées sous le crâne sur la surface externe du cerveau ou cortex. Ces électrodes enregistrent l’activité dans le lobe temporal — qui abrite le cortex auditif.

L’UCSF est l’un des rares centres universitaires de pointe en matière d’épilepsie où ces enregistrements intracrâniens avancés sont effectués et, selon Chang, la capacité d’enregistrer en toute sécurité à partir du cerveau lui-même offre des possibilités uniques de faire progresser nos connaissances fondamentales sur le fonctionnement du cerveau.

« La combinaison d’enregistrements cérébraux à haute résolution et d’algorithmes de décodage puissants ouvre une fenêtre sur l’expérience subjective de l’esprit que nous n’avons jamais vue auparavant », a déclaré Chang.

annonce

Dans les expériences, les patients ont écouté deux échantillons de discours qui leur ont été joués simultanément dans lesquels différentes phrases ont été prononcées par différents locuteurs. On leur a demandé d’identifier les mots qu’ils avaient entendu prononcer par l’un des deux locuteurs.

Les auteurs ont ensuite appliqué de nouvelles méthodes de décodage pour « reconstruire » ce que les sujets ont entendu à partir de l’analyse de leurs schémas d’activité cérébrale. De manière frappante, les auteurs ont constaté que les réponses neuronales dans le cortex auditif ne reflétaient que celles du locuteur ciblé. Ils ont constaté que leur algorithme de décodage pouvait prédire quel locuteur et même quels mots spécifiques le sujet écoutait sur la base de ces modèles neuronaux. En d’autres termes, ils pouvaient savoir quand l’attention de l’auditeur se portait sur un autre locuteur.

« L’algorithme a si bien fonctionné que nous pouvions prédire non seulement les réponses correctes, mais aussi même quand ils prêtaient attention au mauvais mot », a déclaré Chang.

Reconnaissance de la parole par le cerveau humain et les machines

Ces nouveaux résultats montrent que la représentation de la parole dans le cortex ne reflète pas seulement l’ensemble de l’environnement acoustique externe, mais plutôt seulement ce que nous voulons ou avons vraiment besoin d’entendre.

annonce

Ils représentent une avancée majeure dans la compréhension de la façon dont le cerveau humain traite le langage, avec des implications immédiates pour l’étude de la déficience au cours du vieillissement, du trouble du déficit de l’attention, de l’autisme et des troubles de l’apprentissage du langage.

En outre, Chang, qui est également codirecteur du Center for Neural Engineering and Prostheses de l’UC Berkeley et de l’UCSF, a déclaré que nous pourrions un jour être en mesure d’utiliser cette technologie pour des dispositifs neuroprothétiques permettant de décoder les intentions et les pensées de patients paralysés qui ne peuvent pas communiquer.

Révélant comment notre cerveau est câblé pour favoriser certains indices auditifs plutôt que d’autres il pourrait même inspirer de nouvelles approches vers l’automatisation et l’amélioration de la façon dont les interfaces électroniques à commande vocale filtrent les sons afin de détecter correctement les commandes verbales.

Comment le cerveau peut se concentrer si efficacement sur une seule voix est un problème qui intéresse vivement les entreprises qui fabriquent des technologies grand public en raison de l’énorme marché futur pour toutes sortes d’appareils électroniques avec des interfaces à commande vocale. Si les technologies de reconnaissance vocale qui permettent des interfaces telles que Siri d’Apple ont beaucoup progressé au cours des dernières années, elles sont loin d’être aussi sophistiquées que le système vocal humain.

Une personne moyenne peut entrer dans une pièce bruyante et avoir une conversation privée avec une relative facilité — comme si toutes les autres voix de la pièce étaient coupées. En fait, a déclaré Mesgarani, un ingénieur ayant une expérience dans la recherche sur la reconnaissance automatique de la parole, l’ingénierie nécessaire pour séparer une seule voix intelligible d’une cacophonie de haut-parleurs et de bruits de fond est un problème étonnamment difficile.

La reconnaissance de la parole, a-t-il dit, est « quelque chose pour lequel les humains sont remarquablement bons, mais il s’avère que l’émulation par la machine de cette capacité humaine est extrêmement difficile. »

Ces travaux ont été financés par les National Institutes of Health et la Fondation Ester A. et Joseph Klingenstein.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *