Articles

1

Posted on

Los psicólogos conocen desde hace décadas el llamado «efecto cóctel», un nombre que evoca la época de Mad Men en la que se acuñó. Se trata de la notable capacidad humana de concentrarse en un solo orador en prácticamente cualquier entorno -un aula, un evento deportivo o una cafetería-, incluso si la voz de esa persona está aparentemente ahogada por una multitud que parlotea.

Para entender cómo funciona la audición selectiva en el cerebro, el neurocirujano de la UCSF Edward Chang, MD, miembro del cuerpo docente del Departamento de Cirugía Neurológica de la UCSF y del Centro Keck para la Neurociencia Integrativa, y el becario postdoctoral de la UCSF Nima Mesgarani, PhD, trabajaron con tres pacientes que se estaban sometiendo a una cirugía cerebral para tratar una epilepsia grave.

Parte de esta cirugía consiste en localizar las partes del cerebro responsables de los ataques incapacitantes. El equipo de epilepsia de la UCSF encuentra esos lugares cartografiando la actividad del cerebro durante una semana, con una fina lámina de hasta 256 electrodos colocada bajo el cráneo en la superficie exterior del cerebro o córtex. Estos electrodos registran la actividad en el lóbulo temporal, que alberga el córtex auditivo.

La UCSF es uno de los pocos centros académicos de epilepsia líderes en los que se realizan estas grabaciones intracraneales avanzadas y, según Chang, la capacidad de grabar de forma segura desde el propio cerebro ofrece oportunidades únicas para avanzar en nuestro conocimiento fundamental sobre el funcionamiento del cerebro.

«La combinación de grabaciones cerebrales de alta resolución y potentes algoritmos de descodificación abre una ventana a la experiencia subjetiva de la mente que nunca antes habíamos visto», dijo Chang.

publicidad
En los experimentos, los pacientes escucharon dos muestras de habla reproducidas simultáneamente en las que se pronunciaban frases diferentes por hablantes distintos. Se les pidió que identificaran las palabras que habían oído pronunciar a uno de los dos hablantes.

Los autores aplicaron entonces nuevos métodos de decodificación para «reconstruir» lo que los sujetos habían oído a partir del análisis de sus patrones de actividad cerebral. Sorprendentemente, los autores descubrieron que las respuestas neuronales en el córtex auditivo sólo reflejaban las del hablante objetivo. Descubrieron que su algoritmo de descodificación podía predecir qué orador e incluso qué palabras concretas estaba escuchando el sujeto basándose en esos patrones neuronales. En otras palabras, podían saber cuándo la atención del oyente se desviaba hacia otro orador.

«El algoritmo funcionaba tan bien que podíamos predecir no sólo las respuestas correctas, sino incluso cuando prestaban atención a la palabra equivocada», dijo Chang.

Reconocimiento del habla por el cerebro humano y las máquinas

Los nuevos hallazgos demuestran que la representación del habla en la corteza no sólo refleja todo el entorno acústico externo, sino sólo lo que realmente queremos o necesitamos oír.

publicidad

Representan un gran avance en la comprensión de cómo el cerebro humano procesa el lenguaje, con implicaciones inmediatas para el estudio de las deficiencias durante el envejecimiento, el déficit de atención, el autismo y los trastornos del aprendizaje del lenguaje.

Además, Chang, que también es codirector del Centro de Ingeniería Neural y Prótesis de la UC Berkeley y la UCSF, dijo que algún día podremos utilizar esta tecnología para dispositivos neuroprotésicos para decodificar las intenciones y pensamientos de pacientes paralizados que no pueden comunicarse.

Revelar cómo nuestros cerebros están conectados para favorecer algunas señales auditivas sobre otras puede incluso inspirar nuevos enfoques hacia la automatización y la mejora de la forma en que las interfaces electrónicas activadas por la voz filtran los sonidos con el fin de detectar adecuadamente las órdenes verbales.

Cómo el cerebro puede centrarse tan eficazmente en una sola voz es un problema de gran interés para las empresas que fabrican tecnologías de consumo debido al enorme mercado futuro de todo tipo de dispositivos electrónicos con interfaces activas por voz. Aunque las tecnologías de reconocimiento de voz que permiten interfaces como Siri de Apple han avanzado mucho en los últimos años, no son ni de lejos tan sofisticadas como el sistema de habla humano.

Una persona normal puede entrar en una habitación ruidosa y mantener una conversación privada con relativa facilidad, como si todas las demás voces de la habitación estuvieran silenciadas. De hecho, según Mesgarani, un ingeniero con experiencia en la investigación del reconocimiento automático del habla, la ingeniería necesaria para separar una sola voz inteligible de una cacofonía de altavoces y ruido de fondo es un problema sorprendentemente difícil.

El reconocimiento del habla, dijo, es «algo en lo que los humanos son notablemente buenos, pero resulta que la emulación por parte de las máquinas de esta capacidad humana es extremadamente difícil».

Este trabajo fue financiado por los Institutos Nacionales de Salud y la Fundación Ester A. y Joseph Klingenstein.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *