Articles

1

Posted on

Os psicólogos conhecem há décadas o chamado “efeito cocktail party”, um nome que evoca a era do Homem Louco em que foi cunhado. É a notável capacidade humana de se concentrar num único orador em praticamente qualquer ambiente – uma sala de aula, evento desportivo ou bar de café – mesmo que a voz dessa pessoa seja aparentemente afogada por uma multidão de tagarelice.

Para compreender como funciona a audição selectiva no cérebro, o neurocirurgião da UCSF Edward Chang, MD, membro do corpo docente do Departamento de Cirurgia Neurológica da UCSF e do Centro Keck para Neurociências Integrativas, e o colega de pós-doutoramento da UCSF Nima Mesgarani, PhD, trabalharam com três pacientes que estavam a ser submetidos a cirurgia cerebral para epilepsia grave.

Parte desta cirurgia envolve a identificação das partes do cérebro responsáveis por incapacitar as convulsões. A equipa de epilepsia da UCSF encontra esses locais mapeando a actividade do cérebro durante uma semana, com uma fina folha de até 256 eléctrodos colocados debaixo do crânio na superfície externa do cérebro ou no córtex. Estes eléctrodos registam a actividade no lóbulo temporal — lar do córtex auditivo.

UCSF é um dos poucos centros académicos de epilepsia de ponta onde estes registos intracranianos avançados são feitos, e, disse Chang, a capacidade de registar com segurança a partir do próprio cérebro proporciona oportunidades únicas para avançar o nosso conhecimento fundamental de como o cérebro funciona.

“A combinação de gravações cerebrais de alta resolução e poderosos algoritmos de descodificação abre uma janela para a experiência subjectiva da mente que nunca vimos antes”, disse Chang.

publicidade

Nas experiências, os pacientes ouviram duas amostras de fala tocadas simultaneamente, nas quais diferentes frases foram ditas por diferentes oradores. Foi-lhes pedido que identificassem as palavras que ouviam proferidas por um dos dois oradores.

Os autores aplicaram então novos métodos de descodificação para “reconstruir” o que os sujeitos ouviram ao analisarem os seus padrões de actividade cerebral. De forma surpreendente, os autores descobriram que as respostas neurais no córtex auditivo apenas reflectiam as do orador visado. Descobriram que o seu algoritmo de descodificação podia prever que orador e mesmo que palavras específicas o sujeito ouvia com base nesses padrões neuronais. Por outras palavras, podiam dizer quando a atenção do ouvinte se desviou para outro orador.

“O algoritmo funcionou tão bem que pudemos prever não só as respostas correctas, mas também mesmo quando prestaram atenção à palavra errada,” disse Chang.

Reconhecimento da Fala pelo Cérebro Humano e pelas Máquinas

As novas descobertas mostram que a representação da fala no córtex não reflecte apenas todo o ambiente acústico externo, mas em vez disso apenas aquilo que realmente queremos ou precisamos de ouvir.

publicidade

Representam um grande avanço na compreensão de como o cérebro humano processa a linguagem, com implicações imediatas para o estudo da deficiência durante o envelhecimento, do défice de atenção, do autismo e dos distúrbios de aprendizagem da linguagem.

Além disso, Chang, que é também co-director do Centro de Engenharia Neural e Próteses da UC Berkeley e UCSF, disse que um dia poderemos utilizar esta tecnologia para dispositivos neuropróteses para descodificar as intenções e pensamentos de pacientes paralisados que não conseguem comunicar.

Velando como os nossos cérebros estão ligados para favorecer alguns sinais auditivos em detrimento de outros, pode mesmo inspirar novas abordagens no sentido de automatizar e melhorar a forma como as interfaces electrónicas activadas por voz filtram os sons a fim de detectar correctamente os comandos verbais.

Como o cérebro pode tão eficazmente concentrar-se numa única voz é um problema de grande interesse para as empresas que fazem tecnologias de consumo devido ao tremendo mercado futuro para todos os tipos de dispositivos electrónicos com interfaces activadas por voz. Embora as tecnologias de reconhecimento de voz que permitem interfaces como o Siri da Apple tenham percorrido um longo caminho nos últimos anos, elas não são de modo algum tão sofisticadas como o sistema de fala humano.

Uma pessoa comum pode entrar numa sala barulhenta e ter uma conversa privada com relativa facilidade — como se todas as outras vozes na sala fossem silenciadas. De facto, disse Mesgarani, um engenheiro com formação em pesquisa de reconhecimento automático de voz, a engenharia necessária para separar uma única voz inteligível de uma cacofonia de altifalantes e ruído de fundo é um problema surpreendentemente difícil.

O reconhecimento da fala, disse ele, é “algo em que os humanos são notavelmente bons, mas acontece que a emulação mecânica desta capacidade humana é extremamente difícil”.

Este trabalho foi financiado pelos Institutos Nacionais de Saúde e pela Fundação Ester A. e Joseph Klingenstein.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *