Articles

1

Posted on

Psychologowie od dziesięcioleci wiedzą o tak zwanym „efekcie przyjęcia koktajlowego”, którego nazwa przywołuje epokę Mad Men, w której został ukuty. Jest to niezwykła ludzka zdolność do skupienia się na pojedynczym mówcy w praktycznie każdym środowisku – w klasie, na zawodach sportowych czy w kawiarni – nawet jeśli głos tej osoby jest pozornie zagłuszany przez szumiący tłum.

Aby zrozumieć, w jaki sposób selektywne słyszenie działa w mózgu, neurochirurg UCSF Edward Chang, MD, członek wydziału w Departamencie Chirurgii Neurologicznej UCSF i Keck Center for Integrative Neuroscience, oraz doktorant UCSF Nima Mesgarani, pracowali z trzema pacjentami, którzy przechodzili operację mózgu z powodu ciężkiej padaczki.

Część tej operacji polega na wskazaniu części mózgu odpowiedzialnych za upośledzające napady. Zespół UCSF zajmujący się padaczką znajduje te miejsca, mapując aktywność mózgu przez tydzień, za pomocą cienkiego arkusza składającego się z maksymalnie 256 elektrod umieszczonych pod czaszką na zewnętrznej powierzchni mózgu lub kory mózgowej. Elektrody te rejestrują aktywność w płacie skroniowym, gdzie znajduje się kora słuchowa.

UCSF jest jednym z niewielu wiodących ośrodków akademickich zajmujących się padaczką, gdzie wykonuje się te zaawansowane nagrania wewnątrzczaszkowe, a jak powiedział Chang, możliwość bezpiecznego rejestrowania danych z samego mózgu daje wyjątkowe możliwości poszerzenia naszej fundamentalnej wiedzy o tym, jak działa mózg.

„Połączenie wysokiej rozdzielczości nagrań mózgu i potężne algorytmy dekodowania otwiera okno do subiektywnego doświadczenia umysłu, że nigdy wcześniej nie widzieliśmy,” Chang said.

reklama

W eksperymentach, pacjenci słuchali dwóch próbek mowy odtwarzane do nich jednocześnie, w którym różne frazy zostały wypowiedziane przez różnych głośników. Zostali poproszeni o zidentyfikowanie słów, które usłyszeli wypowiedziane przez jednego z dwóch mówców.

Autorzy następnie zastosowali nowe metody dekodowania, aby „zrekonstruować” to, co badani usłyszeli z analizy ich wzorców aktywności mózgu. Co uderzające, autorzy odkryli, że odpowiedzi neuronalne w korze słuchowej odzwierciedlały jedynie odpowiedzi mówcy, którego dotyczyły. Odkryli, że ich algorytm dekodujący mógł przewidzieć, którego mówcy, a nawet jakich konkretnych słów słuchał badany, na podstawie tych wzorców neuronalnych. Innymi słowy, byli w stanie stwierdzić, kiedy uwaga słuchacza skierowała się na innego mówcę.

„Algorytm działał tak dobrze, że mogliśmy przewidzieć nie tylko prawidłowe odpowiedzi, ale również to, kiedy słuchacze zwracali uwagę na niewłaściwe słowo” – powiedział Chang.

Rozpoznawanie mowy przez ludzki mózg i maszyny

Nowe odkrycia pokazują, że reprezentacja mowy w korze mózgowej nie odzwierciedla całego zewnętrznego środowiska akustycznego, ale tylko to, co naprawdę chcemy lub potrzebujemy usłyszeć.

reklama

Ostanowią one duży postęp w zrozumieniu, jak ludzki mózg przetwarza język, z natychmiastowymi implikacjami dla badania upośledzenia podczas starzenia się, zaburzeń uwagi, autyzmu i zaburzeń uczenia się języków.

Dodatkowo, Chang, który jest również współdyrektorem Centrum Inżynierii Neuronowej i Protez na UC Berkeley i UCSF, powiedział, że możemy kiedyś być w stanie wykorzystać tę technologię do urządzeń neuroprotetycznych do dekodowania intencji i myśli od sparaliżowanych pacjentów, którzy nie mogą się komunikować.

Revealing jak nasze mózgi są okablowane do faworyzowania niektórych słuchowych wskazówek nad innymi może nawet zainspirować nowe podejścia w kierunku automatyzacji i poprawy, jak głos aktywowane elektroniczne interfejsy filtrować dźwięki w celu prawidłowego wykrywania słownych poleceń.

Jak mózg może tak skutecznie skupić się na jednym głosie jest problemem żywego zainteresowania firm, które sprawiają, że technologie konsumenckie z powodu ogromnego przyszłego rynku dla wszystkich rodzajów urządzeń elektronicznych z głosem aktywnych interfejsów. Podczas gdy technologie rozpoznawania głosu, które umożliwiają takie interfejsy jak Siri firmy Apple przeszły długą drogę w ciągu ostatnich kilku lat, nie są one nigdzie w pobliżu tak wyrafinowane jak ludzki system mowy.

Przeciętna osoba może wejść do hałaśliwego pokoju i prowadzić prywatną rozmowę ze względną łatwością – tak jakby wszystkie inne głosy w pokoju były wyciszone. W rzeczywistości, powiedział Mesgarani, inżynier z doświadczeniem w badaniach nad automatycznym rozpoznawaniem mowy, inżynieria wymagana do oddzielenia pojedynczego zrozumiałego głosu od kakofonii głośników i szumu tła jest zaskakująco trudnym problemem.

Rozpoznawanie mowy, powiedział, jest „czymś, w czym ludzie są niezwykle dobrzy, ale okazuje się, że maszynowa emulacja tej ludzkiej zdolności jest niezwykle trudna.”

Praca ta została sfinansowana przez National Institutes of Health oraz Fundację Ester A. i Josepha Klingensteinów.

Wyniki badań zostały opublikowane w Internecie.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *