心理学者は何十年も前から、「カクテル パーティ効果」と呼ばれる現象を知っていました。 これは、教室、スポーツ イベント、コーヒー バーなど、ほぼすべての環境で、たとえ話し手の声が雑踏にかき消されているように見えても、その話し手に焦点を合わせることができる、人間の優れた能力のことです。
脳内で選択的聴覚がどのように機能するかを理解するため、UCSF神経外科医のEdward Chang氏(MD)とUCSFポスドクのNima Mesgarani氏(PhD)は、重度のてんかんのために脳の手術を受けている3人の患者を対象に研究を行いました。 UCSFのてんかんチームは、1週間かけて脳の活動をマッピングすることで、その場所を見つけ出します。最大256個の電極からなる薄いシートを頭蓋骨の下、脳の外側の表面(皮質)に貼り付けます。
UCSFは、このような高度な頭蓋内記録が行われている数少ない学術的なてんかんセンターの1つです。Chang氏は、脳そのものから安全に記録できるということは、脳がどのように機能しているかについての基本的な知識を深めるためのユニークな機会を提供するものだと述べています。
「高解像度の脳内記録と強力なデコーディング・アルゴリズムの組み合わせは、これまでにない心の主観的な体験への窓を開くものです」とChang氏は述べています。
実験では、患者は、異なる話者によって異なるフレーズが話された2つの音声サンプルを同時に聞きました。
この実験では、患者に2つの音声サンプルを同時に聞かせ、2人の話者のうち1人が話した言葉を識別するように指示しました。 驚くべきことに、聴覚皮質の神経反応は、対象となる話者のものだけを反映していることがわかりました。 そして、その神経パターンから、被験者がどの話者の話を聞いているか、さらには特定の単語を聞いているかを予測できることがわかったのである。
人間の脳と機械による音声認識
今回の発見は、大脳皮質における音声の表現は、外部の音響環境全体を反映しているのではなく、人間が本当に聞きたい、あるいは必要としているものだけを反映していることを示しています。
今回の成果は、人間の脳がどのように言語を処理しているかを理解する上で大きな前進であり、加齢に伴う障害、注意欠陥障害、自閉症、言語学習障害の研究に直ちに影響を与えるものです。
さらに、カリフォルニア大学バークレー校とUCSFのCenter for Neural Engineering and Prosthesesの共同ディレクターでもあるChang氏は、この技術を、コミュニケーションが取れない麻痺患者の意図や考えを解読する神経人工装具に利用できる日が来るかもしれないと語っています。
脳がどのようにして単一の音声に効果的に集中できるのかということは、消費者向けの技術を開発している企業にとっては非常に興味深い問題です。
一般の人は、騒がしい部屋に入っても、あたかも部屋の中の他の声がすべて消されているかのように、比較的簡単に個人的な会話をすることができます。
音声認識は、「人間が非常に得意とすることだが、この人間の能力を機械がエミュレートするのは非常に難しいことがわかった」と、自動音声認識研究のバックグラウンドを持つエンジニアのMesgarani氏は述べています。
この研究は、National Institutes of Health(米国国立衛生研究所)およびEster A. and Joseph Klingenstein Foundation(エステル・A・アンド・ジョセフ・クリンゲンシュタイン財団)から資金提供を受けています。