Articles

言語の難しさを数字で測れるか

Posted on

データサイエンスは、言語習得の難しさを測るのに役立ちます。 難易度の認識は、新しい言語が自分の知っている言語と構造的および意味的に近いかどうかによって決まります。 しかし、これらの言語的差異を数字で測定すると、意外な結果が得られます。

div

Photo by Artem Beliaikin on Unsplash

間違いありません。 他の国や文化の人々やコンテンツへのアクセスという点では、世界は「小さくなって」います。 COVID-19のパンデミックで海外旅行ができなくなったことでも、インターネットを介したバーチャルな交流が増えています。

機械翻訳の品質は、ニューラルネットワークなどの人工知能が導入されたことで、近年飛躍的に向上しました。

ソフトウェアで翻訳することと、新しい言語を学ぶことには大きな違いがあります。 多くの大人にとって、新しい言語を学ぶことは難しいことです。

ソフトウェアで翻訳することと、新しい言語を学ぶことには大きな違いがあります。多くの大人にとって、新しい言語を学ぶのは大変なことですが、中には言語的なチャレンジが好きな人もいます。 もちろん、子供の脳は神経可塑性を持っているので、新しい言語の習得は比較的簡単です。

オンライン言語学習とその課題

オンライン言語学習は、ICEFによると年間5820億ドルの産業となっており、何百万人もの人々が新しい言語をより便利で簡単に学ぶことができるようになりました。 その中でも、英語学習は大きな割合を占めています。

語学コースの大手プロバイダーであるロゼッタストーン社の報告によると、2018年に英国人が最も習いたいと思った言語のトップはスペイン語で、昨年は同社の英国人学習者の23.1%がこの言語を習っていました。 また、フランス語、英語、イタリア語、ドイツ語の4つのヨーロッパ言語がトップ5に入りました。

この言語の難しさに対する認識が、人気ランキングの相対的な低さに一役買っているのは間違いありません。

その言語の難しさが、人気ランキングの低さに影響していることは間違いありません。 しかし、11億人以上の人々が流暢に読み、書き、理解しています。 では、本当に難しいのでしょうか? それとも英語圏の人にとっては馴染みがないだけなのでしょうか?

データサイエンティストが直面する課題は、もちろん、言語の難しさをどのように測定するかということです。 誤解を恐れずに言えば、言語を習得することの難しさと、その言語固有の使用の難しさは区別されます。

アプローチ A: Foreign Service に聞く

約 10 年前、Voxy は Foreign Service Institute からの情報をもとに、英語を母国語とする人の言語難易度を簡単、中程度、難しいの 3 つに分類したインフォグラフィック (下図) を掲載しました。 このインフォグラフィックでは、英語を母国語とする人にとっての言語の難易度を、簡単、中程度、難しいの3つに分類しています。 ただし、難易度は、言語の複雑さ、学習者の母国語(ここでは英語)にどれだけ近いか、週に何時間学習するか、利用可能な言語資源に依存することを指摘しています。

  • 易しい(22〜23週、575〜600授業時間)。 ロマンス言語(スペイン語、ポルトガル語、フランス語、イタリア語、ルーマニア語)、オランダ語、アフリカーンス語、ノルウェー語、スウェーデン語がこのグループに入ります
  • 中程度(44週、1110時間)。 ロシア語、ポーランド語、セルビア語、フィンランド語、タイ語、ベトナム語、ギリシャ語、ヘブライ語、ヒンディー語
  • ハード(88週、2220授業時間)。

ヴォクシーはこの表を教材や議論の対象とすることを明確に意図していますが、その分析方法の弱点を指摘することは難しくありません。 まず、「習熟度」の基準を誰が設定するのか。 また、指導の質をどうやって測るのか? 要因となる第二言語の知識をどう説明するのか? データ サイエンティストにとって、この結果は残念ながら恣意的に映るでしょう。

Photo by Voxy on What Are The Hardest Languages To Learn?

Approach B: Scoring Language Learning Difficulty:

少なくともデータ サイエンスの観点からは、この問題に対するより興味深いアプローチが Glossika の言語学者 Michael Campbell によって提供されています。

  1. 言語の難易度を測定する客観的な方法はありますか
  2. 世界で最も難しい言語は何ですか

Campbell 氏のアプローチの特徴は、相対的なデータに基づいたアプローチです。 言語の難易度は、言語の複雑さに関するさまざまな基準に基づいて、2つの言語間の相対的な類似性に基づいています。 直感に反するかもしれませんが、このアプローチは、客観的に評価できる数値基準に基づいているため、言語学習の難しさを客観的に評価することができます。

Vocabulary Acquisition

これは、その言語が学習者の言語にどれだけ近いかという点を考慮しています。

言語は、科、枝、亜枝に分かれています。 例えば、英語はインド・ヨーロッパ原語に属し、ロシア語、アルメニア語、ギリシャ語などもこの原語に属しています。 一方、アラビア語、中国語、日本語は別のファミリーに属します。 インド・ヨーロッパ語族のグループの中では、その枝である英語はゲルマン・ロマンス語であり、したがってドイツ語やフランス語のような言語に近い。 似ているという意味では、文法的な違いはあるものの、英語はドイツ語に何かと近い。 同様に、ポルトガル語、スペイン語、イタリア語も同じサブブランチに属し、言語学習を容易にします。 キャンベルはこの基準を重要視しており、言語学習の難しさは指数関数的に高い数値に反映されます。 同じサブブランチのブランチ。 0点 異なるサブブランチ。 1点 異なるブランチ。 10点。 異なるファミリー:100点

Syntax and Grammar for Fluency

言語学者を生業とするCampbell氏は、英語を話す際に必要な要素をリストアップしました。

言語学者であるキャンベル氏は、以下のような要素をリストアップしました。

  • 言語の種類
  • 主語・動詞・形容詞の順序
  • 形容詞・名詞の順序
  • 主語(所有者)・名詞の順序
  • 決定詞・名詞の順序liNoun order
  • Relative (cluse) – Noun order
  • Noun Declension
  • Tenses
  • Conjugation
  • Adposition

これらの基準のそれぞれについて。 キャンベルは、これらの基準ごとに、言語間の違いがあればプラスマイナス1ポイントを割り当てます。 計算結果はマトリックスで表示されます。

div

The Glossika Blogから得られたマトリクス

このマトリクスの行を比較することで。 このマトリックスの行を比較することで、2つの言語間の構文や文法の違いにスコアを割り当て、ある言語からの学習の難易度を決定することができます。

流暢さのための音韻

Campbell の計算では、12 の調音点と母音とイントネーションの数を考慮して、総音素 (書かれた音) と同音異義語 (人々が口にする音) の違いを考慮しています。

iv

The Glossika Blogから得られたマトリックス

このマトリックスによると。 このマトリックスによると、行を比較することで、これらの音韻基準に関連した言語の難易度を計算することができます。

データサイエンティストは、さまざまなパラメータに割り当てられたスコアが恣意的かつ主観的であることに注意しますが、難易度を構成要素に分解する試みにはメリットがあります。

例えば、英語を話す人の場合、言語ファミリーごとのスコアの割り当ては次のようになります。

Matrix derived from The Glossika Blog

ドイツ語で0点(So einfach ist das?)とフランス語で5点を両立させるのは難しいですね。)と、フランス語やスペイン語で5点を取ることは両立しません。 また、グルジア語はポーランド語の10倍も語彙を習得するのが難しいと言われています。

The Final Reckoning:

彼の2016年の記事は、最も難しい言語のリストで締めくくられていました。 この関連で彼が挙げたのは、ヨーロッパのジプシーたちが話す、文字すら書かれていないロマニー語や、旅行者志願者が到着すると殺されてしまう太平洋の島の言語であるセンチネル語、グリーンランド語のような多合成言語、そして84個もの子音を持つウビク語です。

2年後、Campbellは自分のスコアリングシステムを適用し、FSIランキングと比較した後続の記事を書きました。

iv

Matrix derived from The Glossika Blog

言語学者ではない人は、このような言葉を聞いても驚かないでしょう。言語学者ではない人は、著者がタイ語、ベトナム語、トルコ語、フィンランド語を「簡単な言葉」として分類しているのを見て、驚きを隠せないかもしれません。 このように、言語学者ではない人は、タイ語、ベトナム語、トルコ語、フィンランド語を「簡単」だと言い切っています。 また、著者のランキングシステムでは、韓国語が台湾語よりも難易度が高いことに驚きを隠せません。

ここでは、Ubykhの数字を学ぶことができ、あらゆる言語のデータ サイエンティストにとって魅力的な、無駄話を聞くことができます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です