Possiamo misurare la difficoltà linguistica con i numeri?

La scienza dei dati può aiutare a misurare la difficoltà di imparare una lingua. La percezione della difficoltà dipende dalla vicinanza strutturale e semantica di una nuova lingua a quella che si conosce. Ma misurando queste differenze linguistiche con i numeri si ottengono risultati sorprendenti.

Approccio B: Valutazione della difficoltà di apprendimento della lingua: A Polyglot’s Approach

Un approccio più intrigante al problema, almeno dal punto di vista della scienza dei dati, è offerto dal linguista Michael Campbell di Glossika. In un dettagliato post sul suo blog, giustamente intitolato “Language Difficulty”, ha ideato un sistema di punteggio per rispondere, numericamente, alle precise domande che ci incuriosiscono:

Esiste un metodo oggettivo per misurare la difficoltà linguistica?
Quali sono le lingue più difficili del mondo?

L’approccio di Campbell si distingue per il suo approccio relativistico basato sui dati. La difficoltà delle lingue si basa sulla somiglianza relativa tra due lingue secondo vari criteri di complessità linguistica. Forse controintuitivamente, questo approccio rende effettivamente possibile una valutazione oggettiva della difficoltà di apprendimento delle lingue, perché si basa su criteri numerici che possono essere valutati oggettivamente. Tra i criteri che propone ci sono:

Acquisizione del vocabolario

Questo viene considerato rispetto a quanto la lingua è vicina alla lingua dello studente.

Le lingue sono divise in famiglie, rami e sotto-rami. Per esempio, l’inglese appartiene alla proto-lingua indoeuropea, alla quale appartengono lingue come il russo, l’armeno e il greco. Al contrario, l’arabo, il cinese e il giapponese sarebbero in una famiglia diversa. All’interno del raggruppamento indoeuropeo, quel ramo, l’inglese è una lingua germanica-romanza, quindi più vicina a lingue come il tedesco e il francese. In termini di somiglianza, l’inglese è più vicino in ogni modo al tedesco, nonostante le differenze grammaticali. Allo stesso modo, il portoghese, lo spagnolo e l’italiano apparterrebbero allo stesso sotto ramo, rendendo più facile l’apprendimento delle lingue. Campbell assegna un’alta importanza a questo criterio, e la difficoltà di apprendimento della lingua si riflette in numeri esponenzialmente più alti. Stesso ramo di sottobranco: 0 punti. Sotto-ramo diverso: 1 punto. Rami diversi: 10 punti. Famiglia diversa: 100 punti.

Sintassi e grammatica per la fluidità

Campbell, linguista di professione. si è scomposto in una lista di fattori, come

Tipo di lingua
Ordine soggetto-verbo-oggetto
Ordine aggettivo-sostantivo
Genitivo (possessore) – Ordine sostantivo
Determinante-Ordine del nome
Relativo (clausola) – Ordine del nome
Declinazione del nome
Tesi
Coniugazione
Posizione

Per ognuno di questi criteri, Campbell assegna 1 punto in più o in meno se c’è una differenza tra le lingue. I risultati del suo calcolo sono resi in una matrice:

Confrontando le righe di questa matrice, può assegnare un punteggio alle differenze sintattiche e grammaticali tra due lingue e quindi alla difficoltà di apprendimento di una data lingua. Il punteggio di difficoltà per un tedesco che impara il francese sarebbe di 6 punti, un giapponese che impara lo spagnolo di 13 punti e un cinese che impara il polacco di ben 34 punti.

Fonologia per la fluidità

I calcoli di Campbell tengono conto della differenza dei fonemi totali (suoni scritti) e degli allofoni (i suoni che la gente dice), considerando 12 punti di articolazione e il numero di vocali e intonazioni.

È difficile conciliare un punteggio 0 in tedesco (So einfach ist das?) con un punteggio di 5 in francese o spagnolo. E il georgiano è davvero 10 volte più difficile da acquisire il vocabolario del polacco? Quindi l’enumerazione specifica è certamente aperta a modifiche, anche se il metodo è intrigante – anche se un po’ approssimativo.

La resa dei conti finale: What’s Unique About Ubykh?

Il suo articolo del 2016 si concludeva con una lista di alcune delle lingue più difficili. Citava, a questo proposito, la lingua rom degli zingari europei, che non sono nemmeno scritte, e il sentinelese, la lingua dell’isola del Pacifico dove gli aspiranti visitatori vengono uccisi all’arrivo, le lingue polisintetiche come il groenlandese, e l’Ubykh, con non meno di 84 consonanti. La menzione d’onore va a Bella Coola, una lingua che viene scritta solo dai linguisti per registrare la grammatica.

Due anni dopo, Campbell ha scritto un pezzo di follow-up applicando il suo sistema di punteggio e confrontandolo con le classifiche FSI.

I non-linguisti possono essere non eccitati dal modo sprezzante con cui l’autore classifica il thailandese, Vietnamita, Turco e Finlandese come “facili” – tranne, si affretta a dire, per i loro vocabolari assolutamente sconosciuti. Confessa la sorpresa che, secondo il suo sistema di classificazione, il coreano batte il taiwanese in difficoltà. Ma attribuisce all’Ubykh, una lingua circassa estinta, il merito di aver lasciato nella polvere persino il coreano.

Qui si possono imparare i numeri dell’Ubykh e ascoltare una storia di futilità che dovrebbe interessare ogni scienziato dei dati – in qualsiasi lingua.

Possiamo misurare la difficoltà linguistica con i numeri?

L’apprendimento delle lingue online e le sue sfide

Approccio A: Chiedi al Foreign Service

Approccio B: Valutazione della difficoltà di apprendimento della lingua: A Polyglot’s Approach

Acquisizione del vocabolario

Sintassi e grammatica per la fluidità

Fonologia per la fluidità

La resa dei conti finale: What’s Unique About Ubykh?

Lascia un commento Annulla risposta