La scienza dei dati può aiutare a misurare la difficoltà di imparare una lingua. La percezione della difficoltà dipende dalla vicinanza strutturale e semantica di una nuova lingua a quella che si conosce. Ma misurando queste differenze linguistiche con i numeri si ottengono risultati sorprendenti.
Approccio B: Valutazione della difficoltà di apprendimento della lingua: A Polyglot’s Approach
Un approccio più intrigante al problema, almeno dal punto di vista della scienza dei dati, è offerto dal linguista Michael Campbell di Glossika. In un dettagliato post sul suo blog, giustamente intitolato “Language Difficulty”, ha ideato un sistema di punteggio per rispondere, numericamente, alle precise domande che ci incuriosiscono:
- Esiste un metodo oggettivo per misurare la difficoltà linguistica?
- Quali sono le lingue più difficili del mondo?
L’approccio di Campbell si distingue per il suo approccio relativistico basato sui dati. La difficoltà delle lingue si basa sulla somiglianza relativa tra due lingue secondo vari criteri di complessità linguistica. Forse controintuitivamente, questo approccio rende effettivamente possibile una valutazione oggettiva della difficoltà di apprendimento delle lingue, perché si basa su criteri numerici che possono essere valutati oggettivamente. Tra i criteri che propone ci sono:
Acquisizione del vocabolario
Questo viene considerato rispetto a quanto la lingua è vicina alla lingua dello studente.
Le lingue sono divise in famiglie, rami e sotto-rami. Per esempio, l’inglese appartiene alla proto-lingua indoeuropea, alla quale appartengono lingue come il russo, l’armeno e il greco. Al contrario, l’arabo, il cinese e il giapponese sarebbero in una famiglia diversa. All’interno del raggruppamento indoeuropeo, quel ramo, l’inglese è una lingua germanica-romanza, quindi più vicina a lingue come il tedesco e il francese. In termini di somiglianza, l’inglese è più vicino in ogni modo al tedesco, nonostante le differenze grammaticali. Allo stesso modo, il portoghese, lo spagnolo e l’italiano apparterrebbero allo stesso sotto ramo, rendendo più facile l’apprendimento delle lingue. Campbell assegna un’alta importanza a questo criterio, e la difficoltà di apprendimento della lingua si riflette in numeri esponenzialmente più alti. Stesso ramo di sottobranco: 0 punti. Sotto-ramo diverso: 1 punto. Rami diversi: 10 punti. Famiglia diversa: 100 punti.
Sintassi e grammatica per la fluidità
Campbell, linguista di professione. si è scomposto in una lista di fattori, come
- Tipo di lingua
- Ordine soggetto-verbo-oggetto
- Ordine aggettivo-sostantivo
- Genitivo (possessore) – Ordine sostantivo
- Determinante-Ordine del nome
- Relativo (clausola) – Ordine del nome
- Declinazione del nome
- Tesi
- Coniugazione
- Posizione
Per ognuno di questi criteri, Campbell assegna 1 punto in più o in meno se c’è una differenza tra le lingue. I risultati del suo calcolo sono resi in una matrice:
Confrontando le righe di questa matrice, può assegnare un punteggio alle differenze sintattiche e grammaticali tra due lingue e quindi alla difficoltà di apprendimento di una data lingua. Il punteggio di difficoltà per un tedesco che impara il francese sarebbe di 6 punti, un giapponese che impara lo spagnolo di 13 punti e un cinese che impara il polacco di ben 34 punti.
Fonologia per la fluidità
I calcoli di Campbell tengono conto della differenza dei fonemi totali (suoni scritti) e degli allofoni (i suoni che la gente dice), considerando 12 punti di articolazione e il numero di vocali e intonazioni.
Secondo questa matrice, il confronto delle righe permette di calcolare la difficoltà della lingua in relazione a questi criteri fonologici. Il punteggio di difficoltà per un tedesco che impara il francese sarebbe di 1 punto, un giapponese che impara lo spagnolo di 11 punti, e un cinese che impara il polacco di ben 15 punti.
Gli scienziati dei dati noteranno che i punteggi assegnati per vari parametri sono arbitrari e soggettivi, ma c’è del merito nel tentativo di scomporre i gradi di difficoltà in fattori componenti.
Per esempio, per un parlante inglese, le seguenti sono le assegnazioni di punteggio secondo la famiglia linguistica:
È difficile conciliare un punteggio 0 in tedesco (So einfach ist das?) con un punteggio di 5 in francese o spagnolo. E il georgiano è davvero 10 volte più difficile da acquisire il vocabolario del polacco? Quindi l’enumerazione specifica è certamente aperta a modifiche, anche se il metodo è intrigante – anche se un po’ approssimativo.
La resa dei conti finale: What’s Unique About Ubykh?
Il suo articolo del 2016 si concludeva con una lista di alcune delle lingue più difficili. Citava, a questo proposito, la lingua rom degli zingari europei, che non sono nemmeno scritte, e il sentinelese, la lingua dell’isola del Pacifico dove gli aspiranti visitatori vengono uccisi all’arrivo, le lingue polisintetiche come il groenlandese, e l’Ubykh, con non meno di 84 consonanti. La menzione d’onore va a Bella Coola, una lingua che viene scritta solo dai linguisti per registrare la grammatica.
Due anni dopo, Campbell ha scritto un pezzo di follow-up applicando il suo sistema di punteggio e confrontandolo con le classifiche FSI.
I non-linguisti possono essere non eccitati dal modo sprezzante con cui l’autore classifica il thailandese, Vietnamita, Turco e Finlandese come “facili” – tranne, si affretta a dire, per i loro vocabolari assolutamente sconosciuti. Confessa la sorpresa che, secondo il suo sistema di classificazione, il coreano batte il taiwanese in difficoltà. Ma attribuisce all’Ubykh, una lingua circassa estinta, il merito di aver lasciato nella polvere persino il coreano.
Qui si possono imparare i numeri dell’Ubykh e ascoltare una storia di futilità che dovrebbe interessare ogni scienziato dei dati – in qualsiasi lingua.