Articles

Possiamo misurare la difficoltà linguistica con i numeri?

Posted on

La scienza dei dati può aiutare a misurare la difficoltà di imparare una lingua. La percezione della difficoltà dipende dalla vicinanza strutturale e semantica di una nuova lingua a quella che si conosce. Ma misurando queste differenze linguistiche con i numeri si ottengono risultati sorprendenti.

Foto di Artem Beliaikin su Unsplash

Senza dubbio, il mondo sta “diventando più piccolo” in termini di accesso a persone e contenuti di altri paesi e culture. Anche la pandemia COVID-19, che ha ridotto i viaggi internazionali, ha portato a una crescente interazione virtuale via internet. Eppure le barriere per una comunicazione interlinguistica fluente e competente rimangono formidabili.

La qualità della traduzione automatica è migliorata notevolmente negli ultimi anni, grazie all’introduzione di metodi di intelligenza artificiale come le reti neurali per questo compito. L’ottimizzazione della traduzione guidata dall’intelligenza artificiale è arrivata rapidamente alle applicazioni per i consumatori come Google Translate e Microsoft Translator, che semplificano l’uso dei traduttori automatici e migliorano la capacità di trasmettere significato attraverso le frontiere linguistiche.

C’è un’enorme differenza tra tradurre una lingua via software e imparare una nuova lingua. Per la maggior parte degli adulti, imparare una nuova lingua è difficile. Ma alcune persone amano le sfide linguistiche: per loro, le lingue più difficili da imparare possono essere le più divertenti da conquistare. La neuroplasticità dei giovani cervelli, naturalmente, rende l’acquisizione di una nuova lingua un gioco da ragazzi. Ma per pochi adulti è così facile.

L’apprendimento delle lingue online e le sue sfide

L’apprendimento delle lingue online, ora un’industria da 582 miliardi di dollari all’anno secondo l’ICEF, ha reso più conveniente e facile l’apprendimento di una nuova lingua per milioni di persone. L’apprendimento della lingua inglese rappresenta la maggior parte di questo totale. Mentre la popolarità dell’inglese potrebbe non essere sorprendente – è la lingua più parlata e la principale lingua degli affari in tutto il mondo – gli anglofoni competenti si stanno ramificando verso altre lingue a un ritmo rapido.

Rosetta Stone, un fornitore leader di corsi di lingua, riferisce che lo spagnolo è in cima alla lista delle lingue che i britannici erano più desiderosi di intraprendere nel 2018, con il 23,1% dei suoi studenti britannici che hanno imparato la lingua l’anno scorso. Altre quattro lingue europee – francese, inglese, italiano e tedesco – hanno completato la top five. Forse sorprendentemente, il cinese mandarino, la lingua madre più popolare, con più di un milione, non era nel livello successivo.

Senza dubbio la percezione della difficoltà di quella lingua ha giocato un ruolo nella sua classifica di popolarità relativamente bassa. Il cinese mandarino pone grandi difficoltà per un non-cinese. Eppure più di 1,1 miliardi di parlanti lo leggono, lo scrivono e lo capiscono correntemente. Quindi è davvero difficile? O è solo poco familiare per un anglofono? La domanda solleva una grande sfida: la percezione della difficoltà non è una questione totalmente relativa, che differisce in una certa misura per ogni studente di lingua, a seconda del background e dell’istruzione. Se vogliamo spaccare il capello in quattro, c’è una distinzione tra la difficoltà di imparare una lingua e la sua intrinseca difficoltà d’uso. Ma per gli scopi di questo articolo, ci concentreremo sul compito di valutare un modo per misurare il grado di difficoltà di una lingua, se possiamo prendere in prestito un termine dal linguaggio della ginnastica e di altri sport competitivi.

Approccio A: Chiedi al Foreign Service

Quasi un decennio fa, Voxy ha pubblicato un’infografica (mostrata qui sotto), proveniente dal Foreign Service Institute, che suddivide la difficoltà della lingua per i madrelingua inglesi in tre categorie precise: facile, media e difficile. La base per il confronto era quanto tempo – in termini di settimane di calendario e ore di apprendimento, il raggiungimento della “competenza” sarebbe richiesto per le diverse lingue. Il sito qualificava i suoi risultati notando che la difficoltà dipendeva dalla complessità della lingua, da quanto era vicina alla lingua dello studente (in questo caso, l’inglese), da quante ore di apprendimento alla settimana e dalle risorse linguistiche disponibili. Dal grafico appare l’ipotesi di base di 25 ore di apprendimento a settimana.

  • Facile (22-23 settimane, 575-600 ore di lezione): Le lingue romanze (spagnolo, portoghese, francese, italiano e rumeno) rientrano tutte in questo gruppo, insieme a olandese, afrikaans, norvegese e svedese
  • Medio (44 settimane, 1110 ore di lezione): Russo, polacco, serbo, finlandese, tailandese e vietnamita, greco, ebraico e hindi.
  • Difficile (88 settimane, 2220 ore di lezione): Cinese, Giapponese, Coreano, Arabo

Mentre Voxy intende chiaramente che la tabella sia uno strumento di insegnamento o un argomento di discussione, non è difficile individuare le debolezze nel suo metodo analitico. In primo luogo, chi deve stabilire il livello di “competenza”? E come misurare la qualità dell’istruzione? Come tenere conto del fattore conoscenza della seconda lingua? Per uno scienziato dei dati, i risultati appaiono deludentemente arbitrari.

Foto di Voxy su Quali sono le lingue più difficili da imparare?

Approccio B: Valutazione della difficoltà di apprendimento della lingua: A Polyglot’s Approach

Un approccio più intrigante al problema, almeno dal punto di vista della scienza dei dati, è offerto dal linguista Michael Campbell di Glossika. In un dettagliato post sul suo blog, giustamente intitolato “Language Difficulty”, ha ideato un sistema di punteggio per rispondere, numericamente, alle precise domande che ci incuriosiscono:

  1. Esiste un metodo oggettivo per misurare la difficoltà linguistica?
  2. Quali sono le lingue più difficili del mondo?

L’approccio di Campbell si distingue per il suo approccio relativistico basato sui dati. La difficoltà delle lingue si basa sulla somiglianza relativa tra due lingue secondo vari criteri di complessità linguistica. Forse controintuitivamente, questo approccio rende effettivamente possibile una valutazione oggettiva della difficoltà di apprendimento delle lingue, perché si basa su criteri numerici che possono essere valutati oggettivamente. Tra i criteri che propone ci sono:

Acquisizione del vocabolario

Questo viene considerato rispetto a quanto la lingua è vicina alla lingua dello studente.

Le lingue sono divise in famiglie, rami e sotto-rami. Per esempio, l’inglese appartiene alla proto-lingua indoeuropea, alla quale appartengono lingue come il russo, l’armeno e il greco. Al contrario, l’arabo, il cinese e il giapponese sarebbero in una famiglia diversa. All’interno del raggruppamento indoeuropeo, quel ramo, l’inglese è una lingua germanica-romanza, quindi più vicina a lingue come il tedesco e il francese. In termini di somiglianza, l’inglese è più vicino in ogni modo al tedesco, nonostante le differenze grammaticali. Allo stesso modo, il portoghese, lo spagnolo e l’italiano apparterrebbero allo stesso sotto ramo, rendendo più facile l’apprendimento delle lingue. Campbell assegna un’alta importanza a questo criterio, e la difficoltà di apprendimento della lingua si riflette in numeri esponenzialmente più alti. Stesso ramo di sottobranco: 0 punti. Sotto-ramo diverso: 1 punto. Rami diversi: 10 punti. Famiglia diversa: 100 punti.

Sintassi e grammatica per la fluidità

Campbell, linguista di professione. si è scomposto in una lista di fattori, come

  • Tipo di lingua
  • Ordine soggetto-verbo-oggetto
  • Ordine aggettivo-sostantivo
  • Genitivo (possessore) – Ordine sostantivo
  • Determinante-Ordine del nome
  • Relativo (clausola) – Ordine del nome
  • Declinazione del nome
  • Tesi
  • Coniugazione
  • Posizione

Per ognuno di questi criteri, Campbell assegna 1 punto in più o in meno se c’è una differenza tra le lingue. I risultati del suo calcolo sono resi in una matrice:

Matrice derivata da The Glossika Blog

Confrontando le righe di questa matrice, può assegnare un punteggio alle differenze sintattiche e grammaticali tra due lingue e quindi alla difficoltà di apprendimento di una data lingua. Il punteggio di difficoltà per un tedesco che impara il francese sarebbe di 6 punti, un giapponese che impara lo spagnolo di 13 punti e un cinese che impara il polacco di ben 34 punti.

Fonologia per la fluidità

I calcoli di Campbell tengono conto della differenza dei fonemi totali (suoni scritti) e degli allofoni (i suoni che la gente dice), considerando 12 punti di articolazione e il numero di vocali e intonazioni.

Matrice derivata da The Glossika Blog

Secondo questa matrice, il confronto delle righe permette di calcolare la difficoltà della lingua in relazione a questi criteri fonologici. Il punteggio di difficoltà per un tedesco che impara il francese sarebbe di 1 punto, un giapponese che impara lo spagnolo di 11 punti, e un cinese che impara il polacco di ben 15 punti.

Gli scienziati dei dati noteranno che i punteggi assegnati per vari parametri sono arbitrari e soggettivi, ma c’è del merito nel tentativo di scomporre i gradi di difficoltà in fattori componenti.

Per esempio, per un parlante inglese, le seguenti sono le assegnazioni di punteggio secondo la famiglia linguistica:

Matrice derivata da The Glossika Blog

È difficile conciliare un punteggio 0 in tedesco (So einfach ist das?) con un punteggio di 5 in francese o spagnolo. E il georgiano è davvero 10 volte più difficile da acquisire il vocabolario del polacco? Quindi l’enumerazione specifica è certamente aperta a modifiche, anche se il metodo è intrigante – anche se un po’ approssimativo.

La resa dei conti finale: What’s Unique About Ubykh?

Il suo articolo del 2016 si concludeva con una lista di alcune delle lingue più difficili. Citava, a questo proposito, la lingua rom degli zingari europei, che non sono nemmeno scritte, e il sentinelese, la lingua dell’isola del Pacifico dove gli aspiranti visitatori vengono uccisi all’arrivo, le lingue polisintetiche come il groenlandese, e l’Ubykh, con non meno di 84 consonanti. La menzione d’onore va a Bella Coola, una lingua che viene scritta solo dai linguisti per registrare la grammatica.

Due anni dopo, Campbell ha scritto un pezzo di follow-up applicando il suo sistema di punteggio e confrontandolo con le classifiche FSI.

Matrice derivata da The Glossika Blog

I non-linguisti possono essere non eccitati dal modo sprezzante con cui l’autore classifica il thailandese, Vietnamita, Turco e Finlandese come “facili” – tranne, si affretta a dire, per i loro vocabolari assolutamente sconosciuti. Confessa la sorpresa che, secondo il suo sistema di classificazione, il coreano batte il taiwanese in difficoltà. Ma attribuisce all’Ubykh, una lingua circassa estinta, il merito di aver lasciato nella polvere persino il coreano.

Qui si possono imparare i numeri dell’Ubykh e ascoltare una storia di futilità che dovrebbe interessare ogni scienziato dei dati – in qualsiasi lingua.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *