Data Science kan helpen bij het meten van de moeilijkheidsgraad van het leren van een taal. De perceptie van moeilijkheid hangt af van de structurele en semantische overeenkomsten tussen een nieuwe taal en de taal die je kent. Maar het meten van die linguïstische verschillen aan de hand van cijfers levert verrassende resultaten op.
Het lijdt geen twijfel, de wereld wordt “kleiner” als het gaat om onze toegang tot mensen en inhoud uit andere landen en culturen. Zelfs de COVID-19-pandemie, die het internationale reizen heeft beperkt, heeft geleid tot meer virtuele interactie via het internet. Toch blijven de barrières voor vloeiende en bekwame communicatie tussen talen formidabel.
De kwaliteit van automatische vertalingen is de laatste jaren drastisch verbeterd, dankzij de introductie van kunstmatige intelligentiemethoden zoals neurale netwerken voor deze taak. De AI-gestuurde optimalisatie van het vertalen is snel doorgesijpeld naar consumentenapps als Google Translate en Microsoft Translator, die het gebruik van machinevertalers vereenvoudigen en het vermogen om betekenis over taalgrenzen heen over te brengen verbeteren.
Er is een enorm verschil tussen het vertalen van een taal via software en het leren van een nieuwe taal. Voor de meeste volwassenen is het leren van een nieuwe taal moeilijk. Maar sommige mensen houden van taalkundige uitdagingen: voor hen zijn de moeilijkste talen om te leren misschien wel de leukste om te overwinnen. De neuroplasticiteit van jonge hersenen zorgt er natuurlijk voor dat kinderen in een handomdraai een nieuwe taal leren. Maar weinig volwassenen hebben het zo gemakkelijk.
Online talen leren en de uitdagingen
Online talen leren, volgens het ICEF een bedrijfstak van 582 miljard dollar per jaar, heeft het leren van een nieuwe taal voor miljoenen mensen gemakkelijker en gemakkelijker gemaakt. Het leren van de Engelse taal is goed voor het grootste deel van dit totaal. Hoewel de populariteit van het Engels misschien niet verrassend is – het is de meest gesproken taal en de belangrijkste taal van het bedrijfsleven wereldwijd – vertakken vaardige Engelssprekers zich in een snel tempo naar andere talen.
Rosetta Stone, een toonaangevende aanbieder van taalcursussen, meldt dat Spaans de lijst aanvoerde van talen die Britten in 2018 het liefst wilden leren, met 23,1% van zijn Britse cursisten die de taal vorig jaar leerden. Vier andere Europese talen – Frans, Engels, Italiaans en Duits – ronden de top vijf af. Misschien verrassend, Mandarijn Chinees, de meest populaire moedertaal, met meer dan een miljoen, was niet in de volgende tier.
No doubt de perceptie van de moeilijkheid van die taal speelde een rol in zijn relatief lage populariteit ranking. Het Mandarijn Chinees is voor een niet-Chinees sprekende taal zeer moeilijk. En toch lezen, schrijven en begrijpen meer dan 1,1 miljard sprekers het vloeiend. Dus is het echt moeilijk? Of is het gewoon onbekend voor een Engelstalige? De vraag roept een grote uitdaging op: is de perceptie van moeilijkheid niet een volledig relatieve aangelegenheid, die voor elke taalleerder tot op zekere hoogte verschilt, afhankelijk van achtergrond en opleiding.
De uitdaging waar een datawetenschapper voor staat, is natuurlijk hoe de moeilijkheid van een taal kan worden gemeten. Als we haar willen splitsen, is er een onderscheid tussen de moeilijkheidsgraad van het leren van een taal en de inherente moeilijkheidsgraad van het gebruik. Maar in het kader van dit artikel zullen we ons richten op het evalueren van een manier om de moeilijkheidsgraad van een taal te meten, als we een term mogen lenen uit de taal van gymnastiek en andere wedstrijdsporten.
Aanpak A: Vraag het aan Buitenlandse Zaken
Bijna tien jaar geleden publiceerde Voxy een infographic (hieronder), afkomstig van het Foreign Service Institute, waarin de moeilijkheidsgraad van een taal voor moedertaalsprekers van het Engels in drie keurige categorieën wordt verdeeld: gemakkelijk, gemiddeld en moeilijk. De basis voor de vergelijking was hoe lang – in termen van kalenderweken en leeruren, het bereiken van “bekwaamheid” zou worden vereist voor verschillende talen. De site nuanceerde zijn bevindingen door op te merken dat de moeilijkheidsgraad afhing van de complexiteit van de taal, hoe dicht de taal bij de eigen taal van de leerling lag (in dit geval het Engels), het aantal lestijden per week, en de beschikbare taalhulpbronnen. Uit de grafiek blijkt dat wordt uitgegaan van 25 uur leren per week.
- Makkelijk (22-23 weken, 575-600 lesuren): De Romaanse talen (Spaans, Portugees, Frans, Italiaans en Roemeens) vallen alle in deze groep, samen met Nederlands, Afrikaans, Noors en Zweeds
- Gemiddeld (44 weken, 1110 lesuren): Russisch, Pools, Servisch, Fins, Thais en Vietnamees, Grieks, Hebreeuws en Hindi.
- Moeilijk (88 weken, 2220 lesuren): Chinees, Japans, Koreaans, Arabisch
Hoewel Voxy duidelijk de bedoeling heeft om de tabel als een didactisch hulpmiddel of een onderwerp van discussie te gebruiken, is het niet moeilijk om de zwakke punten in de analytische methode te ontdekken. Ten eerste, wie moet de lat van “bekwaamheid” leggen? En hoe meet je de kwaliteit van het onderwijs? Hoe moet rekening worden gehouden met factoren als kennis van een tweede taal? Voor een data scientist zouden de resultaten teleurstellend willekeurig lijken.
Aanpak B: Taalleermoeilijkheden scoren: A Polyglot’s Approach
Een meer intrigerende benadering van het probleem, althans vanuit een data science-perspectief, wordt geboden door linguïst Michael Campbell bij Glossika. In een gedetailleerde blogpost met de toepasselijke titel “Language Difficulty,” bedacht hij een scoresysteem om numeriek antwoord te geven op de precieze vragen die ons intrigeren:
- Is er een objectieve methode om taalmoeilijkheden te meten?
- Wat zijn de moeilijkste talen ter wereld?
De aanpak van Campbell onderscheidt zich door zijn relativistische, op gegevens gebaseerde benadering. De moeilijkheidsgraad van een taal is gebaseerd op de relatieve gelijkenis tussen twee talen volgens verschillende criteria van taalkundige complexiteit. Wellicht contra-intuïtief maakt deze benadering een objectieve beoordeling van de moeilijkheidsgraad van het leren van talen mogelijk, omdat zij gebaseerd is op numerieke criteria die objectief kunnen worden beoordeeld. Enkele van de criteria die hij aanreikt zijn:
Vocabulaireverwerving
Dit beschouwt hij met betrekking tot hoe dicht de taal bij de taal van de leerling ligt.
Talen worden onderverdeeld in families, takken, en subtakken. Zo behoort het Engels tot de Indo-Europese Proto-taal, waartoe ook talen als het Russisch, het Armenië en het Grieks behoren. Daarentegen zouden Arabisch, Chinees en Japans tot een andere familie behoren. Binnen de Indo-Europese groepering, die tak, is het Engels een Germaans-Romaanse taal, dus dichter bij talen als het Duits en het Frans. In termen van gelijkenis komt het Engels het dichtst in de buurt van het Duits, ondanks grammaticale verschillen. Evenzo zouden Portugees, Spaans en Italiaans tot dezelfde subtak behoren, wat het leren van talen gemakkelijker maakt. Campbell hecht veel belang aan dit criterium, waarbij de moeilijkheid van het leren van talen tot uiting komt in exponentieel hogere getallen. Zelfde sub-tak tak: 0 punten. Verschillende sub-takken: 1 punt. Verschillende takken: 10 punten. Verschillende familie: 100 punten.
Syntax en Grammatica voor vloeiendheid
Campbell, taalkundige van beroep. uitgesplitst in een lijst van factoren, zoals
- Taalsoort
- Subject-Verb-Object volgorde
- Adjectief-Naamwoord volgorde
- Genitief (bezitter) – Naamwoord volgorde
- Determiner-Naamwoord-volgorde
- Relatief (bijzin) – Naamwoord-volgorde
- Naamwoorddeclensie
- Tijden
- Conjugatie
- Adpositie
Voor elk van deze criteria, kent Campbell 1 punt toe plus of min als er een verschil is tussen talen. De resultaten van zijn berekening zijn weergegeven in een matrix:
Door rijen in deze matrix met elkaar te vergelijken, kan hij een score toekennen aan de syntactische en grammaticale verschillen tussen twee talen en dus aan de moeilijkheidsgraad van het leren van een bepaalde taal. De moeilijkheidsscore voor een Duitser die Frans leert zou 6 punten zijn, een Japanner die Spaans leert 13 punten, en een Chinees die Pools leert maar liefst 34 punten.
Fonologie voor vloeiendheid
Campbell’s berekeningen houden rekening met het verschil in totale fonemen (geschreven klanken) en allofonen (de klanken die mensen zeggen), rekening houdend met 12 punten van articulatie en het aantal klinkers en intonaties.
Volgens deze matrix, door rijen te vergelijken, kan de moeilijkheidsgraad van een taal worden berekend op basis van deze fonologische criteria. De moeilijkheidsscore voor een Duitse spreker die Frans leert zou 1 punt zijn, voor een Japanse spreker die Spaans leert 11 punten, en voor een Chinese spreker die Pools leert maar liefst 15 punten.
Datawetenschappers zullen opmerken dat de scores die aan de verschillende parameters worden toegekend arbitrair en subjectief zijn, maar er zit iets in de poging om moeilijkheidsgraden op te splitsen in samenstellende factoren.
Voor een Engelstalige bijvoorbeeld, zijn de volgende scores toegekend op basis van taalfamilie:
Het is moeilijk om een 0-score in het Duits (So einfach ist das?) met een score van 5 in het Frans of Spaans. En is Georgisch echt 10 keer moeilijker om woordenschat te verwerven dan Pools? Dus de specifieke opsomming is zeker voor verbetering vatbaar, hoewel de methode intrigerend is – zij het een beetje ruw rond de randen.
De uiteindelijke afrekening: What’s Unique About Ubykh?
Hij sloot zijn artikel uit 2016 af met een opsomming van enkele van de moeilijkste talen. Hij noemde in dit verband de Romaanse taal van Europese zigeuners, die niet eens worden opgeschreven, en het Sentinelees, de taal van het eiland in de Stille Oceaan waar wannabe-bezoekers bij aankomst worden gedood, polysynthetische talen als het Groenlands, en Ubykh, met maar liefst 84 medeklinkers. Eervolle vermelding gaat naar Bella Coola, een taal die alleen door taalkundigen wordt opgeschreven om de grammatica vast te leggen.
Twee jaar later schreef Campbell een vervolgstuk waarin hij zijn scoresysteem toepaste en afzette tegen de FSI-ranglijsten.
Niet-taalkundigen zullen wellicht niet onder de indruk zijn van de afwijzende manier waarop de auteur het Thais, Vietnamees, Turks en Fins als “gemakkelijk” bestempelt – behalve, zo haast hij zich te zeggen, vanwege hun volstrekt onbekende vocabulaire. Hij geeft toe verbaasd te zijn dat, volgens zijn ranglijst, Koreaans het Taiwanees verslaat in moeilijkheidsgraad. Maar hij noemt Ubykh, een uitgestorven Circassische taal, die zelfs Koreaans in het stof laat verdwijnen.
Hier kunt u Ubykh cijfers leren en luisteren naar een verhaal over zinloosheid dat elke datawetenschapper zou moeten aanspreken – in welke taal dan ook.