Articles

Podemos medir a dificuldade de aprendizagem de uma língua pelos números?

Posted on

Data Science pode ajudar a medir a dificuldade de aprendizagem de uma língua. As percepções de dificuldade dependem da proximidade estrutural e semântica de uma nova língua com aquela que se conhece. Mas medir esses diferenciais linguísticos pelos números produz alguns resultados surpreendentes.

Photo by Artem Beliaikin on Unsplash

Sem dúvida, o mundo está “a ficar mais pequeno” em termos do nosso acesso a pessoas e conteúdos de outros países e culturas. Mesmo a pandemia COVID-19, que reduziu as viagens internacionais, levou a uma crescente interacção virtual através da Internet. No entanto, as barreiras à comunicação fluente e proficiente entre línguas continuam a ser formidáveis.

A qualidade da tradução automática melhorou drasticamente nos últimos anos, graças à introdução de métodos de Inteligência Artificial, tais como redes neurais para a tarefa. A optimização da tradução orientada para a IA tem descido rapidamente para aplicações de consumo como o Google Translate e o Microsoft Translator, que simplificam a utilização de tradutores automáticos e melhoram a capacidade de transmitir significado através das fronteiras linguísticas.

Existe uma enorme diferença entre traduzir uma língua através de software e aprender uma nova língua. Para a maioria dos adultos, aprender uma nova língua é difícil. Mas algumas pessoas adoram desafios linguísticos: para elas, as línguas mais difíceis de aprender podem ser as mais agradáveis de conquistar. A neuroplasticidade dos cérebros jovens, claro, faz da aquisição de uma nova língua uma relativa rapidez para as crianças. Mas poucos adultos o têm tão facilmente.

Online Language Learning and Its Challenges

Online language learning, agora uma indústria de 582 mil milhões de dólares/ano de acordo com o ICEF, tornou mais conveniente e mais fácil a aprendizagem de uma nova língua para milhões. A aprendizagem da língua inglesa é responsável pela maior parte deste total. Embora a popularidade do inglês possa não ser surpreendente – é a língua mais falada e a principal língua de negócios a nível mundial – os falantes proficientes de inglês estão a ramificar-se para outras línguas a um ritmo rápido.

Rosetta Stone, um fornecedor líder de cursos de línguas, relata que o espanhol encabeçou a lista de línguas que os britânicos estavam mais ansiosos por assumir em 2018, com 23,1% dos seus aprendentes britânicos a aprender a língua no ano passado. Quatro outras línguas europeias – francês, inglês, italiano e alemão – completaram a lista das cinco línguas mais faladas. Talvez surpreendentemente, o chinês mandarim, a língua nativa mais popular, com mais de um milhão, não se encontrava no nível seguinte.

Sem dúvida que a percepção da dificuldade dessa língua desempenhou um papel na sua classificação de popularidade relativamente baixa. O chinês mandarim, representa grandes dificuldades para um falante não-chinês. No entanto, mais de 1,1 mil milhões de pessoas falam, lêem, escrevem e compreendem-no fluentemente. Então, é realmente difícil? Ou será apenas desconhecido para um falante de inglês? A questão levanta um grande desafio: não será a percepção da dificuldade uma questão totalmente relativa, diferindo até certo ponto para cada aprendente de língua, dependendo dos antecedentes e da educação.

O desafio que se coloca a um cientista de dados, claro, é como pode ser medida a dificuldade linguística. Se quisermos dividir os cabelos, há uma distinção entre a dificuldade de aprendizagem de uma língua e a sua dificuldade inerente de utilização. Mas para efeitos deste artigo, concentrar-nos-emos na tarefa de avaliar uma forma de medir o grau de dificuldade de uma língua, se pudermos pedir emprestado um termo à linguagem da ginástica e outros desportos competitivos.

Aprova A: Pergunte ao Serviço de Estrangeiros

No início de uma década atrás, a Voxy publicou um infográfico (mostrado abaixo), proveniente do Instituto de Serviço de Estrangeiros, que divide a dificuldade linguística para falantes nativos de inglês em três categorias: fácil, média, e dura. A base de comparação era quanto tempo – em termos de semanas de calendário e horas de aprendizagem, atingir “proficiência” seria necessário para diferentes línguas. O sítio qualificou as suas conclusões, observando que a dificuldade dependia da complexidade linguística, de quão próximo estava da própria língua do aprendente (neste caso, o inglês), de quantas horas de aprendizagem por semana, e dos recursos linguísticos disponíveis. Do gráfico parece que a hipótese básica de 25 horas de aprendizagem por semana.

  • Fácil (22-23 semanas, 575-600 horas de aula): As Línguas Românicas (espanhol, português, francês, italiano e romeno) caíram todas neste grupo, juntamente com holandês, africâner, norueguês e sueco
  • Média (44 semanas, 1110 horas de aula): Russo, Polaco, Sérvio, Finlandês, Tailandês e Vietnamita, Grego, Hebraico, e Hindi.
  • Duro (88 semanas, 2220 horas de aula): Chinês, japonês, coreano, árabe

Embora Voxy pretenda claramente que o gráfico seja um instrumento de ensino ou um tema de discussão, não é difícil distinguir os pontos fracos do seu método analítico. Primeiro, quem deve estabelecer a fasquia da “proficiência”? E como medir a qualidade da instrução? Como ter em conta o conhecimento da segunda língua como factor? Para um cientista de dados, os resultados pareceriam decepcionantemente arbitrários.

div>

Photo by Voxy on What Are The Hardest Languages To Learn?

Aplicação B: Pontuação da Dificuldade de Aprendizagem da Língua: A Polyglot’s Approach

Uma abordagem mais intrigante do problema, pelo menos de uma perspectiva de ciência dos dados, é oferecida pelo linguista Michael Campbell em Glossika. Num post de blogue detalhado intitulado apropriadamente “Language Difficulty,” ele concebeu um sistema de pontuação para responder, numericamente, às perguntas precisas que nos intrigam:

  1. Is there an objective method for measuring language difficulty?
  2. What are the most difficult languages in the world?

Distinguindo a abordagem de Campbell é a sua abordagem relativista baseada em dados. A dificuldade linguística baseia-se na semelhança relativa entre quaisquer duas línguas, de acordo com vários critérios de complexidade linguística. Talvez contra-intuitivamente, esta abordagem torna realmente possível uma avaliação objectiva da dificuldade de aprendizagem de línguas, porque se baseia em critérios numéricos que podem ser avaliados objectivamente. Entre os critérios que ele oferece estão:

Aquisição de vocabulário

Esta considerou em relação ao quão próxima a língua está da língua do aprendente.

As línguas são divididas em famílias, ramos, e sub-ramos. Por exemplo, o inglês pertence à língua proto-europeia, à qual línguas como o russo, arménia e grego pertencem todas. Pelo contrário, o árabe, o chinês e o japonês pertencerão a uma família diferente. Dentro do agrupamento indo-europeu, esse ramo, o inglês é uma língua germânico-românica, portanto mais próxima de línguas como o alemão e o francês. Em termos de similaridade, o inglês está mais próximo do alemão, apesar das diferenças gramaticais. Da mesma forma, o português, o espanhol e o italiano pertenceriam ao mesmo ramo, tornando a aprendizagem de línguas mais fácil. A Campbell atribui grande importância a este critério, com a dificuldade de aprendizagem de línguas reflectida em números exponencialmente mais elevados. O mesmo ramo de subfilial: 0 pontos. Subprofissão diferente: 1 ponto. Diferentes ramos: 10 pontos. Família diferente: 100 pontos.

Sintaxe e Gramática para a Fluência

Campbell, um linguista por profissão. decompõe-se numa lista de factores, tais como

  • Tipo de língua
  • Ordem de Subject-Verb-Objecto
  • Ordem de substantivo-ajectivo
  • Genitivo (possuidor) – Ordem de substantivo
  • Determinador-Ordem de substantivo
  • Relativa (cláusula) – Ordem de substantivo
  • Nome Declinação
  • Temposs//li>>li>Conjugação
  • Adicionamento

Para cada um destes critérios, A Campbell atribui 1 ponto mais ou menos se houver uma diferença entre as línguas. Os resultados dos seus cálculos são apresentados numa matriz:

Matrix derivada de The Glossika Blog

Comparando as linhas desta matriz, pode atribuir uma pontuação às diferenças sintácticas e gramaticais entre duas línguas e, portanto, à dificuldade de aprender de uma dada língua. A pontuação de dificuldade para um falante alemão que aprende francês seria de 6 pontos, um falante japonês que aprende espanhol 13 pontos, e um falante chinês que aprende polaco um impressionante 34 pontos.

Phonology for Fluency

Campbell’s calculations account for the difference in total phonemes (written sounds) and allophones (the sounds people say), considerando 12 pontos de articulação e o número de vogais e entoações.

Matrix derived from The Glossika Blog

De acordo com esta matriz, A comparação de filas permite calcular a dificuldade linguística em relação a estes critérios fonológicos. A pontuação de dificuldade para um falante alemão que aprende francês seria 1 ponto, um falante japonês que aprende espanhol 11 pontos, e um falante chinês que aprende polaco 15 pontos.

Cientistas de dados notarão que as pontuações atribuídas a vários parâmetros são arbitrárias e subjectivas, mas há mérito na tentativa de decompor os graus de dificuldade em factores componentes.

Por exemplo, para um falante de inglês, as seguintes são as pontuações atribuídas de acordo com a família linguística:

Matrix derivada de The Glossika Blog

É difícil conciliar uma pontuação 0 em alemão (So einfach ist das?) com uma pontuação de 5 em francês ou espanhol. E o georgiano é realmente 10 vezes mais difícil de adquirir vocabulário do que o polaco? Portanto, a enumeração específica está certamente aberta à fine-turning, embora o método seja intrigante – se um pouco áspero nas bordas.

The Final Reckoning: O que é único no Ubykh?

O seu artigo de 2016 concluiu com uma lista de algumas das línguas mais difíceis. Mencionou, a este respeito, a língua romana dos ciganos europeus, que nem sequer estão escritas, e o Sentinelês, a língua da ilha do Pacífico onde os aspirantes a visitantes são mortos à chegada, línguas polissintéticas como o Gronelandês, e o Ubykh, com nada menos do que 84 consoantes. Uma menção honrosa vai para Bella Coola, uma língua só é escrita por linguistas para registar a gramática.

Dois anos mais tarde, Campbell escreveu uma peça de seguimento aplicando o seu sistema de pontuação e comparando-a com as classificações FSI.

Matriz derivada do Blog Glossika

Non-Os linguistas podem não se sentir satisfeitos com a forma desdenhosa com que o autor fala tailandês, Vietnamitas, turcos e finlandeses como “fáceis” – excepto, apressa-se a dizer, pelos seus vocabulários absolutamente desconhecidos. Confessa surpresa que, de acordo com o seu sistema de classificação, os coreanos batem os taiwaneses em dificuldades. Mas ele credita o Ubykh, uma língua circassiana extinta, como deixando até o coreano no pó.

Aqui pode aprender números Ubykh e ouvir um conto de futilidade que deve apelar a todos os cientistas de dados – em qualquer língua.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *