« (...) A Tradução Automática de base estatística ganhou a corrida, muito devido à atual capacidade de armazenamento digital, potenciada pelos avanços da ciência e da tecnologia e pela internet. (...)»
Warren Weaver foi um matemático que, durante a II Guerra Mundial, chefiou o Painel de Matemática Aplicada (EUA), desenvolvendo investigação ligada à criptografia. Consciente dos problemas de design de computadores e das velocidade, capacidade e flexibilidade lógica do seu processamento, Weaver concebeu a ideia de os usar para a tradução entre línguas, e dela deu conta a Norbert Wiener, professor do MIT, em famoso memorando de 1947, onde refere e.g. que a tradução é um dos mais sérios problemas enfrentados pela UNESCO para a consolidação da paz. De resto, multinacionais e organizações internacionais são quem mais investe em tradução.
Um dos maiores desafios que enfrenta o processamento da linguagem natural, e consequentemente a tradução automática (TA), é a cabal descodificação da ambiguidade linguística, intrínseca às línguas naturais, apenas acessível a humanos.
A TA teve início em Portugal em 1986, com o projeto europeu EUROTRA, cujo parceiro português foi o então Instituto de Linguística Teórica e Computacional (ILTEC, associação de universidades, Academia das Ciências de Lisboa e JNICT/FCT), a que Maria Helena Mira Mateus presidiu até 2012. O EUROTRA baseava-se naquilo a que podemos chamar TA de base linguística (grosso modo, transformação de estruturas sintáticas povoadas de palavras produzidas numa língua-fonte em estruturas equivalentes numa língua-alvo). As línguas envolvidas no projeto eram "só" nove; os versados em matemática calculem quantos pares de línguas são possíveis.
O EUROTRA falhou o objetivo de criar um protótipo pré-industrial para TA, por escassez de descrições linguísticas "computacionáveis" e limitações tecnológicas. Porém, é inegável o seu impacto na linguística portuguesa, originando uma série de descrições linguísticas basilares, bem como o desenvolvimento da linguística computacional.
A TA de base linguística opunha-se à TA de base estatística (grosso modo, cálculo das probabilidades de uma expressão XF da língua-fonte ser traduzível pela expressão XA da língua-alvo). A TA de base estatística ganhou a corrida, muito devido à atual capacidade de armazenamento digital, potenciada pelos avanços da ciência e da tecnologia e pela internet.
Entende-se a existência de diversas aplicações gratuitas baseadas neste tipo de TA, destacando-se o Google Tradutor (GT), provavelmente o mais usado e eficiente, até porque a Google possui a maior base de dados de documentos conhecida. O GT é muito usado como base do trabalho de tradução, contribuindo para a desvalorização da tradução humana, como bem sentem os tradutores. Quando a ele se recorre é, no entanto, preciso ter em mente que: a) a eficiência do GT é proporcional à quantidade de dados disponíveis para as línguas-alvo e fonte envolvidas, com o inglês à cabeça; b) a versão gratuita do GT é uma versão beta da aplicação; c) o GT é adequado à tradução (escrita) e não à interpretação (oral), bem mais complexa; d) o GT está longe de substituir a tradução humana, e muito menos a interpretação, simultânea ou consecutiva.
Parecerá tão obtuso trazer hoje este tema à colação quanto ontem [21 de fevereiro de 2021] se celebrou o Dia Internacional da Língua Materna. Mas o que vamos ouvindo e lendo demonstra à exaustão a credulidade que existe em torno do GT e confere valor ao fator humano na tradução, assim como às línguas, sejam maternas, segundas ou estrangeiras, na vida de todos nós.
Cf. As dificuldade da tradução + Um livro em várias traduções
Crónica da autora publicada no jornal Diário de Notícias em 21 de fevereiro de 2021.