O que nos faz humanos - Diversidades - Ciberdúvidas da Língua Portuguesa
Início Outros Diversidades Artigo
O que nos faz humanos
O que nos faz humanos
Máquinas que falam e o modelo estatístico do sistema GPT-3

«Foi a linguagem que levou ao desenvolvimento da capacidade de raciocínio que caracteriza o ser humano, conduzindo ao desenvolvimento de cérebros cada vez mais complexos e poderosos, que criaram a cultura e civilização

 

1558339400435_Claramente.pngNas palavras de Octavio Paz [1914-1998], poeta e ensaísta mexicano, vencedor do Prémio Nobel da Literatura em 1990, a linguagem é o que nos faz humanos. É o domínio da linguagem, a capacidade de combinar símbolos num número infinito de sequências, que nos permite comunicar, entre seres humanos e entre gerações, conceitos arbitrariamente complexos. Mas é mais do que isso, porque foi a linguagem que levou ao desenvolvimento da capacidade de raciocínio que caracteriza o ser humano, conduzindo ao desenvolvimento de cérebros cada vez mais complexos e poderosos, que criaram a cultura e civilização. Usamos a linguagem não só para comunicar com os outros, mas também para pensar, para raciocinar, para planear e para expressar, interna ou externamente, emoções e sentimentos. É difícil imaginar inteligência sem linguagem.

Quando Alan Turing [1912-1954], no influente artigo que publicou em 1950, propôs um teste que pudesse ser usado para determinar se uma máquina era ou não inteligente, focou-se exactamente na capacidade de uma máquina dominar a linguagem. Ser capaz de sustentar uma conversa, em linguagem natural, sem assunto pré-determinado e sem quaisquer limitações demonstraria, de acordo com Alan Turing, que essa máquina era inteligente.

Não é assim de estranhar que a capacidade para entender e comunicar em linguagem natural tenha sido um dos mais importantes objectivos da área da Inteligência Artificial, que começou a desenvolver-se na segunda metade do século passado. A construção de programas que conseguissem dialogar em linguagem corrente foi um dos primeiros objectivos dos investigadores desta área, e continua a ser, ainda hoje, uma ambição importante e apenas parcialmente atingida.

As primeiras abordagens assumiram que a linguagem obedecia a um conjunto de regras gramaticais rígidas, embora complexas, e que a criação de programas que obedecessem a estas regras conduziria, inevitavelmente, a sistemas com competências linguísticas semelhantes aos dos seres humanos. Porém, tal como tantas outras tarefas que exigem inteligência, a capacidade para processar linguagem natural, falada ou escrita, veio a revelar-se difícil de programar em computador. As gramáticas que realmente usamos vieram a revelar-se inesperadamente complexas e as sempre presentes ambiguidades da linguagem são, afinal, muito mais difíceis de resolver do que inicialmente esperado. Por exemplo, a curta frase, em inglês, Time flies like an arrow [1] é muitas vezes usada para ilustrar a ambiguidade da linguagem, já que tem pelo menos cinco interpretações possíveis. Ao contrário do que se antecipou, é extremamente difícil fazer a análise de um texto e traduzi-lo, por análise gramatical, num conjunto estruturado e explícito de relações entre conceitos que permita a um programa determinar o seu significado. No caso da língua falada, o problema é ainda mais complexo por causa da existência de ruído ambiente, do uso de interjeições e da importância das expressões faciais e entoações.

Apesar do enorme esforço que foi colocado na construção de gramáticas, de corpora (conjuntos de documentos, anotados e documentados) e de sistemas experimentais, as abordagens que vieram a conhecer mais sucesso acabaram por ser as abordagens estatísticas. Em vez de construírem complexas gramáticas, rígidas e estruturadas, e as usarem para subsequente análise gramatical, os sistemas que vieram a ter mais sucesso compilaram estatísticas de milhões de textos disponíveis, e determinaram assim relações probabilísticas entre sequências de palavras que podem ser usadas em diversas tarefas, tais como a tradução automática, a sumarização de textos ou a resposta a questões. À medida que estes sistemas, cada vez mais complexos, coligiram mais e mais estatísticas, o seu desempenho melhorou progressivamente em muitas destas tarefas.

O mais recente e poderoso destes sistemas é conhecido pela obscura sigla GPT-3 (Generative Pre-trained Transformer 3) e é um modelo de linguagem, criado pela empresa OpenAI, que captura as relações estatísticas que determinam a co-ocorrência de palavras (o que se designa por modelo generativo), pré-treinado num grande conjunto de textos e baseado numa arquitectura de redes neuronais, os “transformadores”, que se tornou popular desde que foi proposta em 2017. Trata-se de um modelo muito complexo, que usa cerca de 175 mil milhões de parâmetros para representar as relações probabilísticas entre palavras, parâmetros estes que codificam a força da interligação entre cada dois neurónios artificiais do modelo. O modelo foi treinado num vastíssimo conjunto de textos, com um total que se aproxima de meio bilião de palavras, o que corresponde aproximadamente a cinco milhões de livros de dimensão média.

Embora a criação do modelo seja, em si, um resultado notável, ainda mais notáveis são os resultados que se obtêm quando se usa o modelo em diversas tarefas como, por exemplo, criar textos, responder a perguntas ou, mesmo, escrever um programa de computador. Por exemplo, pode-se pedir ao GPT-3 que diga qual é o quadro famoso de uma mulher com um sorriso enigmático, que preveja as consequências de uma pandemia ou que escreva um texto sobre amor e traição. Baseado apenas no modelo estatístico de que dispõe, o sistema responde a estes desafios com textos que são, simultaneamente, coerentes, complexos e reveladores de uma aparentemente profunda compreensão do mundo. Por vezes, é certo, é possível descortinar incoerências nas respostas e nos textos, especialmente nos mais longos mas, de uma forma geral, os textos revelam grande coerência e alguma profundidade. O leitor interessado poderá facilmente consultar alguns destes textos, publicados por jornais como o New York Times, o Guardian ou o Economist, entre tantos outros. De facto, o modelo é tão poderoso, que os seus criadores não o disponibilizam para uso geral, e apenas dão acesso de uma forma limitada a um conjunto de pessoas e instituições. Tal poderá dever-se, em parte, ao medo de que seja usado como ferramenta para a geração de textos e notícias falsas, mas também, seguramente, ao interesse em restringir a sua utilização não comercial.

Uma vez que conhecemos o modelo matemático, sabemos bem que não existe verdadeira inteligência por trás do mesmo. O modelo do mundo que permite ao sistema criar textos verosímeis e convincentes não é, seguramente, semelhante ou paralelo ao que cada um de nós tem. O GPT-3 pode descrever, convincentemente, um lindo pôr-do-sol, a beleza de um arco-íris ou a intensidade de uma paixão mas nós sabemos que, no fundo, isto é o resultado de um processo de inferência estatística feita de acordo com regras matemáticas bem determinadas, implícitas no modelo matemático. Por outro lado, os neurónios biológicos do cérebro humano, que nos permitem escrever discursos elaborados, dirimir argumentos complexos ou evocar emoções intensas também estão, apenas, a respeitar as leis da Física. Ao fazê-lo, geram sequências de símbolos de acordo com regras estatísticas codificadas nos milhares de biliões de sinapses que interligam esses neurónios e num número de outras estruturas que compõem o cérebro humano. No fim, talvez a riqueza do espírito humano, presente na mente de cada um de nós, não tenha uma natureza assim tão diferente das regras matemáticas que estão codificadas nos números do modelo estatístico do GPT-3.

 

[N. E. – A frase time flies like an arrow, que glosa a expressão latina tempus fugit («o tempo voa/corre»), costuma ser seguida de fruit flies like a banana. Trata-se de um jogo de palavras usado em linguística, em que a primeira frase é ambígua: numa primeira análise, espera-se que ela seja equivalente a «o tempo voa como uma seta»; mas a associação à segunda frase – fruit flies like a banana, ou seja, «as moscas da fruta gostam de uma banana» – leva a interpretar time flies like an arrow como «as moscas do tempo gostam de uma seta». Esta frase ambígua pode ter ainda três outras interpretações, todas imperativas: «mede a velocidade das moscas como medes a velocidade de uma seta», «mede a velocidade das moscas da maneira como uma seta mede» e «mede a velocidade das moscas que são como uma seta». Consulte-se o artigo que a Wikipédia em inglês dedica a este jogo de linguagem: "Time flies like an arrow; fruit flies like a banana".]

Fonte

Artigo incluído no jornal Público em 03/05/2021 (mantém-se a norma ortográfica de 1945, seguida pelo original).

Sobre o autor

(Negage, Angola, 1963) licenciado em engenharia pelo Instituto Superior Técnico (IST) e doutorado pela Universidade da Califórnia, Berkeley. Presidente do IST entre janeiro de 2012 e dezembro de 2019. Presidente do INESC no biénio de 202/2021. Académico, investigador e escritor, é autor de numerosos artigos científicos e de dois livros: The Digital Mind (MIT Press e IST Press), e Inteligência Artificial (Fundação Francisco Manuel dos Santos).  É ainda co-autor de  Computer Architecture (World Scientific e IST Press).