Avaliar em tempos de Inteligência Artificial
Entre o teste tradicional e a adaptação aos tempos modernos
Com o aproximar do final do ano letivo e do início da época de exames, surge a oportunidade de refletir sobre os desafios que existem em avaliar nos tempos de hoje, isto é, nos tempos em que parece imperar a Inteligência Artificial (IA) generativa. Neste sentido, gostaria de começar este texto por contar uma história que remonta a uma discussão que tive há poucas semanas com colegas, futuros professores de Português. Nessa conversa discutiam-se estratégias para contornar a possibilidade de os nossos alunos recorrerem à IA durante os testes. Um dos meus colegas constatou que a cópia e, de um modo mais lato, as estratégias para “se safar” com o mínimo esforço sempre existiram, o que de facto não deixa de ser verdade, pois as histórias sobre formas astutas de copiar durante um teste sempre existiram. Nos meus tempos de estudante, havia a Wikipédia, havia as cábulas minuciosamente preparadas e, para quem era mais engenhoso, até as calculadoras gráficas serviam de esconderijo para pequenos resumos de última hora (confesso que, no meu caso, essas tentativas raramente resultaram). Portanto, a tentativa de contornar as regras não é nova, o que muda são apenas os instrumentos. Por esta razão, talvez o problema não resida tanto nos alunos ou na tecnologia, mas na forma como continuamos a avaliar, que, em muitos aspetos, pouco se alterou ao longo de décadas, para não dizer séculos.
É neste ponto que a questão se adensa. Ainda faz sentido o teste tradicional, tal como o conhecemos? Num contexto em que um enunciado pode ser integralmente introduzido numa ferramenta de IA generativa, obtendo respostas corretas, estruturadas e linguisticamente adequadas em questão de segundos, o que estamos exatamente a avaliar? O verdadeiro conhecimento do aluno ou a sua capacidade de pedir a uma máquina que produza algo por ele?
O teste escrito, assente sobretudo na memorização de saberes e na aplicação relativamente previsível de conhecimentos, parece hoje confrontado com uma fragilidade inédita, isto é, deixou de garantir, por si só, que o desempenho apresentado corresponda efetivamente ao trabalho intelectual do aluno. Ora, se assim é, devemos continuar a atribuir a estas formas de avaliar um grande peso?
Alguns poderão defender que a resposta passa por um regresso, ou pelo menos por um reforço, da avaliação oral. De facto, a oralidade permite, em princípio, um contacto mais direto com o pensamento do aluno, uma vez que exige formulação em tempo real, capacidade de argumentação, domínio de conceitos sem rede de apoio invisível. Contudo, também aqui importa cautela. A avaliação oral, embora rica, não é isenta de problemas, já que pode ser mais sujeita a subjetividade, para além de ser mais exigente do ponto de vista operacional. Deste modo, repensar a avaliação nos dias de hoje não deve estar na sugestão da substituição de um modelo por outro, mas na tentativa de encontrar um equilíbrio entre diferentes modalidades de avaliar.
Neste sentido, talvez a questão central não seja tanto «como evitar que os alunos usem IA», mas antes «o que queremos efetivamente avaliar». Se aceitarmos que a IA faz, e fará cada vez melhor, certas tarefas tradicionalmente valorizadas em contexto escolar (como resumir, explicar ou até redigir textos), então talvez devamos deslocar o foco da avaliação. Avaliar passaria menos por verificar se o aluno consegue reproduzir uma resposta correta e mais por perceber se sabe formular boas perguntas, interpretar criticamente as respostas obtidas, estabelecer ligações, justificar escolhas e, sobretudo, demonstrar compreensão.
Neste contexto, torna-se mais pertinente falar de uma avaliação contínua, em detrimento de uma avaliação meramente pontual, que assente na realização de trabalhos acompanhados em sala de aula, projetos ou portefólios. Neste caso, ganha relevo o estabelecimento de critérios de avaliação diversificados, capazes de valorizar não apenas o resultado final, mas todo o percurso do aluno. Assim, o foco deixa de estar exclusivamente na “fotografia” de um desempenho num momento isolado e passa a centrar-se no caminho trilhado ao longo do processo de aprendizagem.
No fundo, a ferramentas como IA generativa não eliminam os problemas antigos da avaliação, torna-os, ao invés, mais visíveis e mais urgentes, o que nos obriga a questionar práticas instaladas e, talvez, a abandonar uma certa ilusão de controlo absoluto sobre o processo avaliativo e a aceitar maior complexidade. Na prática, isto coloca-nos perante uma escolha, ou tentamos defender, com novos mecanismos, um modelo que se esgota, ou arriscamos a repensar, com espírito crítico, aquilo que entendemos por avaliar.
No final de contas, tal como sugeriu o meu colega, a vontade de contornar regras é intrinsecamente humana. No entanto, a forma como desenhamos essas regras, ou seja, o que valorizamos quando avaliamos, também o é. O que significa que a decisão sobre o que avaliamos ou não continua a estar nas nossas mãos.
