À medida que os sistemas de inteligência artificial começaram a obter pontuações extremamente elevadas em benchmarks académicos há muito utilizados, os investigadores notaram um problema crescente. Os testes que antes desafiavam a máquina já não eram suficientemente difíceis. Avaliações bem conhecidas, como o teste Massive Multitask Language Understanding (MMLU), que antes eram vistas como exigentes, agora não conseguem medir com precisão as capacidades dos atuais modelos avançados de IA.
Para resolver este problema, uma equipa global de cerca de 1.000 investigadores, incluindo um professor da Texas A&M University, desenvolveu um novo tipo de teste. O seu objetivo era criar um teste que fosse amplo, robusto e baseado no conhecimento humano especializado, de uma forma que os atuais sistemas de IA ainda têm dificuldade em gerir.
O resultado é o “Exame Final de Humanidades” (HLE), uma avaliação de 2.500 questões que abrange uma ampla gama de matemática, humanidades, ciências naturais, línguas antigas e áreas acadêmicas altamente especializadas. Detalhes do projeto aparecem em um artigo publicado a naturezae informações adicionais sobre o teste estão disponíveis lastexam.ai.
Entre os muitos colaboradores está o Dr. Tung Nguyen, professor associado instrucional do Departamento de Ciência da Computação e Engenharia da Texas A&M. Nguyen ajudou a escrever e refinar muitas das questões do exame.
“Quando os sistemas de IA começam a funcionar extremamente bem segundo os padrões humanos, é tentador pensar que atingiram a compreensão do nível humano”, disse Nguyen. “Mas o HLE nos lembra que a inteligência não se trata apenas de reconhecimento de padrões – trata-se de profundidade, contexto e habilidades especializadas.”
O objetivo do teste não era enganar ou derrotar os participantes humanos. Em vez disso, o objetivo era identificar cuidadosamente as áreas onde os sistemas de IA ainda são insuficientes.
Um esforço global para medir os limites da IA
Especialistas de todo o mundo escreveram e revisaram as questões incluídas no último exame de humanidades. Cada problema foi cuidadosamente projetado para ter uma resposta clara e verificável. Também foram formuladas perguntas para evitar soluções rápidas através de simples buscas na internet.
Os tópicos variam de desafios acadêmicos avançados. Algumas tarefas traduzem inscrições antigas de Palmira, outras exigem a identificação de pequenas estruturas anatômicas de pássaros ou a análise das características detalhadas da pronúncia do hebraico bíblico.
Os pesquisadores testaram cada questão em relação aos principais sistemas de IA. Se um modelo conseguisse responder corretamente a uma questão, essa questão era retirada do teste final. Este processo garantiu que o teste fosse além do que os sistemas atuais de IA poderiam resolver de forma confiável.
Os testes iniciais confirmaram que a estratégia funcionou. Mesmo os modelos de IA mais fortes tiveram dificuldades com o experimento. O GPT-4o alcançou uma pontuação de 2,7 por cento, enquanto o Claude 3.5 Sonnet atingiu 4,1 por cento. O modelo o1 da OpenAI teve um desempenho ligeiramente melhor, com 8%. Os sistemas mais capazes até o momento, incluindo o Gemini 3.1 Pro e o Claude Opus 4.6, atingiram níveis de precisão entre cerca de 40% e 50%.
Por que são necessários novos benchmarks de IA
Nguyen explicou que a questão da superação dos testes antigos é mais do que uma preocupação técnica. Ele contribuiu com 73 das 2.500 questões publicamente disponíveis no HLE, o segundo maior número de colaboradores, e escreveu o maior número de questões relacionadas à matemática e à ciência da computação.
“Sem as ferramentas de avaliação adequadas, os decisores políticos, os desenvolvedores e os utilizadores correm o risco de interpretar mal o que os sistemas de IA podem realmente fazer”, disse ele. “Os benchmarks fornecem a base para medir o progresso e identificar riscos.”
De acordo com a equipe de pesquisa, pontuações altas em testes desenvolvidos para humanos não indicam necessariamente inteligência verdadeira. Esses benchmarks medem principalmente até que ponto a IA pode concluir tarefas específicas projetadas para alunos humanos, em vez de capturar uma compreensão profunda.
Não é uma ameaça, mas uma ferramenta
Apesar do nome dramático, Último Exame da Humanidade não implica que os humanos estejam se tornando obsoletos. Em vez disso, destaca a vasta quantidade de conhecimentos e competências que ainda permanecem exclusivamente humanos.
“Esta não é uma corrida contra a IA”, disse Nguyen. “É uma forma de compreender onde estes sistemas são fortes e onde enfrentam dificuldades. Esta compreensão ajuda-nos a construir tecnologias mais seguras e fiáveis.
Criando um benchmark de IA de longo prazo
O Último Exame da Humanidade foi concebido para servir como uma referência sustentável e transparente para futuros sistemas de IA. Para apoiar esse objetivo, os pesquisadores tornaram públicas algumas perguntas, mas ocultaram a maioria para que os modelos de IA não pudessem apenas memorizar as respostas.
“Até agora, The Last Experiment in Humanity é uma das avaliações mais claras da lacuna entre a IA e a inteligência humana”, disse Nguyen, “e apesar dos rápidos avanços tecnológicos, continua ampla”.
Um enorme esforço de pesquisa internacional
Nguyen enfatizou que a escala do projeto demonstra o valor da colaboração entre disciplinas e países.
“O que tornou este projeto extraordinário foi a escala”, disse ele. “Especialistas de quase todas as disciplinas contribuíram. Não foram apenas cientistas da computação; foram historiadores, físicos, linguistas, pesquisadores médicos. É essa diversidade que expõe as lacunas nos sistemas de IA de hoje – talvez ironicamente, são os humanos trabalhando juntos.”



