Pesquisadores de mais de 40 países, com participação brasileira, divulgaram o Humanity’s Last Exam (HLE), um banco de dados criado para testar com alta precisão os sistemas de inteligência artificial. Batizado de HLE, o conjunto reúne cerca de 2,5 mil questões distribuídas por dezenas de áreas do conhecimento e foi apresentado em publicação associada à revista Nature em janeiro.
O objetivo do HLE é medir o avanço dos modelos de IA, especialmente os chamados LLMs (Large Language Models), que processam e geram texto de forma similar à linguagem humana. A iniciativa amplia o conjunto de métricas existentes, ao oferecer uma referência adicional para comparar o desempenho de diferentes modelos frente a benchmarks como SWE-Bench, GPQA Diamond e FrontierMath.
De acordo com os autores, a proposta é criar o que chamam de benchmark supremo. À medida que novos modelos são desenvolvidos, o HLE permitirá avaliar o quanto evoluem com base em seu desempenho, possibilitando comparações com outros exames semelhantes.
Entre as características do HLE está a existência de uma única resposta final e uma verificação simples, o que facilita a automatização do envio das questões aos modelos de IA por meio de scripts padronizados. O sistema, então, extrai a resposta gerada e a compara com o gabarito oficial para calcular a taxa de acertos.
As questões abrangem matemática, ciências naturais, humanidades e outras áreas, permitindo avaliar um amplo conjunto de habilidades, desde senso comum e conhecimento geral até competências técnicas avançadas.
O HLE está disponível ao público no site lastexam.ai, com potencial de subsidiar pesquisas acadêmicas e formulação de políticas públicas, ao oferecer um parâmetro claro para compreender as capacidades atuais dos modelos de IA. O artigo que descreve o benchmark intitula-se “A benchmark of expert-level academic questions to assess AI capabilities” e é assinado pelo Center for AI Safety, pela Scale AI (SIS) e pelo HLE Contributors Consortium. No Instituto de Ciências Matemáticas e da Computação da USP, a pesquisa contou com a colaboração de Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior.