Tools

News

Notícias

Classificados

Cursos

Broker

IPv4:

IPv6:

 

UpOrDown
Ping
MTR
Smokeping
MTU Detect
Portscan
DNS
HTTP/SSL
My IP
IP Calc
IP Extractor
Uptime Monitor

Brasil participa de teste supremo de IA

Image © Convergenciadigital
Pesquisadores de mais de 40 países, com participação brasileira, apresentaram o Humanity’s Last Exam (HLE), um benchmark projetado para testar o desempenho de sistemas de IA com alta precisão.

Pesquisadores de mais de 40 países, com participação brasileira, divulgaram o Humanity’s Last Exam (HLE), um banco de dados criado para testar com alta precisão os sistemas de inteligência artificial. Batizado de HLE, o conjunto reúne cerca de 2,5 mil questões distribuídas por dezenas de áreas do conhecimento e foi apresentado em publicação associada à revista Nature em janeiro.

O objetivo do HLE é medir o avanço dos modelos de IA, especialmente os chamados LLMs (Large Language Models), que processam e geram texto de forma similar à linguagem humana. A iniciativa amplia o conjunto de métricas existentes, ao oferecer uma referência adicional para comparar o desempenho de diferentes modelos frente a benchmarks como SWE-Bench, GPQA Diamond e FrontierMath.

De acordo com os autores, a proposta é criar o que chamam de benchmark supremo. À medida que novos modelos são desenvolvidos, o HLE permitirá avaliar o quanto evoluem com base em seu desempenho, possibilitando comparações com outros exames semelhantes.

Entre as características do HLE está a existência de uma única resposta final e uma verificação simples, o que facilita a automatização do envio das questões aos modelos de IA por meio de scripts padronizados. O sistema, então, extrai a resposta gerada e a compara com o gabarito oficial para calcular a taxa de acertos.

As questões abrangem matemática, ciências naturais, humanidades e outras áreas, permitindo avaliar um amplo conjunto de habilidades, desde senso comum e conhecimento geral até competências técnicas avançadas.

O HLE está disponível ao público no site lastexam.ai, com potencial de subsidiar pesquisas acadêmicas e formulação de políticas públicas, ao oferecer um parâmetro claro para compreender as capacidades atuais dos modelos de IA. O artigo que descreve o benchmark intitula-se “A benchmark of expert-level academic questions to assess AI capabilities” e é assinado pelo Center for AI Safety, pela Scale AI (SIS) e pelo HLE Contributors Consortium. No Instituto de Ciências Matemáticas e da Computação da USP, a pesquisa contou com a colaboração de Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior.

 

Convergenciadigital

Notícias relacionadas

TIM e Nokia ampliam AI RAN 5G com NVIDIA
NEO defende regulação previsível para nova fase regional
Starlink Mobile mira 25 milhões até 2026
IA, serviços digitais e B2B elevam PIB global até 2030
MWC 2026: Fraudes cibernéticas e Confiança Digital
Mobilidade móvel soma US$11,3 trilhões até 2030

O ISP.Tools sobrevive graças aos anúncios.

Considere desativar seu bloqueador de anúncios.
Prometemos não ser intrusivos.

Consentimento para cookies

Utilizamos cookies para melhorar a sua experiência no nosso site.

Ao utilizar o nosso site, você concorda com o uso de cookies. Saiba mais