Tools

News

Notícias

Classificados

Cursos

Broker

IPv4:

IPv6:

 

UpOrDown
Ping
MTR
Smokeping
MTU Detect
Portscan
DNS
HTTP/SSL
My IP
IP Calc
IP Extractor
Uptime Monitor

Brasil participa de teste supremo de IA

Image © Convergenciadigital
Pesquisadores de mais de 40 países, com participação brasileira, apresentaram o Humanity’s Last Exam (HLE), um benchmark projetado para testar o desempenho de sistemas de IA com alta precisão.

Pesquisadores de mais de 40 países, com participação brasileira, divulgaram o Humanity’s Last Exam (HLE), um banco de dados criado para testar com alta precisão os sistemas de inteligência artificial. Batizado de HLE, o conjunto reúne cerca de 2,5 mil questões distribuídas por dezenas de áreas do conhecimento e foi apresentado em publicação associada à revista Nature em janeiro.

O objetivo do HLE é medir o avanço dos modelos de IA, especialmente os chamados LLMs (Large Language Models), que processam e geram texto de forma similar à linguagem humana. A iniciativa amplia o conjunto de métricas existentes, ao oferecer uma referência adicional para comparar o desempenho de diferentes modelos frente a benchmarks como SWE-Bench, GPQA Diamond e FrontierMath.

De acordo com os autores, a proposta é criar o que chamam de benchmark supremo. À medida que novos modelos são desenvolvidos, o HLE permitirá avaliar o quanto evoluem com base em seu desempenho, possibilitando comparações com outros exames semelhantes.

Entre as características do HLE está a existência de uma única resposta final e uma verificação simples, o que facilita a automatização do envio das questões aos modelos de IA por meio de scripts padronizados. O sistema, então, extrai a resposta gerada e a compara com o gabarito oficial para calcular a taxa de acertos.

As questões abrangem matemática, ciências naturais, humanidades e outras áreas, permitindo avaliar um amplo conjunto de habilidades, desde senso comum e conhecimento geral até competências técnicas avançadas.

O HLE está disponível ao público no site lastexam.ai, com potencial de subsidiar pesquisas acadêmicas e formulação de políticas públicas, ao oferecer um parâmetro claro para compreender as capacidades atuais dos modelos de IA. O artigo que descreve o benchmark intitula-se “A benchmark of expert-level academic questions to assess AI capabilities” e é assinado pelo Center for AI Safety, pela Scale AI (SIS) e pelo HLE Contributors Consortium. No Instituto de Ciências Matemáticas e da Computação da USP, a pesquisa contou com a colaboração de Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior.

 

Convergenciadigital

Related News

Cyberattack Risks Rising as Iran Conflict Prolongs
FCC Clears Charter-Cox $34.5B Deal
Merkle Certificates Enable Quantum-Resistant HTTPS
USF Reform: Rentals Seek Fairer Broadband Aid
Jeffery to Join Charter as COO
Truvista Names Michelle Harvey VP of Marketing

ISP.Tools survives thanks to ads.

Consider disabling your ad blocker.
We promise not to be intrusive.

Cookie Consent

We use cookies to improve your experience on our site.

By using our site you consent to cookies. Learn more