Benchmark IA Imagem gerada por Inteligência Artificial

Benchmarks de IA ganham acesso público

2 minutos de leitura

Com código aberto, a ferramenta da chinesa HongShan Capital Group testa modelos de inteligência artificial em tarefas do mundo real



Por Redação em 04/08/2025

A empresa chinesa de capital de risco HongShan Capital Group liberou o uso de um conjunto de testes para avaliar soluções baseadas em inteligência artificial. Também conhecidos como testes de benchmarking, eles agora podem ser usados por qualquer pessoa, mesmo sem conhecimentos técnicos avançados. 

No mercado de IA, os benchmarks são amplamente utilizados para avaliar a eficácia de suas ferramentas. A forma mais comum de divulgação desses dados envolve relatórios com gráficos, médias de avaliação e comparações do recurso analisado com tecnologias similares.

A inovação da empresa chinesa está na proposta do Xbench, segundo reportagem da Technology Review. Em vez de aplicar testes padronizados, a ferramenta analisa a execução de tarefas do cotidiano pelas ferramentas de IA. Nem todo o Xbench estará disponível, mas sim parte do conjunto de perguntas, em código aberto, sem cobrança para uso.

A equipe que desenvolveu o teste de inteligência também lançou uma tabela de classificação que compara os desempenhos dos principais modelos de IA testados. O resultado mostra que o ChatGPT ficou em primeiro lugar em todas as categorias. Outros modelos, como Doubao, Gemini 2.5 Pro, Grok (ByteDance) e Claude Sonnet, também obtiveram boas análises, de acordo com a revista do MIT.

Como o Xbench mede a inteligência 

Os métodos do Xbench para avaliar a inteligência bruta incluem dois componentes: Xbench-ScienceQA e Xbench-DeepResearch.

O ScienceQA não representa uma mudança radical em relação aos benchmarks existentes para pós-graduação e inclui questões que abrangem áreas como bioquímica e mecânica orbital, elaboradas por alunos e revisadas por professores. A pontuação recompensa não apenas a resposta correta, mas também a lógica utilizada para chegar até ela.

Já o DeepResearch mede a capacidade do modelo de navegar na web em chinês. Dez especialistas no assunto criaram cem perguntas sobre música, história, finanças e literatura. São questões que não podem ser respondidas apenas com uma busca online, mas exigem uma pesquisa significativa. A pontuação prioriza a amplitude das fontes, a consistência dos dados e a disposição do modelo em admitir quando não há informações suficientes para responder. 



Matérias relacionadas

Profissional de cibersegurança analisando proteção de dados com elementos visuais de segurança digital, reforçando a importância da governança e controle em IA com Netskope em 2026. Inovação

Cibersegurança em 2026 exigirá governança, resiliência e controle sobre IA

Uso intensivo de IA, avanço da computação quântica e maior pressão regulatória aceleram o amadurecimento da segurança digital e da governança de dados

Profissional usando tecnologia de IA na automação de processos, com painéis digitais e um laptop, destacando inovação e eficiência na gestão de tarefas. Inovação

IA na automação de processos precisa “fazer sentido”

Nível de maturidade da empresa e da equipe que vai utilizar a ferramenta são os dois principais parâmetros para a escolha

Mulher jovem usando smartphone na rua com ilustrações de IA e fumaça roxa, simbolizando a adoção de inteligência artificial no Brasil e suas desigualdades Inovação

IA é adotada por 32% e desigualdade preocupa pesquisadores

Diferenças entre dispositivos, tipos de conexão e letramento restringem benefícios da massificação do acesso à Internet, revela levantamento do Cetic.br

Líder em cenário de incerteza trabalhando com foco utilizando laptop em ambiente de escritório moderno com vista urbana ao fundo. Inovação

Pessoas estão no centro das incertezas e das possibilidades de adaptação

Em um cenário marcado por imprevisibilidade e resistências naturais, liderança e colaboração definem resultados diante de transformações rápidas, diz futurista

    Embratel agora é Claro empresas Saiba mais