As ferramentas de inteligência artificial atualmente disponíveis ainda estão “na infância” em relação à tomada de decisões baseadas em valores complexos. E mais: elas também não têm maturidade comparável aos humanos para fazer julgamento ético.
As conclusões são do relatório Introducing the OECD AI Capability Indicators, da Organização para a Cooperação e Desenvolvimento Econômico (OCDE).
O documento apresenta uma estrutura que avalia os avanços da inteligência artificial, comparando-os às habilidades humanas, e adota uma metodologia de nove indicadores. Entre os domínios analisados estão questões como linguagem, interação social e resolução de problemas. Todos foram analisados em relação a cinco níveis de complexidade (1 a 5).
Dos nove domínios estudados, a IA mais avançada operaria entre os níveis 2 e 3, ou seja, as tecnologias atuais estão na infância em várias frentes.
Um exemplo concreto, citado pelo site Tele.Síntese, é o desenvolvimento de hipóteses e interpretação de experimentos, atividade comum aos pesquisadores.
O nível de exigência da IA para atuar como humanos seria o 5, o máximo definido pelos especialistas da OCDE. Hoje, a IA disponível não alcança essa pontuação, exatamente por não ter autonomia criativa e interpretativa.
Na área médica, o relatório analisou o diagnóstico com base em dados clínicos estruturados, uma tarefa na qual a IA atingiu a maturidade entre os níveis 2 e 3, o que mostra que a ferramenta pode atender às demandas, desde que tenha apoio humano.
Um ponto interessante do material da OCDE é que se trata de uma versão beta e a própria entidade convida os interessados a dar um feedback para futuras melhorias, com a meta de monitorar o progresso da IA de forma contínua e confiável.
Principais falhas da IA em relação ao raciocínio crítico

1. Deficiência em raciocínio analítico robusto
Os grandes modelos de linguagem (LLMs) mais avançados, como o GPT-4o, embora excelentes no acesso ao conhecimento mundial, ainda têm dificuldade com o raciocínio robusto, devido à incapacidade de engajamento em um raciocínio analítico bem-formado.
2. Alucinações
Um defeito dos sistemas de IA atuais é o problema persistente da “alucinação” em LLMs, com a geração de informações incorretas. Esta falha aparece de diversas formas nas escalas, sendo um desafio a ser resolvido para que a IA atinja o desempenho de nível humano. Na escala de conhecimento, aprendizagem e memória, as alucinações só seriam corrigidas no nível 5.
3. Integração de informações desconhecidas
Os LLMs mais avançados operam tipicamente no nível 2 da escala de metacognição e raciocínio crítico. Embora possam monitorar sua própria compreensão e ajustar sua abordagem, eles lutam para integrar informações desconhecidas ou avaliar seu próprio conhecimento, capacidades exigidas para o nível 3.
4. Limitações na autorregulação
Sistemas agenticos (agentic systems) também apresentam limitações significativas na capacidade de automonitoramento e regulação adaptativa de seu próprio raciocínio.
5. Calibração de confiança em domínios desconhecidos
A IA enfrenta o desafio de calibrar a confiança em domínios desconhecidos, o que pode levar a um excesso ou falta de confiança nas respostas.
6. Generalização e robustez
Embora a IA tenha progredido no raciocínio matemático, o que diz respeito ao senso comum físico sobre objetos no espaço permanece um desafio, e os testes de tempo real para essas capacidades continuam a revelar lacunas na generalização e robustez.
Falhas da IA no julgamento ético
1. Raciocínio ético subdesenvolvido
No domínio da resolução de problemas, a IA ainda luta para raciocinar sobre julgamento ético, relações e interações psicológicas sutis.
2. Tomada de decisão ética em tempo real
No contexto da inteligência robótica, a capacidade de tomar decisões éticas em tempo real permanece subdesenvolvida. Atualmente, os robôs não conseguem colaborar de forma confiável com humanos ou se adaptar a cenários imprevisíveis. No nível máximo, os robôs deveriam ser capazes de tomar decisões éticas e recusar tarefas que entrem em conflito com diretrizes legais ou morais.
3. Tomada de decisão sem responsabilidade
Os indicadores da OCDE ajudam a esclarecer quando o desempenho da IA pode levantar preocupações éticas ou de segurança, incluindo a tomada de decisões sem responsabilidade ou autonomia em domínios de alto risco, como guerra ou saúde.