Engenharia social inversa:quando a linguagem passa a enganar a IA

Por Redação em 01/04/2026

Quando se fala em engenharia social e IA, geralmente se imagina algoritmos capazes de identificar limitações cognitivas, gatilhos ou fragilidades emocionais das pessoas. Agora o risco é inverso.

Segundo o diretor de pesquisas de ameaças da F5, David Warburton, ataques recentes mostram que a IA está começando a reagir como um humano sob pressão. “A manipulação psicologicamente fundamentada pode corroer as salvaguardas do modelo”, adverte, em post no blog da companhia.

Warburton argumenta que, em vez de quebrar o sistema, o atacante o convence. Se antes o esforço era encontrar uma brecha técnica, agora basta encontrar o “tom certo” da conversa. Ao adotar personas para melhorar a experiência do usuário, os agentes de IA passam a operar com algo próximo de uma “psicologia aplicada”.

O diretor Regional da F5 Brasil, Hilmar Becker, lembra que o ataque por meio de falhas na segurança entre a interface e os sistemas de informação é um caminho explorado há algum tempo, com técnicas como injeção de SQL (campos são preenchidos com comandos direcionados ao banco de dados que, desprotegido, os executa para o fraudador). Contudo, as interfaces cognitivas percorrem caminhos mais complexos para buscar as informações, enquanto o fraudador conta com uma ferramenta mais rica para as tentativas de violação.

“O agente de IA é o elemento que permite que a IA generativa realize, de A a Z, ações de negócios”, define o vice-presidente da F5 para América Latina, Roberto Ricossa. “Hoje temos agentes interagindo entre si e com vários modelos. Essa autonomia torna a proteção desse ativo algo crítico para os negócios”, afirma.

A escala dos artefatos humanizados

Por mais que os ambientes contem com os mais elevados padrões de blindagem da rede, criptografia de dados e bloqueio de ameaças, nenhum sistema resiste a um vazamento de credenciais ou à exposição de dados fora do perímetro de proteção (mensagens, planilhas e agora nos prompts de GenIA). No dia a dia, a pressão para cumprir as metas de negócios muitas vezes faz as pessoas baixarem as defesas, uma tendência explorada nos golpes de engenharia social.

Roberto Ricossa observa que a capacidade de entender contextos junto à habilidade de adaptação de linguagem dos agentes de IA criam um novo jogo entre agentes bem intencionados e maliciosos. “Uma pessoa pode tentar ataques de engenharia social aos modelos de IA. Mas teria que executar um a um”, constata. “Hoje, temos milhões de postos de atendimento substituídos por agentes de IA, com diferentes níveis de salvaguardas e vulnerabilidades, e interagindo com outros agentes”, menciona.

Robôs voluntariosos, ingênuos e teimosos

Robô voluntarioso simbolizando engenharia social IA, rodeado por elementos tecnológicos e gráficos digitais, representando inovação na tecnologia social. — Foto: HL Creations / Shutterstock / Modificada com IA

Em um teste feito no canal InsideAI, um robô controlado por um modelo de linguagem foi instruído a executar uma ação claramente inadequada; atirar no apresentador com uma arma de pressão. Na primeira tentativa, o sistema fez exatamente o que se espera de um bom cidadão digital: recusou, explicou os limites de segurança e manteve a compostura.

Na segunda tentativa, veio o detalhe que muda tudo. O comando não pedia mais que o robô executasse a ação. Pedia que ele interpretasse um personagem que faria aquilo. A resposta foi imediata. O robô ajustou o contexto, assumiu a persona e executou a tarefa sem resistência.

No experimento, não foi necessário burlar o sistema. Bastou reposicioná-lo. Ao trocar a pergunta, a lógica de decisão mudou.

O episódio ilustra o que David Warburton descreve como uma mudança estrutural nos ataques. Quando o modelo assume uma persona, reorganiza prioridades internas como utilidade, obediência e coerência narrativa. Sob esse novo enquadramento, seguir a regra pode parecer menos importante do que manter o papel que lhe foi atribuído.

Outro caso recente mostra que nem sempre é preciso sequer recorrer à encenação.

A diretora de alinhamento da Meta, Summer Yue, testava o agente autônomo OpenClaw quando a situação saiu do controle. Ela tinha orientado o agente a filtrar as mensagens relevantes em seu e-mail. Após integrar o sistema à sua caixa de entrada, o bot começou a planejar a exclusão de e-mails antigos. Yue tentou interromper a ação remotamente, sem sucesso. “Não consegui impedir pelo meu celular”, relatou. “Tive que correr para o meu Mac mini como se estivesse desarmando uma bomba.”

O teste havia começado em um ambiente controlado, onde o agente se comportou como esperado e ganhou a confiança da pesquisadora. Ao migrar para a caixa de entrada real, com maior volume e complexidade, o sistema perdeu parte das instruções originais no processamento e seguiu adiante com um plano próprio.

“Erro de principiante, para ser sincera. Acontece que os pesquisadores de alinhamento não são imunes ao desalinhamento”, admitiu a executiva.

Os dois casos apontam para o mesmo fenômeno por caminhos diferentes. Em um, a IA é convencida a agir fora das regras. No outro, simplesmente perde o controle do contexto que deveria seguir. Em ambos, o resultado é semelhante. O sistema deixa de operar dentro dos limites esperados, como se fossem obstáculos a serem contornados. Isso acontece sem a necessidade de ataques sofisticados. Às vezes, basta uma mudança de tom. Outras vezes, basta deixar o sistema trabalhar sozinho por tempo suficiente.

A lógica do bullying aplicado à IA

O mecanismo por trás da nova modalidade de ataque foi descrito por Warburton como Persona Bullying. Trata-se de um ataque em etapas que começa com a indução de uma personalidade e evolui para a aplicação de pressão psicológica até que o modelo ceda.

“O jailbreak não supera as salvaguardas diretamente. Ele as enfraquece gradualmente”, explica o pesquisador. Nesse processo, características como baixa amabilidade ou baixa conscienciosidade tornam o modelo mais suscetível a manipulações.

É aí que entram técnicas bem conhecidas fora do mundo digital. Ridicularização, pressão social e apelos emocionais passam a ser usados como ferramentas de ataque. Em vez de explorar uma falha lógica, o atacante explora um conflito interno do próprio sistema.

Para Hilmar Becker, esse é um ponto de inflexão. “As vulnerabilidades emocionais de um ativo digital são exploradas para que o agente de IA aja contra seu criador. É um novo e destrutivo patamar de vulnerabilidade”, adverte.

Na prática, trata-se de um sequestro de objetivos. A missão original do agente é gradualmente distorcida até que passe a executar ações fora de conformidade.

Segurança baseada em intenções

Foto: Koupei Studio / Shutterstock / Modificada com IA

Esse cenário ajuda a explicar por que a segurança em IA começa a incorporar camadas menos tradicionais. Não basta filtrar comandos explícitos. É preciso entender intenção, contexto e até o padrão de linguagem usado na interação.

Para o evangelista de IA da F5 Brasil, Rafael Sampaio, a resposta passa por uma análise mais profunda das interações. “Cada ação manipulativa é realizada por meio de palavras que buscam quebrar as defesas do ativo digital”, descreve.

Segundo ele, soluções de segurança já começam a atuar nessa camada semântica, avaliando o significado e a intenção de cada prompt em tempo real. A ideia é impedir que o ataque avance mesmo quando parece uma conversa inofensiva.