Quando se fala em engenharia social e IA, geralmente se imagina algoritmos capazes de identificar limitações cognitivas, gatilhos ou fragilidades emocionais das pessoas. Agora o risco é inverso.
Segundo o diretor de pesquisas de ameaças da F5, David Warburton, ataques recentes mostram que a IA está começando a reagir como um humano sob pressão. “A manipulação psicologicamente fundamentada pode corroer as salvaguardas do modelo”, adverte, em post no blog da companhia.
Warburton argumenta que, em vez de quebrar o sistema, o atacante o convence. Se antes o esforço era encontrar uma brecha técnica, agora basta encontrar o “tom certo” da conversa. Ao adotar personas para melhorar a experiência do usuário, os agentes de IA passam a operar com algo próximo de uma “psicologia aplicada”.
O diretor Regional da F5 Brasil, Hilmar Becker, lembra que o ataque por meio de falhas na segurança entre a interface e os sistemas de informação é um caminho explorado há algum tempo, com técnicas como injeção de SQL (campos são preenchidos com comandos direcionados ao banco de dados que, desprotegido, os executa para o fraudador). Contudo, as interfaces cognitivas percorrem caminhos mais complexos para buscar as informações, enquanto o fraudador conta com uma ferramenta mais rica para as tentativas de violação.
“O agente de IA é o elemento que permite que a IA generativa realize, de A a Z, ações de negócios”, define o vice-presidente da F5 para América Latina, Roberto Ricossa. “Hoje temos agentes interagindo entre si e com vários modelos. Essa autonomia torna a proteção desse ativo algo crítico para os negócios”, afirma.
A escala dos artefatos humanizados
Por mais que os ambientes contem com os mais elevados padrões de blindagem da rede, criptografia de dados e bloqueio de ameaças, nenhum sistema resiste a um vazamento de credenciais ou à exposição de dados fora do perímetro de proteção (mensagens, planilhas e agora nos prompts de GenIA). No dia a dia, a pressão para cumprir as metas de negócios muitas vezes faz as pessoas baixarem as defesas, uma tendência explorada nos golpes de engenharia social.
Roberto Ricossa observa que a capacidade de entender contextos junto à habilidade de adaptação de linguagem dos agentes de IA criam um novo jogo entre agentes bem intencionados e maliciosos. “Uma pessoa pode tentar ataques de engenharia social aos modelos de IA. Mas teria que executar um a um”, constata. “Hoje, temos milhões de postos de atendimento substituídos por agentes de IA, com diferentes níveis de salvaguardas e vulnerabilidades, e interagindo com outros agentes”, menciona.
Robôs voluntariosos, ingênuos e teimosos

Em um teste feito no canal InsideAI, um robô controlado por um modelo de linguagem foi instruído a executar uma ação claramente inadequada; atirar no apresentador com uma arma de pressão. Na primeira tentativa, o sistema fez exatamente o que se espera de um bom cidadão digital: recusou, explicou os limites de segurança e manteve a compostura.
Na segunda tentativa, veio o detalhe que muda tudo. O comando não pedia mais que o robô executasse a ação. Pedia que ele interpretasse um personagem que faria aquilo. A resposta foi imediata. O robô ajustou o contexto, assumiu a persona e executou a tarefa sem resistência.
No experimento, não foi necessário burlar o sistema. Bastou reposicioná-lo. Ao trocar a pergunta, a lógica de decisão mudou.
O episódio ilustra o que David Warburton descreve como uma mudança estrutural nos ataques. Quando o modelo assume uma persona, reorganiza prioridades internas como utilidade, obediência e coerência narrativa. Sob esse novo enquadramento, seguir a regra pode parecer menos importante do que manter o papel que lhe foi atribuído.
Outro caso recente mostra que nem sempre é preciso sequer recorrer à encenação.
A diretora de alinhamento da Meta, Summer Yue, testava o agente autônomo OpenClaw quando a situação saiu do controle. Ela tinha orientado o agente a filtrar as mensagens relevantes em seu e-mail. Após integrar o sistema à sua caixa de entrada, o bot começou a planejar a exclusão de e-mails antigos. Yue tentou interromper a ação remotamente, sem sucesso. “Não consegui impedir pelo meu celular”, relatou. “Tive que correr para o meu Mac mini como se estivesse desarmando uma bomba.”
O teste havia começado em um ambiente controlado, onde o agente se comportou como esperado e ganhou a confiança da pesquisadora. Ao migrar para a caixa de entrada real, com maior volume e complexidade, o sistema perdeu parte das instruções originais no processamento e seguiu adiante com um plano próprio.
“Erro de principiante, para ser sincera. Acontece que os pesquisadores de alinhamento não são imunes ao desalinhamento”, admitiu a executiva.
Os dois casos apontam para o mesmo fenômeno por caminhos diferentes. Em um, a IA é convencida a agir fora das regras. No outro, simplesmente perde o controle do contexto que deveria seguir. Em ambos, o resultado é semelhante. O sistema deixa de operar dentro dos limites esperados, como se fossem obstáculos a serem contornados. Isso acontece sem a necessidade de ataques sofisticados. Às vezes, basta uma mudança de tom. Outras vezes, basta deixar o sistema trabalhar sozinho por tempo suficiente.
A lógica do bullying aplicado à IA
O mecanismo por trás da nova modalidade de ataque foi descrito por Warburton como Persona Bullying. Trata-se de um ataque em etapas que começa com a indução de uma personalidade e evolui para a aplicação de pressão psicológica até que o modelo ceda.
“O jailbreak não supera as salvaguardas diretamente. Ele as enfraquece gradualmente”, explica o pesquisador. Nesse processo, características como baixa amabilidade ou baixa conscienciosidade tornam o modelo mais suscetível a manipulações.
É aí que entram técnicas bem conhecidas fora do mundo digital. Ridicularização, pressão social e apelos emocionais passam a ser usados como ferramentas de ataque. Em vez de explorar uma falha lógica, o atacante explora um conflito interno do próprio sistema.
Para Hilmar Becker, esse é um ponto de inflexão. “As vulnerabilidades emocionais de um ativo digital são exploradas para que o agente de IA aja contra seu criador. É um novo e destrutivo patamar de vulnerabilidade”, adverte.
Na prática, trata-se de um sequestro de objetivos. A missão original do agente é gradualmente distorcida até que passe a executar ações fora de conformidade.
Segurança baseada em intenções

Esse cenário ajuda a explicar por que a segurança em IA começa a incorporar camadas menos tradicionais. Não basta filtrar comandos explícitos. É preciso entender intenção, contexto e até o padrão de linguagem usado na interação.
Para o evangelista de IA da F5 Brasil, Rafael Sampaio, a resposta passa por uma análise mais profunda das interações. “Cada ação manipulativa é realizada por meio de palavras que buscam quebrar as defesas do ativo digital”, descreve.
Segundo ele, soluções de segurança já começam a atuar nessa camada semântica, avaliando o significado e a intenção de cada prompt em tempo real. A ideia é impedir que o ataque avance mesmo quando parece uma conversa inofensiva.
