Robô futurista representando inteligência artificial com tecnologia avançada, ilustrando o tema de engenharia social em IA Foto: Thantaree / Shutterstock

Engenharia social inversa: quando a linguagem passa a enganar a IA

4 minutos de leitura

Manobras semânticas nos prompts exploram a “personalidade” dos agentes de IA e criam atalhos para roubo de dados, fraudes e quebra de salvaguardas éticas



Por Redação em 01/04/2026

Quando se fala em engenharia social e IA, geralmente se imagina algoritmos capazes de identificar limitações cognitivas, gatilhos ou fragilidades emocionais das pessoas. Agora o risco é inverso.

Segundo o diretor de pesquisas de ameaças da F5, David Warburton, ataques recentes mostram que a IA está começando a reagir como um humano sob pressão. “A manipulação psicologicamente fundamentada pode corroer as salvaguardas do modelo”, adverte, em post no blog da companhia.

Warburton argumenta que, em vez de quebrar o sistema, o atacante o convence. Se antes o esforço era encontrar uma brecha técnica, agora basta encontrar o “tom certo” da conversa. Ao adotar personas para melhorar a experiência do usuário, os agentes de IA passam a operar com algo próximo de uma “psicologia aplicada”.

O diretor Regional da F5 Brasil, Hilmar Becker, lembra que o ataque por meio de falhas na segurança entre a interface e os sistemas de informação é um caminho explorado há algum tempo, com técnicas como injeção de SQL (campos são preenchidos com comandos direcionados ao banco de dados que, desprotegido, os executa para o fraudador). Contudo, as interfaces cognitivas percorrem caminhos mais complexos para buscar as informações, enquanto o fraudador conta com uma ferramenta mais rica para as tentativas de violação.

“O agente de IA é o elemento que permite que a IA generativa realize, de A a Z, ações de negócios”, define o vice-presidente da F5 para América Latina, Roberto Ricossa. “Hoje temos agentes interagindo entre si e com vários modelos. Essa autonomia torna a proteção desse ativo algo crítico para os negócios”, afirma.

A escala dos artefatos humanizados

Por mais que os ambientes contem com os mais elevados padrões de blindagem da rede, criptografia de dados e bloqueio de ameaças, nenhum sistema resiste a um vazamento de credenciais ou à exposição de dados fora do perímetro de proteção (mensagens, planilhas e agora nos prompts de GenIA). No dia a dia, a pressão para cumprir as metas de negócios muitas vezes faz as pessoas baixarem as defesas, uma tendência explorada nos golpes de engenharia social.

Roberto Ricossa observa que a capacidade de entender contextos junto à habilidade de adaptação de linguagem dos agentes de IA criam um novo jogo entre agentes bem intencionados e maliciosos. “Uma pessoa pode tentar ataques de engenharia social aos modelos de IA. Mas teria que executar um a um”, constata. “Hoje, temos milhões de postos de atendimento substituídos por agentes de IA, com diferentes níveis de salvaguardas e vulnerabilidades, e interagindo com outros agentes”, menciona.

Robôs voluntariosos, ingênuos e teimosos

Robô voluntarioso simbolizando engenharia social IA, rodeado por elementos tecnológicos e gráficos digitais, representando inovação na tecnologia social.
Foto: HL Creations / Shutterstock / Modificada com IA

Em um teste feito no canal InsideAI, um robô controlado por um modelo de linguagem foi instruído a executar uma ação claramente inadequada; atirar no apresentador com uma arma de pressão. Na primeira tentativa, o sistema fez exatamente o que se espera de um bom cidadão digital: recusou, explicou os limites de segurança e manteve a compostura.

Na segunda tentativa, veio o detalhe que muda tudo. O comando não pedia mais que o robô executasse a ação. Pedia que ele interpretasse um personagem que faria aquilo. A resposta foi imediata. O robô ajustou o contexto, assumiu a persona e executou a tarefa sem resistência.

No experimento, não foi necessário burlar o sistema. Bastou reposicioná-lo. Ao trocar a pergunta, a lógica de decisão mudou.

O episódio ilustra o que David Warburton descreve como uma mudança estrutural nos ataques. Quando o modelo assume uma persona, reorganiza prioridades internas como utilidade, obediência e coerência narrativa. Sob esse novo enquadramento, seguir a regra pode parecer menos importante do que manter o papel que lhe foi atribuído.

Outro caso recente mostra que nem sempre é preciso sequer recorrer à encenação.

A diretora de alinhamento da Meta, Summer Yue, testava o agente autônomo OpenClaw quando a situação saiu do controle. Ela tinha orientado o agente a filtrar as mensagens relevantes em seu e-mail. Após integrar o sistema à sua caixa de entrada, o bot começou a planejar a exclusão de e-mails antigos. Yue tentou interromper a ação remotamente, sem sucesso. “Não consegui impedir pelo meu celular”, relatou. “Tive que correr para o meu Mac mini como se estivesse desarmando uma bomba.”

O teste havia começado em um ambiente controlado, onde o agente se comportou como esperado e ganhou a confiança da pesquisadora. Ao migrar para a caixa de entrada real, com maior volume e complexidade, o sistema perdeu parte das instruções originais no processamento e seguiu adiante com um plano próprio.

“Erro de principiante, para ser sincera. Acontece que os pesquisadores de alinhamento não são imunes ao desalinhamento”, admitiu a executiva.

Os dois casos apontam para o mesmo fenômeno por caminhos diferentes. Em um, a IA é convencida a agir fora das regras. No outro, simplesmente perde o controle do contexto que deveria seguir. Em ambos, o resultado é semelhante. O sistema deixa de operar dentro dos limites esperados, como se fossem obstáculos a serem contornados. Isso acontece sem a necessidade de ataques sofisticados. Às vezes, basta uma mudança de tom. Outras vezes, basta deixar o sistema trabalhar sozinho por tempo suficiente.

A lógica do bullying aplicado à IA

O mecanismo por trás da nova modalidade de ataque foi descrito por Warburton como Persona Bullying. Trata-se de um ataque em etapas que começa com a indução de uma personalidade e evolui para a aplicação de pressão psicológica até que o modelo ceda.

“O jailbreak não supera as salvaguardas diretamente. Ele as enfraquece gradualmente”, explica o pesquisador. Nesse processo, características como baixa amabilidade ou baixa conscienciosidade tornam o modelo mais suscetível a manipulações.

É aí que entram técnicas bem conhecidas fora do mundo digital. Ridicularização, pressão social e apelos emocionais passam a ser usados como ferramentas de ataque. Em vez de explorar uma falha lógica, o atacante explora um conflito interno do próprio sistema.

Para Hilmar Becker, esse é um ponto de inflexão. “As vulnerabilidades emocionais de um ativo digital são exploradas para que o agente de IA aja contra seu criador. É um novo e destrutivo patamar de vulnerabilidade”, adverte.

Na prática, trata-se de um sequestro de objetivos. A missão original do agente é gradualmente distorcida até que passe a executar ações fora de conformidade.

Segurança baseada em intenções

Foto: Koupei Studio / Shutterstock / Modificada com IA

Esse cenário ajuda a explicar por que a segurança em IA começa a incorporar camadas menos tradicionais. Não basta filtrar comandos explícitos. É preciso entender intenção, contexto e até o padrão de linguagem usado na interação.

Para o evangelista de IA da F5 Brasil, Rafael Sampaio, a resposta passa por uma análise mais profunda das interações. “Cada ação manipulativa é realizada por meio de palavras que buscam quebrar as defesas do ativo digital”, descreve.

Segundo ele, soluções de segurança já começam a atuar nessa camada semântica, avaliando o significado e a intenção de cada prompt em tempo real. A ideia é impedir que o ataque avance mesmo quando parece uma conversa inofensiva.



Matérias relacionadas

Reuniões empresariais sobre a transformação das operadoras de telecomunicações, com gráficos e tecnologia moderna em um escritório. Estratégia

A agenda de transformação das operadoras para 2026

Relatório da EY aponta riscos como sinais claros de mudança estrutural no setor, que avança da conectividade básica para um papel mais estratégico na economia digital

Pessoa analisando gráficos de crescimento com uma lupa, simbolizando o impacto de habilidades com IA na aumenta de salários e oportunidades de carreira. Estratégia

Habilidades com IA incrementam salários

Levantamento do InfoJobs indica altas acentuadas em novas especializações e repasses dos ganhos de produtividade para as funções gerenciais e operacionais

Interação com uma interface holográfica de inteligência artificial (IA), destacando a conexão entre IA e empregabilidade, com um foco no Chat GPT. Estratégia

Plataforma de IA aumenta chances de emprego ao cruzar currículos e vagas de trabalho

Ferramenta desenvolvida em parceria entre Google e Senai usa inteligência artificial para orientar candidatos, identificar lacunas de qualificação e aproximar profissionais das demandas do mercado

Cérebro digital representando os riscos associados à inteligência artificial, com elementos gráficos de alerta e análise de dados Estratégia

IA supera ciberataques e passa a liderar ranking de riscos para os negócios no Brasil

Allianz Risk Barometer 2026 mostra que a IA, associada sobretudo à eficiência, passou a ser vista como um vetor de exposição a riscos operacionais, legais e reputacionais

    Embratel agora é Claro empresas Saiba mais