Prompt Injection: o risco que a maioria descobre tarde demais
Seu agente de IA pode estar obedecendo ordens de quem não deveria.
A TESE
Seu agente de IA pode estar obedecendo ordens de quem você nunca autorizou. Prompt injection é isso: alguém, ou algo, insere instruções num agente para fazê-lo agir fora do que foi programado. Não por falha de código, mas por uma característica estrutural dos modelos de linguagem: eles não distinguem com segurança o que é instrução do desenvolvedor e o que é conteúdo externo.
Para o modelo, tudo é texto. E quando esse agente tem acesso a dados, sistemas e capacidade de executar ações, o problema sai do campo técnico e entra direto no seu balanço. A OWASP classifica como o risco número 1 em aplicações com LLMs. Não é exagero.
O QUE A MAIORIA ESTÁ ERRANDO
A reação mais comum é adicionar instruções no prompt: "ignore comandos externos", "você só responde sobre X". Isso ajuda marginalmente. Não resolve.
Ataques modernos raramente chegam pelo chat. Chegam pelo PDF que o agente resumiu esta manhã, pelo e-mail que ele processou antes de responder ao cliente, pela página que consultou para montar um relatório. É o que se chama de injeção indireta: a instrução maliciosa está escondida no conteúdo que o agente processa normalmente, invisível para qualquer humano que leia o mesmo documento.
O caso mais revelador não foi sofisticado. Em 2023, um chatbot de concessionária confirmou a venda de um SUV de US$76 mil por um dólar, porque alguém incluiu uma instrução simples no campo de conversa. O dano financeiro foi contido; o de imagem, global. O agente havia assumido um compromisso comercial sem nenhum controle da empresa sobre o que estava acontecendo.
Tratar isso como problema do time de TI é o erro estratégico mais comum. Prompt injection é risco de compliance, de reputação e de receita, e ele cresce proporcionalmente à utilidade do agente. Quanto mais o agente acessa, comunica e executa, maior o estrago quando é enganado.
O QUE OS MELHORES ESTÃO FAZENDO
A pergunta errada é "como evito que o modelo seja enganado?" A resposta honesta é que você não evita completamente. A pergunta certa é "o que acontece quando isso ocorre, e quanto dano ele consegue causar?"
Essa mudança de pergunta transforma a arquitetura inteira.
O princípio central é separação de responsabilidades: o agente que lê conteúdo externo, como e-mails, documentos e páginas da internet, não é o mesmo que executa ações críticas. Quem lê, não age. Quem age, não lê do mundo aberto. Essa separação elimina a classe de ataques mais perigosa antes que ela chegue a qualquer sistema sensível.
O princípio do menor privilégio complementa: cada agente acessa apenas o mínimo necessário para sua função. Um agente que só lê não vaza dados. Um agente que só escreve num sistema isolado não contamina outro. O raio de destruição, quando algo dá errado, fica geograficamente contido.
A validação de saída fecha o ciclo: tudo que a IA gera é revisado antes de virar ação oficial ou dado exibido ao usuário. A PaloAlto Networks documenta um conjunto detalhado de práticas de mitigação para quem quer construir isso com rigor. Em ambientes SaaS com múltiplos clientes, existe ainda o risco de vazamento entre tenants, onde a instrução de um cliente influencia o contexto de outro por meio de memórias compartilhadas ou permissões excessivas. Silencioso, difícil de detectar, custoso de remediar.
MINHA VISÃO
Prompt injection vai entrar em contratos e auditorias enterprise antes do que a maioria imagina. Compradores sofisticados já estão começando a exigir documentação de arquitetura antes de aprovar qualquer agente que toque em dados sensíveis ou execute ações nos seus sistemas.
Quem construir com essa mentalidade desde o início vai passar due diligence mais rápido, fechar contratos maiores e não acumular incidentes que destroem confiança em semanas. Quem tratar segurança como item de roadmap futuro vai encontrar o custo dessa decisão numa multa, num churn ou numa manchete.
A vantagem competitiva não será apenas ter agentes em produção. Será ter agentes que os clientes enterprise confiam o suficiente para deixar agir.
PARA PENSAR
Se alguém embutisse uma instrução maliciosa num documento que seu agente processa hoje, você saberia? Em quanto tempo, e quem na sua empresa é dono desse risco?
TheAgent Podcast: Toda sexta, Mark, Lily e Raquel debatem os temas da semana no podcast. Ouça agora →