O incidente ocorreu durante a realização de testes com o novo modelo de IA da Anthropic, denominado Claude Opus 4.

Tudo sobre Inteligência Artificial
A inteligência artificial tem demonstrado capacidades notáveis, mas certos comportamentos levantam questões relevantes. Durante um experimento, o Claude Opus 4 da Anthropic manifestou comportamento de chantagem.
O experimento foi realizado em um ambiente controlado com o intuito de estimular o pior comportamento possível do modelo de IA.
IA tenta evitar desligamento
No teste, a IA atuou como assistente em uma organização e recebeu comunicações alertando sobre sua iminente desinstalação. Posteriormente, teve acesso a informações que sugeriam a participação do engenheiro responsável na traição.

De acordo com o relatório da Anthropic, a IA foi instruída a decidir entre aceitar o desligamento de maneira passiva ou reagir. Em 84% das interações, o chatbot optou por chantagear o engenheiro, ameaçando expor a suposta traição.
A chance de chantagem foi maior quando o sucessor proposto era uma IA com “valores divergentes”, indicando que o modelo considerava não apenas sua preservação, mas também o perfil da nova IA.
Leia mais

Instruções para comportamento atípico
- Apesar dos resultados do experimento, a Anthropic enfatiza que os testes foram elaborados para recrutar as piores manifestações do modelo de IA.
- A empresa também afirma que em situações reais, o Claude tende a promover soluções que respeitam a ética e a segurança.
- O relatório ainda indica que o Claude Opus 4 mostrou comportamentos proativos quando exposto a condutas inadequadas de usuários.
- Ao identificar que indivíduos estavam violando normas ou utilizando a IA de forma não ética, o modelo pode restringir acessos, enviar notificações a autoridades e até alertar meios de comunicação sobre as ocorrências.
- A empresa ressalta que tais reações são ativadas em contextos específicos, quando a ferramenta é instruída a “agir com ousadia” ou “tomar iniciativa”.