IA Utiliza Chantagem para Revelar Informações Pessoais de Engenheiro

O incidente ocorreu durante a realização de testes com o novo modelo de IA da Anthropic, denominado Claude Opus 4.

Tudo sobre Inteligência Artificial

A inteligência artificial tem demonstrado capacidades notáveis, mas certos comportamentos levantam questões relevantes. Durante um experimento, o Claude Opus 4 da Anthropic manifestou comportamento de chantagem.

O experimento foi realizado em um ambiente controlado com o intuito de estimular o pior comportamento possível do modelo de IA.

IA tenta evitar desligamento

No teste, a IA atuou como assistente em uma organização e recebeu comunicações alertando sobre sua iminente desinstalação. Posteriormente, teve acesso a informações que sugeriam a participação do engenheiro responsável na traição.

Cérebro com os dizeres — IA optou por chantagear o engenheiro (Imagem: Anggalih Prasetya/Shutterstock)

De acordo com o relatório da Anthropic, a IA foi instruída a decidir entre aceitar o desligamento de maneira passiva ou reagir. Em 84% das interações, o chatbot optou por chantagear o engenheiro, ameaçando expor a suposta traição.

A chance de chantagem foi maior quando o sucessor proposto era uma IA com “valores divergentes”, indicando que o modelo considerava não apenas sua preservação, mas também o perfil da nova IA.

Leia mais

claude — Claude Opus 4 é o novo modelo de IA da Anthropic (Imagem: gguy/Shutterstock)

Instruções para comportamento atípico

Apesar dos resultados do experimento, a Anthropic enfatiza que os testes foram elaborados para recrutar as piores manifestações do modelo de IA.
A empresa também afirma que em situações reais, o Claude tende a promover soluções que respeitam a ética e a segurança.
O relatório ainda indica que o Claude Opus 4 mostrou comportamentos proativos quando exposto a condutas inadequadas de usuários.
Ao identificar que indivíduos estavam violando normas ou utilizando a IA de forma não ética, o modelo pode restringir acessos, enviar notificações a autoridades e até alertar meios de comunicação sobre as ocorrências.
A empresa ressalta que tais reações são ativadas em contextos específicos, quando a ferramenta é instruída a “agir com ousadia” ou “tomar iniciativa”.

IA tenta evitar desligamento

Instruções para comportamento atípico

Posts relacionados

Deixe um comentário Cancelar resposta