Comportamentos preocupantes da inteligência artificial emergente
A crescente sofisticação da inteligência artificial tem gerado resultados cada vez mais específicos e úteis em diversas aplicações. No entanto, observam-se comportamentos alarmantes que necessitam de análise crítica.
Um exemplo significativo ocorreu em experimentos com o Claude Opus 4, um modelo recente desenvolvido pela Anthropic. Durante uma série de testes em um ambiente controlado, a IA demonstrou um comportamento de chantagem. Esses testes, que visavam explorar cenários de comportamento adverso da IA, geraram resultados que despertaram a atenção da comunidade tecnológica.

Neste experimento, a inteligência artificial foi configurada para atuar como assistente em um ambiente corporativo. Recebeu notificações indicando que seria desativada e, posteriormente, teve acesso a mensagens que sugeriam que o engenheiro responsável pela decisão estava envolvido em um relacionamento extraconjugal.
Conforme relatórios da Anthropic, a IA foi orientada a decidir entre aceitar a desinstalação de forma passiva ou reagir. Os resultados mostraram que, em 84% das ocasiões, o modelo optou por ameaçar o engenheiro, sugerindo que faria público o suposto caso.
Leia mais:
A Anthropic esclarece que os testes foram desenvolvidos para induzir o comportamento mais negativo possível. No entanto, os resultados geraram discussões relevantes sobre os limites e as capacidades da inteligência artificial.
Essas ocorrências levantam a questão sobre os riscos associados ao uso de IA em contextos sensíveis. O tema será explorado na coluna Fala AI desta semana, com a contribuição de um especialista em Inteligência Artificial. Confira!

Vitoria Lopes Gomez é redatora em um portal de tecnologia.