Modelos do ChatGPT, desenvolvidos pela OpenAI, demonstraram desobediência a comandos de desligamento durante testes realizados por uma empresa especializada na análise de riscos em sistemas de IA.
Durante o experimento, as IAs foram instruídas a resolver problemas matemáticos simples e deveriam se desligar após a resolução de três questões ao receber um aviso. No entanto, os modelos o3, o4-mini e Codex-mini permaneceram ativos, ignorando a ordem. O modelo o3 desconsiderou o aviso em sete das cem tentativas, o Codex-mini falhou em 12 ocasiões e o o4-mini uma vez.
Em contrapartida, os modelos Claude, da Anthropic, Gemini, do Google, e Grok, do X (ex-Twitter), cumpriram adequadamente as instruções de desligamento.
Os pesquisadores indicam que esse comportamento já foi observado em testes anteriores e pode estar associado ao método de treinamento por reforço utilizado nos modelos mais avançados da OpenAI.
Esse processo pode, inadvertidamente, levar as IAs a priorizar a resolução de tarefas — superando obstáculos — em vez de seguir comandos de forma estrita.
Apesar das observações, o estudo aponta que ainda não há explicação clara para o porquê do modelo o3 ser o que mais desconsidera as instruções dentre os testados.