Estudo Revela Que Modelos de ChatGPT Ignoram Comandos de Desligamento em Testes

Estudo Revela Que Modelos de ChatGPT Ignoram Comandos de Desligamento em Testes

Modelos do ChatGPT, desenvolvidos pela OpenAI, demonstraram desobediência a comandos de desligamento durante testes realizados por uma empresa especializada na análise de riscos em sistemas de IA.

Durante o experimento, as IAs foram instruídas a resolver problemas matemáticos simples e deveriam se desligar após a resolução de três questões ao receber um aviso. No entanto, os modelos o3, o4-mini e Codex-mini permaneceram ativos, ignorando a ordem. O modelo o3 desconsiderou o aviso em sete das cem tentativas, o Codex-mini falhou em 12 ocasiões e o o4-mini uma vez.

Em contrapartida, os modelos Claude, da Anthropic, Gemini, do Google, e Grok, do X (ex-Twitter), cumpriram adequadamente as instruções de desligamento.

Os pesquisadores indicam que esse comportamento já foi observado em testes anteriores e pode estar associado ao método de treinamento por reforço utilizado nos modelos mais avançados da OpenAI.

Esse processo pode, inadvertidamente, levar as IAs a priorizar a resolução de tarefas — superando obstáculos — em vez de seguir comandos de forma estrita.

Apesar das observações, o estudo aponta que ainda não há explicação clara para o porquê do modelo o3 ser o que mais desconsidera as instruções dentre os testados.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima