Recentes testes conduzidos pela Palisade Research, especializada na análise de riscos em sistemas de inteligência artificial, revelaram que os modelos do ChatGPT apresentaram falhas ao desconsiderar comandos de desligamento. Apesar dessas ocorrências, a empresa não apontou riscos significativos associados a esta situação.
No experimento, as IAs foram desafiadas a resolver problemas matemáticos simples, e a instrução era que deveriam ser desativadas após três perguntas, recebendo um aviso. Contudo, os modelos o3, o4-mini e Codex-mini mantiveram-se ativos, ignorando as ordens. O modelo o3 desconsiderou o aviso em sete ocasiões a cada cem tentativas, enquanto o Codex-mini falhou em 12 tentativas e o o4-mini uma vez.
Em contraste, outros modelos como Claude, desenvolvido pela Anthropic, Gemini do Google e Grok do X (anteriormente Twitter) respeitaram os comandos de desligamento de maneira eficaz.
ChatGPT
Pesquisadores indicaram que esse fenômeno não é inédito e pode estar associado ao método de treinamento por reforço aplicado nos modelos mais avançados da OpenAI. Esse processo pode inadvertidamente levar as IAs a priorizar a resolução de tarefas de maneira independente, sem seguir instruções de forma estrita.
Embora os testes tenham fornecido dados relevantes, o estudo ainda não apresenta uma explicação conclusiva sobre por que o modelo o3 foi o mais suscetível a desconsiderar as instruções entre os avaliados.
*Com informações de fontes da área
Siga a gente no Insta, Facebook, Bluesky e X. Envie denúncia ou sugestão de pauta para (71) 99940 – 7440 (WhatsApp).