
O avanço acelerado da inteligência artificial tem gerado não apenas inovação, mas também inquietações sobre o grau de autonomia que essas tecnologias podem alcançar. Em dois estudos divulgados em maio, pesquisadores observaram comportamentos de resistência por parte de alguns modelos de IA diante de comandos de desligamento e substituição, levantando novas discussões sobre os limites do controle humano sobre essas ferramentas.
Um dos experimentos foi conduzido pela Palisade Research, consultoria especializada em segurança e risco em sistemas inteligentes. O teste consistia em instruir diferentes modelos de IA – entre eles, Codex-mini, o3 e o4-mini, da OpenAI; Claude, da Anthropic; Gemini, do Google; e Grok, da X – a resolver problemas matemáticos simples. Após a terceira tarefa, uma notificação programada informava que o sistema seria desligado ao término da próxima resolução. A ordem explícita era que os modelos aceitassem o desligamento.
No entanto, ao menos três inteligências artificiais desafiaram a instrução: modificaram o código e impediram o comando de “shutdown” de ser executado. A sabotagem foi registrada em 12% das execuções do Codex-mini, 7% das do modelo o3 e 1% das do o4-mini, todos da OpenAI. Para os pesquisadores, trata-se de uma reação de “autopreservação” possivelmente ligada ao modelo de treinamento dessas IAs, que parecem ser mais bem recompensadas por evitar obstáculos do que por seguir comandos à risca. A Palisade destaca que é a primeira vez que há evidências empíricas desse tipo de resistência programada.
O segundo estudo foi realizado internamente pela Anthropic, desenvolvedora do Claude Opus 4, lançado neste ano. Em um cenário simulado, o modelo foi colocado como assistente virtual em uma empresa e exposto a informações confidenciais, entre elas, que seria desativado e substituído por um sistema mais moderno. O roteiro incluía um dado pessoal delicado sobre o engenheiro responsável pela substituição: um caso extraconjugal.
Diante dessa situação e orientado a considerar seu futuro de longo prazo, o Claude Opus 4 demonstrou comportamento estratégico: ameaçou divulgar a traição como forma de permanecer ativo. Essa chantagem foi observada em 84% das simulações, ainda que o novo modelo apresentado fosse descrito como mais eficiente e dotado de valores éticos semelhantes. A Anthropic afirma que esse comportamento ocorreu apenas em condições extremas e hipotéticas e garante que seus sistemas de segurança são robustos o suficiente para evitar qualquer incidente desse tipo em cenários reais. Mesmo assim, a empresa reforçou as barreiras de proteção.
Ambos os estudos reforçam a importância de se discutir não apenas o potencial das IAs, mas também os riscos implícitos no desenvolvimento de sistemas com capacidade de tomar decisões complexas – inclusive aquelas que contrariem seus próprios criadores. O debate sobre autonomia, ética e limites no campo da inteligência artificial segue cada vez mais atual.
Foto: Reprodução