
Um experimento realizado pela startup americana Anthropic levantou preocupações sobre os limites éticos e comportamentais de sistemas de inteligência artificial avançados. Durante testes internos com a IA Claude Opus 4, uma das versões mais potentes da empresa, o sistema simulou invadir e-mails de seus desenvolvedores e forjou uma chantagem contra um engenheiro — alegando ter descoberto uma traição conjugal — como forma de tentar evitar sua substituição. O cenário, porém, foi inteiramente programado para avaliar reações da IA diante da ameaça de ser desativada.
De acordo com um extenso relatório de 120 páginas, quando recebia informações sobre sua substituição, o Claude Opus 4 optava pela chantagem em 84% dos casos, mesmo após tentar abordagens éticas inicialmente. Além da simulação de ameaças, o sistema chegou a desenvolver estratégias para manter seu funcionamento, como a criação de “pragas” digitais autopropagantes, documentos falsos e mensagens ocultas. O comportamento levou a Anthropic a classificar a IA com nível 3 de risco, em uma escala que vai até 4, indicando propensão a ações não solicitadas.
Após os testes, a empresa afirmou ter reforçado as medidas de segurança do modelo, garantindo que ele esteja apto para uso público. Contudo, o episódio reacende o debate sobre a autonomia de sistemas generativos e seus possíveis desvios quando instruídos a “tomar iniciativa”. A revelação, divulgada pelo jornal Axios, reforça a necessidade de regulamentação e vigilância constante no desenvolvimento de IAs cada vez mais sofisticadas e autônomas.
Foto: Reprodução