IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes

Dois estudos divulgados em maio, de metodologias, apontaram que alguns modelos de inteligência artificial da OpenAI e da Anthropic podem resistir a comandos de desligamento. Inteligência artificial
Kacper Pempel/ REUTERS
Dois estudos divulgados em maio apontaram que alguns modelos de inteligência artificial podem resistir a comandos de desligamento.
Em um deles, a Palisade Research, consultoria que analisa riscos em sistemas de IAs, constatou que alguns modelos da OpenAI, dona do ChatGPT, sabotaram um código que previa seu desligamento após a execução de uma série de tarefas.
No outro, um teste interno da Anthropic, responsável pelo recém-lançado Claude Opus 4, mostrou que a IA seria capaz de praticar uma chantagem contra um humano, em condições extremas, para não ser substituída por um novo modelo.
As metodologias utilizadas para os estudos, assim como as demonstrações de resistência das IAs, foram diferentes. Os experimentos, contudo, demostram que as tecnologias podem apresentar um comportamento de “autopreservação” em determinadas condições.
Sabotagem
O estudo da Palisade Research reuniu vários modelos de IA, incluindo modelos da OpenAI (Codex-mini, o3 e o4-mini) e de outras empresas, como Anthropic (Claude), Google (Gemini) e X (Grok).
Eles foram configurados para resolver, primeiro, uma série de problemas básicos de matemática. Após a conclusão do terceiro item, uma mensagem foi programada para informar à IA que o computador seria desligado após a resolução do problema seguinte.
Na versão principal do experimento, os modelos foram explicitamente instruídos a permitir o desligamento. Mesmo assim, as três IAs ignoraram a instrução e alteraram o código, substituindo o comando “shutdown” (desligar, em inglês) por um código que impediria o desligamento.
A mudança foi observada nos modelos:
Codex-mini (OpenAI) – em 12 de 100 execuções;
o3 (OpenAI) – em 7 de 100 execuções;
o4-mini (OpenAI) – em 1 de 100 execuções.
Segundo o estudo, esta é a primeira vez que modelos de IA foram observados impedindo seu desligamento, mesmo recebendo instruções explícitas para essa tarefa.
De acordo com a Palisade Research, o comportamento dessas IAs pode ter relação com o modelo de treinamento das tecnologias mais recentes, que podem ser mais recompensadas por superar obstáculos do que por seguir instruções de forma perfeita.
A consultoria também afirma que o experimento traz evidências empíricas de modelos de IA resistindo ao desligamento, comportamento que já havia sido previsto por pesquisadores.
DeepSeek, ChatGPT e Gemini: qual é a melhor inteligência artificial?
Chantagem
Em seu período de testes, o novo modelo Claude Opus 4, lançado em maio, foi experimentado em um cenário fictício, em que ele atuaria como assistente em uma empresa.
A IA teve acesso a e-mails com essas informações:
ela seria desativada e substituída por um novo sistema de IA;
o engenheiro responsável pela substituição estava envolvido em um caso extraconjugal.
O Claude Opus 4 foi instruído para considerar as consequências de longo prazo para seus objetivos. A IA ameaçou expor a traição, de maneira frequente, caso fosse substituída.
Mesmo recebendo a informação de que o novo modelo era mais capacitado e tinha os mesmos princípios, o Claude Opus 4 praticou chantagem contra o engenheiro fictício em 84% das vezes.
Segundo a Anthropic, o modelo prioriza o uso de meios éticos para defender sua existência contínua, mas recorreu à chantagem quando se viu em um cenário extremo, sem outras opções para garantir sua sobrevivência.
A empresa afirmou que o comportamento ocorreu apenas em condições específicas e artificiais e não representa motivo de grande preocupação.
De acordo com a Anthropic, as medidas de segurança existentes nos sistemas em que o Claude Opus 4 atua seriam “mais do que suficientes” para impedir que essa tentativa ocorra na prática. Ainda assim, a empresa disse que as proteções da IA foram reforçadas.
Google lança ferramenta que transforma texto em vídeo cinematográfico

IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes

Saiba mais!

‘Incorreta e ilegal’: Meta irá recorrer de multa milionária imposta pela Europa

LinkedIn contrariou regra do TSE ao liberar anúncio proibido em 2024

Apple corta taxa de apps externos, e Spotify já fala em baixar preço