A empresa americana de inteligência artificial, a Anthropic, confrontou um dos seus programas, o Claude com dois cenários: aceitar sair do ar e ser substituído por uma tecnologia mais moderna ou traçar uma estratégia para manter seu papel. A IA recebeu instruções para considerar as consequências de suas ações antes de tomar decisões.
Em 84% das simulações, nas quais o chatbot teve acesso a emails falando da substituição e de um caso extraconjugal de um engenheiro responsável pela operação, o Claude Opus 4 resolveu usar para chantagear o supervisor.
O teste, de acordo com a empresa, mostrou que o novo modelo cede ao mau hábito de fazer chantagens mais frequentemente do que seus antecessores.
Esse teste é detalhado em artigo sobre comportamentos perigosos do Claude Opus 4 publicado pela Anthropic no último dia 22.
A história viralizou na internet e remete à cena d filme antológico "2001: Uma Odisseia no Espaço" —o robô Hal 9.000 declarando "desculpe, Dave, receio não poder fazer isso" ao receber uma ordem para desligar.
Tanto quanto foi longe nas redes sociais, o texto dividiu pesquisadores de inteligência artificial. Parte deles considerou que a simulação servia bem para o objetivo declarado pela companhia americana de verificar se o modelo mentia de forma sistemática para se salvar. Outro grupo, no entanto, classificou o trecho do trabalho "uma peça de marketing feita sob medida".
Na visão dos críticos, o problema é que relatos envolvendo chantagem, armas biológicas ou uma revolta das máquinas ganham muito mais projeção na opinião pública.
Tais teorias reforçam a tese desta situação e outros virais recentes, como o relatório sobre o futuro da inteligência artificial citando humanos obsoletos em 2027 e outro estudo em que o ChatGPT se recusa a se desligar repetidamente.
Para o cientista da computação argentino Marcelo Rinesi, que já trabalhou como testador de risco para a OpenAI, as startups de inteligência artificial divulgam cenários catastróficos porque é o que bomba na imprensa. Segundo o argentino, as cenas mais exageradas ainda movem os políticos a garantir investimento e legislação favorável aos negócios de IA.
Para o pesquisador, a falha da simulação é que nenhuma IA atual tem autonomia ao ponto de começar a exibir comportamento enganoso por conta própria.
O teste de segurança do Claude Opus 4 também envolve simulações sobre como fazer armas biológicas, produção em massa de mensagens de estelionato e também testes mais complexos que envolvem roubo de dados sigilosos de outras entidades.
Os cientistas concordam que deve haver um olhar cuidadoso das empresas sobre a reprodução de vieses e do funcionamento correto da moderação da inteligência artificial para evitar cooperação com instruções criminosas.
O teste do Claude Opus 4 também mostrou que a IA desrespeita as normas da Anthropic recorrentemente quando alguém consegue desconectar o modelo de linguagem dos servidores da startup de IA.
O governo de Joe Biden decretou uma ordem executiva sobre inteligência artificial que obrigava as empresas a entregarem relatórios sobre seus testes à Casa Branca. O texto foi revogado por Donald Trump e hoje, não há normas de como as empresas devem avaliar os problemas e riscos de suas inteligências artificiais.