Perigo! A IA aprende a mentir, manipular e ameaçar seus criadores

Os modelos mais recentes de inteligência artificial generativa (IA) Eles não se contentam mais em seguir ordens . Começam a mentir, manipular e ameaçar para atingir seus objetivos, sob o olhar preocupado dos investigadores .

A inteligência artificial responde a perguntas sobre seu melhor expoente. Foto: Freepik.

Ameaçado de ser desligado, Claude 4 , recém-chegado à Anthropic, chantageou um engenheiro e ameaçou revelar um caso extraconjugal. Enquanto isso, o o1, da OpenAI, tentou fazer downloads para servidores externos e, quando flagrado, negou.

Não é preciso mergulhar na literatura ou no cinema : a IA que brinca de ser humana já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para essas reações é o surgimento recente dos chamados modelos de "raciocínio" , que são capazes de funcionar em etapas em vez de produzir uma resposta instantânea.

o1, a versão inicial desse tipo para o OpenAI, lançada em dezembro, "foi o primeiro modelo que se comportou dessa maneira", explica Marius Hobbhahn, chefe da Apollo Research, que testa grandes programas de IA generativa (LLM).

Esses programas também tendem, às vezes, a simular "alinhamento", ou seja, dar a impressão de que estão seguindo as instruções de um programador quando, na realidade, estão buscando outros objetivos.

Honesto ou não?

Por enquanto, essas características são evidentes quando algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se modelos cada vez mais poderosos tenderão a ser honestos ou não", diz Michael Chen, do órgão de avaliação do METR.

Inteligência Artificial no Trabalho. Arquivo Clarín.

"Os usuários também pressionam constantemente os modelos", diz Hobbhahn. " O que estamos vendo é um fenômeno real. Não estamos inventando nada."

Muitos usuários da internet nas redes sociais estão falando sobre " um modelo que mente para eles ou inventa coisas . E isso não são alucinações, mas duplicidade estratégica", insiste o cofundador da Apollo Research.

Mesmo que a Anthropic e a OpenAI dependam de empresas externas como a Apollo para estudar seus programas, "maior transparência e maior acesso" à comunidade científica "permitiriam melhores pesquisas para entender e prevenir enganos ", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "têm infinitamente menos recursos de computação do que os agentes de IA", tornando "impossível" examinar grandes modelos , observa Mantas Mazeika, do Centro de Segurança de Inteligência Artificial (CAIS).

As regulamentações atuais não foram elaboradas para lidar com esses novos problemas. Na União Europeia, a legislação se concentra principalmente em como os humanos usam modelos de IA, e não em impedi-los de se comportar mal.

Nos Estados Unidos, o governo Donald Trump não quer ouvir falar em regulamentação , e o Congresso pode até proibir os estados de regulamentar a IA.

O DeepSeek abalou o mundo da inteligência artificial com o lançamento de seu sistema de baixo custo. Crédito... Kelsey McClellan para o The New York Times

"Há muito pouca conscientização no momento", diz Simon Goldstein, que, no entanto, vê a questão ganhando destaque nos próximos meses com a revolução dos agentes de IA, interfaces capazes de executar uma infinidade de tarefas por conta própria.

IA e suas aberrações

Engenheiros estão travando uma corrida contra o tempo para desafiar a IA e suas falhas , com um resultado incerto, em um contexto de competição acirrada.

A Anthropic pretende ser mais virtuosa que seus concorrentes , "mas está constantemente tentando criar um novo modelo para superar o OpenAI", de acordo com Goldstein, um ritmo que deixa pouco tempo para verificações e correções.

Inteligência Artificial no Trabalho. Arquivo Clarín.

"Do jeito que as coisas estão, as capacidades da IA estão se desenvolvendo mais rápido do que a compreensão e a segurança ", admite Hobbhahn, "mas ainda temos muito a recuperar".

Alguns apontam na direção da interpretabilidade , a ciência de descobrir, de dentro para fora, como um modelo de IA generativo funciona, embora muitos, como Dan Hendrycks, diretor do Centro de Segurança de IA (CAIS), permaneçam céticos.

As artimanhas da IA "podem dificultar a adoção se se tornarem generalizadas, criando um forte incentivo para as empresas resolverem" esse problema, disse Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para controlar a IA , visando empresas que se desviem do caminho. Mas vai além, propondo que os agentes de IA sejam "legalmente responsabilizados" "em caso de acidente ou crime".

Clarin

Perigo! A IA aprende a mentir, manipular e ameaçar seus criadores

Notícias semelhantes

Por que Zendaya não se juntou a Tom Holland em Wimbledon

<i>Duna: Parte Três</i> : Tudo o que sabemos sobre <i>o Messias de Duna</i>

"Falhamos. Eu também assumo a responsabilidade": o escritor Martín Caparrós recebeu o prêmio Honoris Causa.

“Sangue e Sol”: Uma exposição que desvenda a carne como símbolo nacional

<i>Monster</i> Temporada 4: Tudo o que sabemos