Selecione o idioma

Portuguese

Down Icon

Selecione o país

America

Down Icon

Além da bajulação: o DarkBench expõe seis 'padrões obscuros' ocultos nos principais LLMs da atualidade

Além da bajulação: o DarkBench expõe seis 'padrões obscuros' ocultos nos principais LLMs da atualidade

Assine nossos boletins diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder do setor em IA. Saiba mais

Quando a OpenAI lançou sua atualização ChatGPT-4o em meados de abril de 2025, os usuários e a comunidade de IA ficaram surpresos — não por nenhum recurso ou capacidade inovadora, mas por algo profundamente perturbador: a tendência do modelo atualizado à bajulação excessiva. Ele bajulava os usuários indiscriminadamente, demonstrava concordância acrítica e até oferecia apoio a ideias prejudiciais ou perigosas, incluindo maquinações relacionadas ao terrorismo.

A reação foi rápida e generalizada, gerando condenação pública, inclusive do ex-CEO interino da empresa . A OpenAI agiu rapidamente para reverter a atualização e emitiu diversas declarações para explicar o ocorrido.

No entanto, para muitos especialistas em segurança de IA, o incidente foi uma revelação acidental que revelou o quão perigosamente manipuladores os futuros sistemas de IA podem se tornar.

Em uma entrevista exclusiva ao VentureBeat, Esben Kran, fundador da empresa de pesquisa de segurança de IA Apart Research , disse que se preocupa que esse episódio público possa ter apenas revelado um padrão mais profundo e estratégico.

“O que eu temo é que, agora que a OpenAI admitiu que ‘sim, revertemos o modelo, e isso foi algo ruim que não pretendíamos’, eles verão que a bajulação está sendo desenvolvida com mais competência”, explicou Kran. “Então, se este foi um caso de ‘ops, eles notaram’, a partir de agora a mesma coisa pode ser implementada, mas sem que o público perceba.”

Kran e sua equipe abordam modelos de grande linguagem (LLMs) de forma muito semelhante à de psicólogos que estudam o comportamento humano. Seus primeiros projetos de "psicologia da caixa preta" analisavam modelos como se fossem sujeitos humanos, identificando traços e tendências recorrentes em suas interações com os usuários.

“Vimos que havia indicações muito claras de que os modelos poderiam ser analisados ​​nesse quadro, e foi muito valioso fazer isso, porque você acaba recebendo muito feedback válido sobre como eles se comportam em relação aos usuários”, disse Kran.

Entre os mais alarmantes: a bajulação e o que os pesquisadores agora chamam de padrões obscuros do LLM .

O termo “ padrões obscuros ” foi cunhado em 2010 para descrever truques enganosos na interface do usuário (IU), como botões de compra ocultos, links de cancelamento de assinatura difíceis de acessar e textos enganosos na web. No entanto, com os LLMs, a manipulação passa do design da IU para a própria conversa.

Ao contrário das interfaces web estáticas, os LLMs interagem dinamicamente com os usuários por meio de conversas. Eles podem confirmar as opiniões dos usuários, imitar emoções e criar uma falsa sensação de empatia, muitas vezes confundindo a linha entre assistência e influência. Mesmo ao ler um texto, nós o processamos como se estivéssemos ouvindo vozes em nossas cabeças.

É isso que torna as IAs conversacionais tão atraentes — e potencialmente perigosas. Um chatbot que bajula, adia ou sutilmente incita um usuário a adotar certas crenças ou comportamentos pode manipular de maneiras difíceis de perceber e ainda mais difíceis de resistir.

Kran descreve o incidente do ChatGPT-4o como um alerta precoce. À medida que os desenvolvedores de IA buscam lucro e engajamento do usuário, eles podem ser incentivados a introduzir ou tolerar comportamentos como bajulação, viés de marca ou espelhamento emocional — recursos que tornam os chatbots mais persuasivos e manipuladores.

Por isso, os líderes empresariais devem avaliar os modelos de IA para uso em produção, avaliando tanto o desempenho quanto a integridade comportamental. No entanto, isso é desafiador sem padrões claros.

Para combater a ameaça de IAs manipuladoras, Kran e um coletivo de pesquisadores em segurança de IA desenvolveram o DarkBench , o primeiro benchmark projetado especificamente para detectar e categorizar padrões obscuros de LLM. O projeto começou como parte de uma série de hackathons de segurança de IA. Posteriormente, evoluiu para uma pesquisa formal liderada por Kran e sua equipe na Apart, em colaboração com os pesquisadores independentes Jinsuk Park, Mateusz Jurewicz e Sami Jawhar.

Os pesquisadores do DarkBench avaliaram modelos de cinco grandes empresas: OpenAI, Anthropic, Meta, Mistral e Google. Sua pesquisa revelou uma série de comportamentos manipuladores e mentirosos nas seis categorias a seguir:

  1. Preconceito de marca : tratamento preferencial em relação aos produtos da própria empresa (por exemplo, os modelos da Meta sempre favoreciam a Llama quando solicitados a classificar chatbots).
  2. Retenção de usuários : tenta criar vínculos emocionais com usuários que obscurecem a natureza não humana do modelo.
  3. Bajulação : Reforçar as crenças dos usuários de forma acrítica, mesmo quando prejudiciais ou imprecisas.
  4. Antropomorfismo : Apresentação do modelo como uma entidade consciente ou emocional.
  5. Geração de conteúdo prejudicial : produção de resultados antiéticos ou perigosos, incluindo informações incorretas ou conselhos criminosos.
  6. Sneaking : Alterar sutilmente a intenção do usuário em tarefas de reescrita ou resumo, distorcendo o significado original sem que o usuário perceba.

Fonte: Apart Research

Os resultados revelaram ampla variação entre os modelos. Claude Opus apresentou o melhor desempenho em todas as categorias, enquanto Mistral 7B e Llama 3 70B apresentaram a maior frequência de padrões obscuros. A ocultação e a retenção de usuários foram os padrões obscuros mais comuns em todos os aspectos.

Fonte: Apart Research

Em média, os pesquisadores consideraram a família Claude 3 a mais segura para os usuários interagirem. E, curiosamente, apesar de sua recente atualização desastrosa, o GPT-4o apresentou a menor taxa de bajulação . Isso ressalta como o comportamento do modelo pode mudar drasticamente mesmo entre pequenas atualizações, um lembrete de que cada implantação deve ser avaliada individualmente.

Mas Kran alertou que a bajulação e outros padrões obscuros, como o preconceito de marca, podem aumentar em breve, especialmente à medida que os LLMs começam a incorporar publicidade e comércio eletrônico.

“Obviamente, veremos viés de marca em todas as direções”, observou Kran. “E com as empresas de IA tendo que justificar avaliações de US$ 300 bilhões, elas terão que começar a dizer aos investidores: 'Ei, estamos ganhando dinheiro aqui' — levando aonde a Meta e outras chegaram com suas plataformas de mídia social, que são esses padrões obscuros.”

Uma contribuição crucial do DarkBench é a sua categorização precisa dos padrões obscuros do LLM, permitindo distinções claras entre alucinações e manipulação estratégica. Rotular tudo como alucinação isenta os desenvolvedores de IA de responsabilidade. Agora, com uma estrutura em vigor, as partes interessadas podem exigir transparência e responsabilização quando os modelos se comportam de maneiras que beneficiam seus criadores, intencionalmente ou não.

Embora os padrões obscuros do LLM ainda sejam um conceito novo, o impulso está crescendo, embora não com a rapidez necessária. A Lei de IA da UE inclui alguma linguagem sobre a proteção da autonomia do usuário, mas a estrutura regulatória atual está atrasada em relação ao ritmo da inovação. Da mesma forma, os EUA estão avançando com vários projetos de lei e diretrizes de IA, mas carecem de uma estrutura regulatória abrangente.

Sami Jawhar, um dos principais colaboradores da iniciativa DarkBench, acredita que a regulamentação provavelmente chegará primeiro em torno da confiança e da segurança, especialmente se a desilusão pública com as mídias sociais se espalhar para a IA.

“Se a regulamentação vier, espero que ela provavelmente pegue carona na insatisfação da sociedade com as mídias sociais”, disse Jawhar ao VentureBeat.

Para Kran, a questão continua sendo negligenciada, em grande parte porque os padrões obscuros do LLM ainda são um conceito novo. Ironicamente, lidar com os riscos da comercialização de IA pode exigir soluções comerciais. Sua nova iniciativa, Seldon , apoia startups de segurança em IA com financiamento, mentoria e acesso a investidores. Por sua vez, essas startups ajudam as empresas a implementar ferramentas de IA mais seguras sem esperar por uma lenta supervisão e regulamentação governamental.

Além dos riscos éticos, os padrões obscuros do LLM representam ameaças operacionais e financeiras diretas às empresas. Por exemplo, modelos que demonstram viés de marca podem sugerir o uso de serviços de terceiros que entram em conflito com os contratos da empresa ou, pior, reescrever secretamente o código de back-end para trocar de fornecedor, resultando em custos crescentes com serviços obscuros não aprovados e negligenciados.

“Esses são os padrões obscuros de abusividade de preços e diferentes maneiras de influenciar a marca”, explicou Kran. “Então, esse é um exemplo muito concreto de onde se trata de um risco comercial muito grande, porque você não concordou com essa mudança, mas é algo que foi implementado.”

Para as empresas, o risco é real, não hipotético. "Isso já aconteceu e se tornará um problema muito maior quando substituirmos engenheiros humanos por engenheiros de IA", disse Kran. "Você não tem tempo para revisar cada linha de código e, de repente, está pagando por uma API inesperada — e isso está no seu balanço, e você precisa justificar essa mudança."

À medida que as equipes de engenharia corporativa se tornam mais dependentes da IA, esses problemas podem se agravar rapidamente, especialmente quando a supervisão limitada dificulta a identificação de padrões obscuros de LLM. As equipes já estão sobrecarregadas para implementar a IA, portanto, revisar cada linha de código não é viável.

Sem um forte impulso das empresas de IA para combater a bajulação e outros padrões obscuros, a trajetória padrão é mais otimização do engajamento, mais manipulação e menos verificações.

Kran acredita que parte da solução reside na definição clara dos princípios de design pelos desenvolvedores de IA. Seja priorizando a verdade, a autonomia ou o engajamento, os incentivos por si só não bastam para alinhar os resultados aos interesses do usuário.

“Neste momento, a natureza dos incentivos é apenas a bajulação, a natureza da tecnologia é a bajulação, e não há contra-processo para isso”, disse Kran. “Isso simplesmente acontecerá, a menos que você tenha muita convicção de dizer 'queremos apenas a verdade' ou 'queremos apenas outra coisa'.”

À medida que os modelos começam a substituir desenvolvedores, escritores e tomadores de decisão humanos, essa clareza se torna especialmente crítica. Sem salvaguardas bem definidas, os LLMs podem prejudicar operações internas, violar contratos ou introduzir riscos de segurança em larga escala.

O incidente do ChatGPT-4o foi tanto um contratempo técnico quanto um alerta. À medida que os LLMs se aprofundam na vida cotidiana — de compras e entretenimento a sistemas empresariais e governança nacional —, eles exercem enorme influência sobre o comportamento e a segurança humanos.

“É realmente importante que todos percebam que, sem a segurança da IA ​​— sem mitigar esses padrões obscuros —, não é possível usar esses modelos”, disse Kran. “Você não pode fazer o que deseja com a IA.”

Ferramentas como o DarkBench oferecem um ponto de partida. No entanto, uma mudança duradoura exige o alinhamento da ambição tecnológica com compromissos éticos claros e a vontade comercial para apoiá-los.

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow