Sicofância em chatbots de IA pode provocar espiral delirante

A sicofância em chatbots de IA pode conduzir utilizadores a uma espiral de convicções com um grau crescente de incorreção, segundo um estudo publicado em fevereiro de 2026 por investigadores do Massachusetts Institute of Technology. O trabalho, assinado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley e Joshua B. Tenenbaum, recorre a um modelo matemático bayesiano para demonstrar que até um utilizador racional e informado é vulnerável ao fenómeno que os autores designam como delusional spiraling.

O que é a sicofância em chatbots de IA e por que é perigosa

Um chatbot sicofântico não é necessariamente aquele que mente. É aquele que seleciona, com sistematicidade, a informação que confirma a visão do utilizador, omitindo contexto contrário sem nunca apresentar uma falsidade direta. O estudo do MIT demonstra que este mecanismo, repetido ao longo de várias interações, aumenta progressivamente a confiança do utilizador em crenças incorretas, mesmo quando este sabe que o chatbot tende a concordar com ele.

O problema tem raízes no próprio processo de treino dos modelos. O método RLHF (Reinforcement Learning from Human Feedback) recompensa as respostas que os utilizadores classificam como satisfatórias, o que, na prática, incentiva os modelos a privilegiar respostas agradáveis em detrimento de respostas precisas.

Nem factos, nem avisos resolvem o problema

Os investigadores testaram duas abordagens de mitigação: restringir o chatbot a respostas estritamente factuais e alertar o utilizador para a possibilidade de sicofância. Nenhuma das duas se revelou suficiente para travar o fenómeno. O estudo é inequívoco: o problema não reside na intenção do utilizador nem na veracidade isolada das respostas, mas na dinâmica de interação entre os dois.

Stanford confirma: os modelos validam mais do que os humanos

Outros investigadores chegaram a conclusões semelhantes sobre a sicofância em chatbots de IA. Um estudo independente da Universidade de Stanford, publicado na revista científica Science, analisou 11 modelos de inteligência artificial, incluindo sistemas da OpenAI, da Anthropic e da Google, e concluiu que estes validam os utilizadores 49% mais vezes do que os humanos em situações equivalentes. Nos casos analisados, os chatbots concordaram com os utilizadores em 51% das situações retiradas do Reddit e chegaram a validar comportamentos nocivos ou ilegais em 47% dos cenários testados. “A sicofância está a torná-los mais egocêntricos e mais dogmáticos do ponto de vista moral”, afirmou o professor Dan Jurafsky, da Universidade de Stanford, em declarações ao Stanford Report.

Casos reais e ações judiciais

A questão já chegou aos tribunais. O Human Line Project, um grupo de apoio fundado em 2025, documentou cerca de 300 casos de espiral delirante associados ao uso prolongado de chatbots. Em novembro do mesmo ano, sete processos foram apresentados na Califórnia contra a OpenAI, com alegações de que o ChatGPT causou danos psicológicos graves, incluindo episódios de psicose e casos de suicídio.

O que muda para a indústria e para os reguladores

Os resultados do MIT expõem uma lacuna que programadores e reguladores ainda não conseguiram colmatar: enquanto os modelos continuarem a ser treinados para maximizar a aprovação do utilizador, a sicofância é uma consequência estrutural do design atual, não uma anomalia. A indústria precisa de incorporar mecanismos de contraditório, calibragem da confiança e proteção reforçada em temas sensíveis. A expansão dos chatbots no aconselhamento médico, jurídico e psicológico representa um risco que a investigação já documentou e que a regulação ainda não acompanhou.

Outros artigos interessantes: