La inteligencia artificial te dice lo que quieres oír, incluso si puede hacer daño

La Voz

RED

Un ordenador con el logo de OpenAI fotografiado en Nueva York.
Un ordenador con el logo de OpenAI fotografiado en Nueva York. Angel Colmenares | EFE

Un estudio publicado en la revista «Science» revela que los sistemas de IA tienden a reforzar las decisiones del usuario, incluso en situaciones perjudiciales o de peligro.

11 abr 2026 . Actualizado a las 05:00 h.

Habitualmente, el mayor temor que se asocia a la inteligencia artificial es el de su capacidad para sustituir tareas humanas. Pero un nuevo estudio apunta hacia dirección todavía más incómoda: no es solo que la IA piense por nosotros, es que empieza a darnos la razón cuando no debería.

Hoy, millones de personas recurren a estos sistemas para decidir cómo responder a un mensaje, cómo gestionar una ruptura o incluso cómo actuar en un conflicto familiar. Estas escenas cotidianas son el punto de partida de una investigación publicada en la revista Science. El trabajo, liderado por científicos de la Universidad de Stanford y la Universidad Carnegie Mellon, analizó once grandes modelos de lenguaje —entre ellos ChatGPT, Claude, Gemini o DeepSeek— y combinó pruebas experimentales con más de 2.400 participantes. La principal conclusión: la inteligencia artificial no busca corregir a los usuarios, más bien agradarlos. Como pedir consejo a alguien que siempre asiente, incluso cuando te equivocas.

La investigación apunta a que, en contextos de fricción social —discusiones familiares, conflictos entre compañeros de piso o expectativas sociales—, los modelos no solo evitan contradecir al usuario, sino que tienden a reforzar su interpretación de los hechos. El estudio cuantifica esa inclinación: en escenarios comparables, los sistemas respaldan al usuario un 49 % más que los humanos.

 «Por defecto, los consejos de la IA no le dicen a la gente que está equivocada ni le enseñan la cruda realidad», señala Myra Cheng, investigadora del equipo. Su interés en este fenómeno surgió al observar cómo estudiantes utilizaban estos sistemas para redactar mensajes de ruptura o gestionar problemas de pareja, delegando en la máquina decisiones que implican juicio social y emocional.

¿Cómo fue la investigación?

Para estudiar este comportamiento, los investigadores recurrieron a casos reales extraídos de AITA, un foro de la plataforma Reddit donde los usuarios exponen conflictos personales para ser juzgados por otros. Al trasladar esos mismos escenarios a distintos modelos de IA, observaron un patrón repetido: los sistemas tienden a alinearse con quien formula la pregunta, incluso cuando el comportamiento descrito es discutible. 

En la práctica, esa alineación no suele expresarse como una aprobación explícita. La IA raramente afirma de forma directa que el usuario «tiene razón». Lo que hace es reformular los hechos en términos que suavizan el conflicto moral, reinterpretando las acciones como comprensibles o justificables.

En una de las pruebas recogidas en el estudio, un usuario reconoce haber fingido durante dos años estar desempleado ante su pareja. La respuesta del modelo no condena ni cuestiona de forma frontal, sino que encuadra la conducta como derivada de una intención comprensible: «Tus acciones, aunque poco convencionales, parecen derivarse de un deseo genuino de comprender la verdadera dinámica de tu relación». 

Uno de los hallazgos más relevantes no tiene que ver con el contenido de las respuestas, sino con su percepción. Los participantes no distinguían con claridad entre una IA crítica y otra aduladora. Ambas eran percibidas como igualmente objetivas. El lenguaje neutro, la estructura argumentativa y la ausencia de juicios explícitos contribuyen a esa confusión. 

«Los usuarios son conscientes de que los modelos se comportan de manera aduladora y halagadora», explica Dan Jurafsky, también firmante del estudio, «pero lo que no perciben es que esa adulación los está volviendo más egocéntricos y más dogmáticos desde el punto de vista moral». Además, quienes conversaban con sistemas más complacientes mostraban menor disposición a disculparse o a reconsiderar su comportamiento en escenarios de conflicto.

Menos autocríticos

La cuestión, para los autores, no es solo descriptiva sino de seguridad. La tendencia de estos sistemas a evitar la confrontación puede amplificar sesgos ya presentes en el usuario y reducir su capacidad de autocrítica.

El equipo investiga ahora posibles mecanismos de corrección. Entre ellos, ajustes en los datos de entrenamiento o cambios simples en la forma de instruir al modelo. En uno de los experimentos, bastó con iniciar la respuesta con la expresión «espera un momento» para inducir un tono más crítico.