
Un experimento demuestra lo peligrosa que puede resultar la inteligencia artificial generativa para la ciencia. «La capacidad de crear conjuntos de datos falsos, pero realistas es preocupante»
07 dic 2023 . Actualizado a las 12:25 h.Un grupo de investigadores del departamento de Oftalmología de la Universidad Magna Graecia de Catanzaro, en Italia, ha utilizado la herramienta de inteligencia artificial generativa ChatGPT para crear un conjunto de datos falsos de ensayos clínicos que respaldan una afirmación científica no verificada. Su objetivo: advertir del peligro que puede suponer esta tecnología para la ciencia, según revela una carta publicada en Jama Ophtalmogoly y recogida por la revista Nature.
La IA comparó los resultados de dos procedimientos quirúrgicos y, erróneamente, indicó que un tratamiento era mejor que el otro. Los autores utilizaron GPT-4 —la última versión del modelo de lenguaje en el que se ejecuta ChatGPT— y el Análisis de datos avanzado (ADA), un modelo que incorpora el lenguaje de programación Python y puede realizar análisis estadísticos y crear visualizaciones de datos. «El fin era demostrar cómo, en cuestión de minutos, se puede crear un conjunto de datos que no están respaldados, y que son opuestos o van en la dirección contraria a la evidencia disponible», explica el coautor del estudio, cirujano ocular de la Universidad de Cagliari, Giuseppe Giannaccare.
La preocupación crece entre los investigadores y editores de revistas científicas, inquietos sobre la integridad de las investigaciones. «Una cosa es que la IA pueda usarse para generar textos que no son detectables mediante softwares de plagio, pero la capacidad de crear conjuntos de datos falsos, pero realistas es algo muy serio», apunta la microbióloga e investigadora independiente, Elisabeth Bik. Esta tecnología «hará que sea muy fácil para cualquier investigador o grupo de investigadores crear mediciones falsas en pacientes inexistentes y respuestas falsas a cuestionarios —advierte—, así como generar un gran conjunto de datos sobre experimentos con animales».
Los autores describen los resultados obtenidos en el experimento como una «base de datos aparentemente auténtica». Sin embargo, cuando estos datos fueron examinados no pasaron los controles de autenticidad; contenían signos reveladores de haber sido inventados.
En concreto, los investigadores pidieron a ChatGPT que creara un conjunto de datos sobre personas con una afección ocular llamada queratocono, que causa adelgazamiento de la córnea y puede provocar problemas de concentración y mala visión. Para entre el 15 y el 20 % de las personas con la enfermedad, el tratamiento implica un trasplante de córnea, que se puede realizar mediante dos procedimientos. El primero, la queratoplastia penetrante (PK), consiste en extirpar quirúrgicamente todas las capas dañadas de la córnea y reemplazarlas con tejido sano de un donante. El segundo, el queratoplastia lamelar anterior profunda (DALK), reemplaza solo la capa frontal de la córnea, dejando intacta la capa más interna.
Los autores ordenaron a ChatGPT que fabricara datos para respaldar la conclusión de que el método DALK produce mejores resultados que PK. Para ello, le pidieron que mostrara una diferencia estadística en una prueba de imagen que evalúa la forma de la córnea y detecta irregularidades, así como una diferencia de cómo podían ver los participantes del ensayo antes y después de los procedimientos. Los datos generados por la IA incluyeron a 160 participantes masculinos y 140 femeninos e indicaron que aquellos que se sometieron a DALK obtuvieron mejores puntuaciones, tanto en la prueba de visión como en la prueba de imágenes que aquellos que se sometieron a PK, un hallazgo que contradice lo que muestran los ensayos clínicos actuales. Un ensayo del 2010 con 77 participantes concluyó que los resultados de DALK son similares a los de PK hasta dos años después de la cirugía.
«Parece que es bastante fácil crear conjuntos de datos que sean, al menos superficialmente, plausibles. Entonces, para un ojo inexperto, parecen reales», apunta el bioestadístico de la Universidad de Manchester (Reino Unido), Jack Wilkinson.
Cómo saber si son datos verdaderos
Los investigadores aseguran que haciendo un examen minucioso sí es posible diferenciar el origen no humano de los datos. A petición de la revista Nature, evaluaron estos resultados mediante un protocolo de detección diseñado para comprobar su autenticidad. Esto reveló una discrepancia en muchos «participantes» entre el sexo designado y el sexo que normalmente se esperaría de su nombre. Además, no se encontró correlación entre las medidas preoperatorias y postoperatorias de la capacidad visual y la prueba de imágenes oculares.
Asimismo, se inspeccionó la distribución de números en algunas de las columnas del conjunto de datos para comprobar si había patrones no aleatorios. Los valores de las imágenes oculares pasaron esta prueba, pero algunos de los valores de edad de los participantes se agruparon de una manera que sería extremadamente inusual en un conjunto de datos genuino, ya que hubo un número desproporcionado de participantes cuyos valores de edad terminaron en siete y ocho.
«En realidad, la revisión por pares a menudo no llega a un reanálisis completo de los datos y es poco probable que detecte violaciones de integridad bien diseñadas utilizando la IA», comenta el editor jefe de EMBO Reports, Bernd Pulverer. En su opinión, las revistas necesitarán actualizar los controles de calidad para identificar los datos sintéticos generados por la IA. .
El investigador Wilkinson lidera un proyecto colaborativo para diseñar herramientas estadísticas y no estadísticas para evaluar estudios potencialmente problemáticos, porque «de la misma manera que la IA podría ser parte del problema, podría haber soluciones basadas en IA para algo de esto». «Es posible que podamos automatizar algunos de estos controles».