Todo sobre el auge de los datos sintéticos: qué son, en qué sectores se utilizan y qué riesgos pueden suponer
RED
Permiten generar conjuntos estadísticos sin poner en peligro la privacidad de los usuarios, pero no están exentos de riesgos. Lo fundamental es partir de sets con calidad para evitar amplificar errores
08 dic 2025 . Actualizado a las 05:00 h.Datos. Son la base de las grandes innovaciones tecnológicas y, por supuesto, la semilla con la que se alimenta la inteligencia artificial. En un contexto en el que los datos de convierten en un activo tan valioso, se abre también la cuestión de la privacidad y la protección de esa información. «Los datos sintéticos vienen a paliar y resolver este problema», dice Gema Ruiz, responsable de innovación en Softtek, que en The rise of Synthetic Data: data without borders analiza el auge y los perfiles de adopción de los datos sintéticos.
¿Qué son?
Básicamente, datos que se generan de forma artificial. Partiendo de datos reales, se realiza un trabajo para generar información artificial que mantiene el mismo comportamiento estadístico que los datos reales pero sin contener datos personales, por lo que la anonimización y la confidencialidad están aseguradas manteniendo intactos los escenarios necesarios para entrenar algoritmos y generar información artificial. Es decir, son datos artificiales que funcionan como los reales pero carecen de los riesgos que comportan estos últimos.
¿Cómo se construyen esos sets de datos?
A través de inteligencia artificial. Existen una serie de modelos generativos que están entrenados para aprender de los patrones de los conjuntos de datos reales y crear nuevos datos que se ciñen a esos mismos patrones, pero que no corresponden a individuos reales. Existen por ejemplo las redes generativas antagónicas, un modelo en el que dos redes, una que genera y otra que discrimina, van compitiendo. Una crea datos y la otra intenta distinguir si son reales o generados, lo que redunda en la creación de datos muy realistas.
Los modelos de tipo transformer, que aprenden dependencias complejas entre las variables que presentan los datos y así generar secuencias coherentes que reproducen esos comportamientos, pero que no son datos reales. Y también existen simuladores específicos para sectores, como puede ser las finanzas, la sanidad, la movilidad...y que generan escenarios realistas y tipos de datos muy precisos, ya que están generados por conocimiento de profesionales en cada ámbito. «Aquí no solo contamos con IA, sino que también contamos con la experiencia de profesionales de ese sector, lo que permite obtener datos muy realistas», destaca Ruiz.
Los datos que se generan a través de estos modelos son inéditos pero siguen los mismos patrones y tienen el comportamiento, las relaciones y las distribuciones de los datos reales.
¿Qué ventajas supone el uso de datos sintéticos?
Lo esencial es la privacidad y la seguridad. Para entrenar los modelos de IA se utiliza información de personas reales, aunque sea anonimizada, pero los sets de datos sintéticos permiten eliminar por completo los riegos de filtración, exposición de información.
También suponen un ahorro de costes y de tiempo. Para poder utilizar datos reales,estos tienen que pasar por un proceso de limpieza, de anonimización y validación, un proceso largo que conlleva tiempo y actualizaciones y que con los datos sintéticos no es necesario.
¿Qué sectores se pueden beneficiar de estos datos?
Todos. De los datos sintéticos se puede beneficiar cualquier industria, pero aquellos donde la información que se maneja es más confidencial y conlleva más complejidad a la hora de ser compartida, sacan más rédito a los sets sintéticos. La sanidad es uno de ellos, puesto que los datos médico son de especial protección. También el ámbito de la banca y los seguros pueden obtener beneficios importantes de la implantación de datos sintéticos, que permiten simular escenarios de transacciones o fraudes.
Hay otros sectores que no manejan datos tan comprometedores, como puede ser el retail, en el que para poder lanzar campañas personalizadas, segmentar a los individuos, y hacer ofertas correspondientes a su segmento, también es importante la información de cada uno. En este caso, los datos sintéticos permiten controlar y simular esos escenarios sin exponer los datos de clientes.
Los datos sintéticos son también interesantes para ámbitos como el de la administración pública, que podría de esto modo realizar análisis sobre movilidad, seguridad y servicios públicos sin recurrir a los datos de la ciudadanía.
¿Hasta qué punto están implantados en España?
En este momento, la implantación está en plena efervescencia. La adopción de los datos sintéticos es emergente, pero se está acelerando, sobre todo en sectores como la banca, la administración públicas y las finanzas, subraya la responsable de Softtek. «El año pasado se aprobó la AI Act, la ley de inteligencia artificial en Europa, centrada en que los datos sean privados y se proteja la información de las personas». La legislación de la UE ha sido una de las palancas que ha contribuido a que la adopción de datos sintéticos se haya acelerado y así cumplir con la confidencialidad exigida.
«Es cierto que hay otros países que nos llevan muchísima ventaja», reconoce Ruiz, principalmente Estados Unidos y el Reino Unido, aunque son mercados que llevan mucho más tiempo en la carrera, que hacen inversiones mucho mayores en su estrategia de inteligencia artificial y en sus estrategias de datos y están mucho más maduros tecnológicamente.
¿Existen riesgos a la hora de usar datos sintéticos?
Sí, desde luego, la tecnología conlleva una serie de aspectos que es necesario cuidar y tener presentes. Y el primero es la calidad de los datos. «Si partimos de datos reales pero vienen sesgados lo más normal es que cuando agitemos un poco la coctelera del algoritmo para generar nuevos datos arrastremos esa falta de calidad y esos sesgos».
Al mismo tiempo, si se la calidad de los datos es tan excepcional que el modelo memorice demasiado, se puede llegar a una reidentificación, o lo que es lo mismo, que los datos generados sean tan realistas que se pueda identificar al grupo de individuos que se están representando e incluso a los propios individuos, con lo que la privacidad quedaría comprometida.
Otro de los riesgos es que la tecnología es tan incipiente que «todavía no hay métricas ni estándares universales que nos permitan validar esos conjuntos de datos para evaluar la calidad y la utilidad», explica la representante de Softtek.
Finalmente, si los datos sintéticos se utilizan para alimentar modelos aparece un bucle, ya que los datos se obtienen de un modelo y van a entrenar a otro. «Si contamos con modelos que no son precisos o no están bien entrenados, iremos amplificando errores y degradando la calidad y la precisión de los datos».
En cualquier caso, teniendo en mente estos riesgos a la hora de entrenar los algoritmos, «los peligros son ínfimos en comparación con utilizar datos reales». Es decir, los beneficios superan ampliamente a las desventajas, sobre todo en términos de salvaguarda de la privacidad de las personas.