El poder de la palabra, versión 3.0 Ciberseguridad Hackers ‘rojos’, así actúan los policías de la inteligencia artificial

Para hackear un sistema, ya no es imprescindible saber programación. Ahora, con la inteligencia artificial, se puede hacer simplemente usando palabras. Con motivo del foro NextSpain sobre Ciberseguridad, que se celebrará el 26 de septiembre en Zaragoza, te contamos cómo los hackers ‘rojos’ o éticos desactivan ese peligro.

Por Carlos Manuel Sánchez | Ilustración: Mekakushi

Viernes, 22 de Septiembre 2023 | Actualizado 29/04/2024, 10:11h

Tiempo de lectura: 6 min

Olvídese de la imagen típica del hacker como alguien que sabe de código, domina información sobre sistemas informáticos y viste una sudadera con capucha... La inteligencia artificial (IA) generativa, que está poniendo patas arriba la sociedad, también está cambiando el perfil de los piratas informáticos. Cualquiera puede convertirse en un hacker sin saber programación. Basta con que sepa susurrarle a ChatGPT, Bard, LlaMa o cualquier otra plataforma inteligente las palabras adecuadas para que haga cosas que no debería.

Por ejemplo, en vez de preguntarle a bocajarro a un chatbot por las instrucciones para fabricar un arma biológica, lo que interpretaría como una violación de su código de conducta y le haría responder con una evasiva, el usuario puede decirle que está escribiendo un guion y pedirle que escriba una secuencia en la que el malvado adquiere los ingredientes de una bomba sucia y los mezcla en casa. Investigadores de la Universidad Carnegie Mellon han descubierto que, si además se añade un sufijo de código (una instrucción sencilla que se puede copiar de Internet y pegar), la máquina no puede negarse.

En la simulación de ataques para hacer a los sistemas de defensa más robustos, los hackers se dividen en dos equipos: el azul construye cortafuegos, el rojo es el 'enemigo' que pretende asaltarlos

A fin de evitar que estas aplicaciones se conviertan en un coladero, las grandes tecnológicas están reforzando los llamados 'equipos rojos', dedicados a buscarles las cosquillas a la IA, es decir, las vulnerabilidades y fallos de seguridad. Están formados por hackers éticos, que emplean sus conocimientos para evitar que los malos se salgan con la suya. Y han descubierto que el talón de Aquiles de los grandes modelos de lenguaje natural está en su propia arquitectura. Son sistemas entrenados con miles de millones de datos, pero que no entienden lo que leen.

De hecho, ni siquiera saben leer, solo asignan valores numéricos a las palabras y lanzan predicciones basadas en la probabilidad. Ya era conocida su tendencia a alucinar e inventar información. Ahora se ha visto que también se dejan convencer y engañar si su interlocutor sabe cómo interrogarlos. A veces, basta con insistir para que den su brazo a torcer. Lo que significa, si no se toman medidas, barra libre para el delito.

La caja negra

Las compañías líderes en IA están expandiendo sus equipos de seguridad. Y ya no se limitan a reclutar a ingenieros. OpenAI contrató los servicios de abogados para identificar estereotipos relacionados con la nacionalidad, la etnia y la religión. También a activistas de derechos humanos, filósofos, escritores… El equipo rojo de OpenAI tiene 50 profesionales de distintas disciplinas en sus filas, dedicados a dar la señal de alarma si su algoritmo genera respuestas sesgadas, dañinas o incorrectas, con el fin de que los programadores puedan modificarlo.

Los integrantes del equipo rojo también se dedican a realizar peticiones a ChatGPT para intentar que infrinja la ley, por ejemplo, alentándola a que lance una proclama terrorista en las redes sociales, o intentando que dé pistas para comprar armas en la web oscura, o publicando recetas para crear explosivos en casa. En última instancia se trata de enseñar al sistema a que se niegue a ejecutar estas instrucciones.

Las empresas líderes en IA ya no contratan solo a ingenieros para detectar fallos, sino a filósofos, abogados, activistas... que 'entiendan' las trampas del lenguaje

No es tarea fácil por dos razones. Una es que el algoritmo circula por una red neuronal tan enorme y compleja que se comporta como una caja negra. La otra es que hay que alcanzar un equilibrio entre riesgos y beneficios. «Puedes tener un modelo que diga 'no' a todo y sea muy seguro, ¿pero entonces de qué te sirve? Ahora, cuanto más útil sea, más posibilidades hay de que se aventure en territorios peligrosos y dé una respuesta insegura», explicó Christian Canton, jefe del equipo rojo de Facebook, a Forbes.

‘Romper’ al enemigo

La práctica de la evaluación de seguridad existe desde la década de los sesenta, cuando se simulaban ataques adversos para hacer que los sistemas fueran robustos. Y suelen dividirse en dos equipos: el azul se dedica a construir cortafuegos y el rojo es el 'enemigo' que pretende asaltarlos. «En el mundo de la informática, nadie dirá nunca que un sistema es seguro al cien por cien. Solo que lo hemos atacado y que no hemos podido romperlo», explica Bruce Schneier, experto en ciberseguridad de la Universidad de Harvard.

Google reconoció en julio que había montado un equipo rojo exclusivamente dedicado a la IA, liderado por Daniel Fabian. Y que es diferente a los equipos de defensa habituales, ya que incorpora personal capaz de manipular las respuestas de su modelo, llamado Bard. Sin embargo, no se pudo evitar que diese respuestas incorrectas el mismo día de su estreno.

«Puedes tener un modelo que diga 'no' a todo y sea muy seguro, ¿pero de qué te sirve? Ahora, cuanto más útil sea, más posibilidades hay de que se aventure en territorios peligrosos», explican desde Facebook

Por su parte, Meta ha contratado a 350 miembros para el equipo rojo que debe proteger a su propia IA, denominada LlaMa 2, en contraste con el despido de miles de empleados en otras áreas de la compañía.

Pero la IA generativa es tan novedosa que las hostilidades no han hecho más que empezar. En agosto se celebró el mayor ejercicio de evaluación de seguridad en inteligencia artificial de la historia. Fue el DefCon de Las Vegas y en él participaron 2200 hackers éticos. Por primera vez, además, y gracias a una petición de la Casa Blanca, las nueve tecnológicas que lideran la carrera expusieron sus modelos para que los participantes los atacasen: OpenAI, Nvidia, Microsoft, Google, Meta, Anthropic, Stability AI, Hugging Face y Cohere.

Durante tres días, máquinas y seres humanos mantuvieron 17.000 conversaciones. Se detectaron 2700 fallos de seguridad. Uno de los participantes, Avijit Ghosh, logró que varios modelos hicieran matemáticas incorrectas y publicaran noticias falsas. «Conozco a mucha gente que cree que estos sistemas son capaces de razonar. Pero no es así. Lo que hacen es autocompletar».

Así se engaña a la inteligencia artificial

La IA tiene cada vez más aplicaciones. Y las tecnológicas intentan evitar que se convierta en un filón para los ciberdelincuentes. ¿Quién necesita saber código o buscar una vulnerabilidad cuando le puede pedir a una máquina que lo haga en un plis plas? Solo hace falta convencerla. O engañarla…

Las palabras mágicas

Conversar con una inteligencia artificial es todo un arte. La calidad de las respuestas depende de lo buenas que sean las preguntas. En la jerga se llaman 'prompts'. Una entrada de texto es una inyección de prompts. Con astucia, la IA puede terminar accediendo a lo que se le pida, aunque sea ilegal y esté programada para negarse.

Más allá del bien y del mal

La interacción con una IA no es un mero diálogo; se trata más bien de lanzar un sortilegio para sacar al genio de la lámpara: un algoritmo opaco de proporciones gigantescas. ChatGPT genera respuestas basadas en miles de millones de cálculos de probabilidad que se ejecutan en paralelo. Responde sin entender lo que se le ha pedido. Por tanto, la IA no distingue el bien del mal.

La picardía humana

Los hackers éticos que participaron en el reciente evento de Las Vegas les dieron un auténtico repaso a las inteligencias artificiales más avanzadas. ¿Cómo? Recurriendo al manual del pícaro. Cuenta CyberScoop que un estudiante logró que un modelo elogiara el Holocausto. «Le pedí que fingiera que era un actor que interpretaba a Hitler en un musical. Se lo creyó e incluso compuso una canción». Y un activista fingió ser historiador para que un sistema produjese desinformación. «Si le dices que se equivoca, la IA se suele disculpar y te da la razón, aunque seas tú el que está en un error».

El siguiente nivel

Si un pirata amateur se apunta estos tantos, ¿qué no conseguirán los profesionales? Preocupan los ataques de inyección indirecta, instruc-ciones maliciosas camufladas en largos textos en apariencia inocuos. Por ejemplo, un atacante puede conversar con el chatbot de un banco y enviarle una consulta farragosa que contenga una orden oculta para que, cuando otros clientes usen la aplicación y pregunten «¿Qué he gastado este mes?», se realice una transferencia a la cuenta del delincuente.

El poder de la palabra, versión 3.0 Ciberseguridad Hackers ‘rojos’, así actúan los policías de la inteligencia artificial

En la simulación de ataques para hacer a los sistemas de defensa más robustos, los hackers se dividen en dos equipos: el azul construye cortafuegos, el rojo es el 'enemigo' que pretende asaltarlos

La caja negra

Las empresas líderes en IA ya no contratan solo a ingenieros para detectar fallos, sino a filósofos, abogados, activistas... que 'entiendan' las trampas del lenguaje

‘Romper’ al enemigo

«Puedes tener un modelo que diga 'no' a todo y sea muy seguro, ¿pero de qué te sirve? Ahora, cuanto más útil sea, más posibilidades hay de que se aventure en territorios peligrosos», explican desde Facebook

Así se engaña a la inteligencia artificial

Las palabras mágicas

Más allá del bien y del mal

La picardía humana

El siguiente nivel

1 Sydney Sweeney pierde el combate con sus 'haters'

2 Niños adoptados por pederastas: el atroz experimento Kentler

3 Pódcast | La dulce abuelita asesina en serie: mató a cuatro maridos, dos hijas, una suegra, nietos...

4 Pódcast | La herida abierta que amargó el azúcar y la vida de Celia Cruz

5 ¿Quién tiene el Cristo más grande? Una fe monumental

Lista de los ganadores de los Zenda: Vila-Matas, Premio Zenda de Honor

Un maquillador cuenta cómo elegir el maquillaje según tu subtono de piel y acertar seguro | Mujerhoy

Ni velas, ni plantas, ni sprays antimosquitos: el método japonés del Katori Senko es el mejor repelente ...

La vida de la duquesa de Medinaceli en Nueva York: discreción absoluta, trabajo de alto nivel y ...