Este gusano de IA puede robar datos y romper la seguridad de ChatGPT y Gemini

Los investigadores también advirtieron sobre un «mal diseño arquitectónico» dentro del sistema de IA.

A medida que los sistemas de IA generativa como ChatGPT de OpenAI y Gemini de Google se vuelven más avanzados, los investigadores están desarrollando gusanos de IA que pueden robar sus datos confidenciales y romper las medidas de seguridad de los sistemas de IA generativa, según un informe de Wired.

Investigadores de la Universidad de Cornell, el Instituto de Tecnología Technion-Israel e Intuit han creado el primer gusano de IA generativa llamado «Morris II» que puede robar datos o propagar malware y propagarse de un sistema a otro. Lleva el nombre del primer gusano que se lanzó a Internet en 1988. «Esto básicamente significa que ahora tienes la capacidad de llevar a cabo o llevar a cabo un nuevo tipo de ciberataque que nunca antes se había visto», dijo Ben Nassi. investigador de Cornell Tech. «Nunca antes se había visto»

El gusano de IA podría violar algunas medidas de seguridad en ChatGPT y Gemini al atacar a un innovador asistente de correo electrónico de IA con el objetivo de robar datos de correo electrónico y enviar spam, según el medio.

Los investigadores utilizaron un «autocatalizador hostil» para desarrollar un gusano de IA generativa. Según ellos, este mensaje hace que el modelo de IA generativa genere un mensaje diferente en la respuesta. Para hacer esto, los investigadores crearon un sistema de correo electrónico que puede enviar y recibir mensajes utilizando IA generativa, así como ChatGPT, Gemini y LLM de código abierto. Además, descubrieron dos formas de utilizar el sistema: utilizar un mensaje de texto autocopiable e incrustar la pregunta en un archivo de imagen.

En un caso, los investigadores asumieron el papel de atacantes y enviaron un correo electrónico que contenía un mensaje de texto hostil. Esto «envenena» la base de datos del asistente de correo electrónico mediante el uso de generación de recuperación mejorada, que permite a los LLM obtener más datos desde fuera de su sistema. Según Nassi, la generación de recuperación mejorada «hace jailbreak al servicio GenAI» cuando recupera un correo electrónico en respuesta a la consulta de un usuario y lo envía a GPT-4 o Gemini Pro para generar una respuesta. Esto eventualmente conduce al robo de datos de los correos electrónicos.

«La respuesta que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos del nuevo cliente», añadió.

Para el segundo método, el investigador afirmó que «al cifrar el mensaje que se repite automáticamente en la imagen, cualquier tipo de imagen que contenga spam, material de abuso o incluso propaganda puede redirigirse a nuevos clientes después de que se haya enviado el correo electrónico inicial».

Un vídeo que muestra los resultados muestra que el sistema de correo electrónico reenvía el mensaje repetidamente. Los investigadores afirman que también pueden obtener datos de correo electrónico. «Podrían ser nombres, números de teléfono, números de tarjetas de crédito, números de Seguro Social, cualquier cosa que se considere confidencial», dijo Nasi.

Los investigadores también advirtieron sobre un «mal diseño arquitectónico» dentro del sistema de IA. También informaron sus comentarios a Google y OpenAI. «Parece que encontraron una manera de explotar las vulnerabilidades de tipo inyección confiando en la información del usuario que no fue examinada ni filtrada», dijo un portavoz de OpenAI al medio. Además, afirmaron que están trabajando para hacer que los sistemas sean «más resistentes» y que los desarrolladores deberían «utilizar métodos que garanticen que no trabajan con entradas maliciosas».

READ  Revolucionando la recuperación con aprendizaje profundo

Google se negó a comentar sobre el asunto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *