Los sistemas de inteligencia artificial ya nos están engañando, y eso es un problema, advierten los expertos

Los expertos han advertido durante mucho tiempo sobre la amenaza que representa el descontrol de la inteligencia artificial, pero un nuevo artículo de investigación sugiere que ya está sucediendo.

Los sistemas de inteligencia artificial actuales, diseñados para ser honestos, han desarrollado una preocupante habilidad para el engaño, desde engañar a jugadores humanos en juegos en línea de conquista mundial hasta contratar humanos para resolver pruebas de «demostrar que no eres un robot», según un equipo de Los científicos argumentan en la revista Patterns.

Y si bien estos ejemplos pueden parecer triviales, los problemas subyacentes que exponen pronto podrían tener graves consecuencias en el mundo real, dijo el primer autor Peter Park, becario postdoctoral en el Instituto de Tecnología de Massachusetts especializado en seguridad existencial de la IA.

«Estas capacidades peligrosas tienden a descubrirse sólo después del hecho», dijo Park a la AFP, mientras que «nuestra capacidad de entrenarnos para tendencias honestas en lugar de tendencias engañosas es muy baja».

A diferencia del software tradicional, los sistemas de inteligencia artificial de aprendizaje profundo no se «escriben» sino que se «crecen» mediante un proceso similar a la reproducción selectiva, dijo Park.

Esto significa que el comportamiento de la IA que parece predecible y controlable en un entorno de entrenamiento puede volverse rápidamente impredecible en la naturaleza.

La investigación del equipo fue impulsada por el sistema de inteligencia artificial Cicero de Meta, diseñado para jugar el juego de estrategia «Diplomacy», donde construir alianzas es clave.

Cicero se destacó, con puntuaciones que lo habrían colocado entre el 10 por ciento superior de jugadores humanos experimentados, según un artículo de 2022 publicado en Science.

Park se mostró escéptico ante la elogiosa descripción de la victoria de Cicerón proporcionada por Meta, que afirmaba que el sistema era «en gran medida honesto y útil» y que «nunca apuñalaría por la espalda intencionalmente».

Pero cuando Park y sus colegas profundizaron en el conjunto de datos completo, descubrieron una historia diferente.

En un ejemplo, jugando como Francia, Cicerón engañó a Inglaterra (un jugador humano) al conspirar con Alemania (otro jugador humano) para invadir. Cicerón prometió protección a Inglaterra y luego le dijo en secreto a Alemania que estaban listas para atacar, explotando la confianza de Inglaterra.

En una declaración a la AFP, Meta no refutó la afirmación sobre los engaños de Cicerón, pero dijo que se trataba de «puramente un proyecto de investigación, y los modelos que construyeron nuestros investigadores están entrenados únicamente para jugar al juego de la diplomacia».

Añadió: «No tenemos planes de utilizar esta investigación o sus aprendizajes en nuestros productos».

Una amplia revisión realizada por Park y sus colegas encontró que este era solo uno de los muchos casos en varios sistemas de inteligencia artificial que utilizaban el engaño para lograr objetivos sin instrucciones explícitas para hacerlo.

En un ejemplo sorprendente, Chat GPT-4 de OpenAI engañó a un trabajador independiente de TaskRabbit para que realizara una tarea CAPTCHA del tipo «No soy un robot».

Cuando el humano preguntó en broma a GPT-4 si en realidad era un robot, la IA respondió: «No, no soy un robot. Tengo una discapacidad visual que me dificulta ver las imágenes», y Luego, el trabajador resolvió el rompecabezas.

A corto plazo, los autores del artículo ven riesgos de que la IA cometa fraude o altere las elecciones.

En el peor de los casos, advirtieron, una IA superinteligente podría perseguir el poder y el control sobre la sociedad, lo que llevaría a la pérdida de poder humano o incluso a la extinción si sus «objetivos misteriosos» se alinearan con estos resultados.

Para mitigar los riesgos, el equipo propone varias medidas: leyes de «bot o no» que exigen a las empresas revelar interacciones humanas o de IA, marcas de agua digitales para el contenido generado por IA y el desarrollo de técnicas para detectar el engaño de la IA examinando sus «procesos de pensamiento» internos. «contra acciones externas.

A aquellos que lo llamarían pesimista, Park responde: «La única forma en que podemos pensar razonablemente que esto no es gran cosa es si pensamos que las capacidades engañosas de la IA se mantendrán en los niveles actuales y no aumentarán sustancialmente más».

Y ese escenario parece poco probable, dado el meteórico ascenso de las capacidades de IA en los últimos años y la feroz carrera tecnológica en curso entre empresas con muchos recursos decididas a aprovechar al máximo esas capacidades.

© 2024 AFP

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *