Las cajas negras de la IA ahora son un poco menos misteriosas

Una de las cosas más extrañas y desconcertantes de los principales sistemas de inteligencia artificial actuales es que nadie (ni siquiera las personas que los construyen) sabe realmente cómo funcionan.

Esto se debe a que los grandes modelos de lenguaje, el tipo de sistemas de inteligencia artificial que impulsan ChatGPT y otros chatbots populares, no son programados línea por línea por ingenieros humanos, como lo hacen los programas informáticos convencionales.

En cambio, estos sistemas esencialmente aprenden por sí solos, al ingerir grandes cantidades de datos e identificar patrones y relaciones en el lenguaje, y luego usar ese conocimiento para predecir las siguientes palabras en una secuencia.

Una consecuencia de construir sistemas de IA de esta manera es que es difícil aplicarles ingeniería inversa o solucionar problemas identificando errores específicos en el código. En este momento, si un usuario escribe «¿Qué ciudad estadounidense tiene la mejor comida?» y un chatbot responde con «Tokio», no hay una manera real de entender por qué el modelo cometió ese error, o por qué la siguiente persona que pregunte puede recibir una respuesta diferente.

Y cuando los grandes modelos de lenguaje se comportan mal o se descarrilan, nadie puede explicar realmente por qué. (Encontré este problema el año pasado cuando un chatbot de Bing actuó de una manera desquiciada durante una interacción conmigo. Ni siquiera los altos ejecutivos de Microsoft podían decirme con certeza qué había salido mal).

La inescrutabilidad de los grandes modelos lingüísticos no es sólo una molestia, sino una de las principales razones por las que algunos investigadores temen que los potentes sistemas de inteligencia artificial puedan eventualmente convertirse en una amenaza para la humanidad.

Después de todo, si no podemos entender lo que sucede dentro de estos modelos, ¿cómo sabremos si pueden usarse para crear nuevas armas biológicas, difundir propaganda política o escribir códigos informáticos maliciosos para ataques cibernéticos? Si poderosos sistemas de inteligencia artificial comienzan a desobedecernos o engañarnos, ¿cómo podemos detenerlos si no podemos entender qué está causando ese comportamiento en primer lugar?

Para abordar estos problemas, un pequeño subcampo de la investigación de la IA conocido como “interpretabilidad mecanicista” ha pasado años intentando mirar dentro de las entrañas de los modelos de lenguaje de la IA. El trabajo ha sido lento y el progreso ha sido incremental.

También ha habido una creciente resistencia a la idea de que los sistemas de IA representen un gran riesgo. La semana pasada, dos investigadores senior de seguridad de OpenAI, el fabricante de ChatGPT, Deja la compañia en medio de un conflicto con los ejecutivos sobre si la empresa estaba haciendo lo suficiente para que sus productos fueran seguros.

Pero esta semana, un equipo de investigadores de la empresa de inteligencia artificial Anthropic anunció lo que llamaron un gran avance: uno que esperan que nos brinde la capacidad de comprender mejor cómo funcionan realmente los modelos de lenguaje de inteligencia artificial y posiblemente evitar que se vuelvan dañinos.

El equipo resumió sus hallazgos en una publicación de blog llamada «Mapeo de la mente de un modelo de lenguaje grande.”

Los investigadores observaron el interior de uno de los modelos de IA de Anthropic (Claude 3 Sonnet, una versión del modelo de lenguaje Claude 3 de la compañía) y utilizaron una técnica conocida como «aprendizaje de diccionario» para descubrir patrones en cómo se combinan las neuronas, las unidades matemáticas dentro del modelo de IA. , se activaron cuando a Claude se le pidió que hablara sobre ciertos temas. Identificaron aproximadamente 10 millones de estos patrones, a los que llaman «características».

Descubrieron que una función, por ejemplo, estaba activa cada vez que se le pedía a Claude que hablara sobre San Francisco. Otras funciones estaban activas siempre que se mencionaban temas como la inmunología o términos científicos específicos, como el elemento químico litio. Y algunas características estaban vinculadas a conceptos más abstractos, como el engaño o el prejuicio de género.

También descubrieron que activar o desactivar manualmente ciertas funciones podría cambiar el comportamiento del sistema de inteligencia artificial o podría hacer que el sistema incluso rompiera sus propias reglas.

Por ejemplo, descubrieron que si forzaban una característica vinculada al concepto de adulación a activarse con más fuerza, Claude respondería con elogios floridos y exagerados para el usuario, incluso en situaciones en las que los halagos eran inapropiados.

Chris Olah, quien dirigió el equipo de investigación de interpretabilidad antrópica, dijo en una entrevista que estos hallazgos podrían permitir a las empresas de inteligencia artificial controlar sus modelos de manera más efectiva.

«Estamos descubriendo características que pueden arrojar luz sobre preocupaciones sobre prejuicios, riesgos de seguridad y autonomía», dijo. «Me siento muy emocionado de que podamos convertir estas cuestiones controvertidas sobre las que la gente discute en cosas sobre las que realmente podamos tener un discurso más productivo».

Otros investigadores han encontrado fenómenos similares en modelos lingüísticos de tamaño pequeño y mediano. Pero el equipo de Anthropic está entre los primeros en aplicar estas técnicas a un modelo de tamaño completo.

Jacob Andreas, profesor asociado de informática en el MIT, que revisó un resumen de la investigación de Anthropic, lo caracterizó como una señal esperanzadora de que la interpretabilidad a gran escala podría ser posible.

«De la misma manera que comprender aspectos básicos sobre cómo trabaja la gente nos ha ayudado a curar enfermedades, comprender cómo funcionan estos modelos nos permitirá reconocer cuándo las cosas están a punto de ir mal y crear mejores herramientas para controlarlas», afirmó.

Olah, líder de la investigación antrópica, advirtió que si bien los nuevos hallazgos representaban un progreso importante, la interpretabilidad de la IA aún estaba lejos de ser un problema resuelto.

Para empezar, dijo, los modelos de IA más grandes probablemente contengan miles de millones de características que representan conceptos distintos, muchas más que los aproximadamente 10 millones de características que el equipo de Anthropic afirma haber descubierto. Encontrarlos a todos requeriría enormes cantidades de potencia informática y sería demasiado costoso para todas las empresas de IA, excepto para las más ricas.

Incluso si los investigadores identificaran cada característica en un modelo de IA grande, aún necesitarían más información para comprender todo el funcionamiento interno del modelo. Tampoco hay garantía de que las empresas de IA actúen para hacer que sus sistemas sean más seguros.

Aún así, dijo Olah, incluso abrir un poco estas cajas negras de IA podría permitir que las empresas, los reguladores y el público en general se sientan más seguros de que estos sistemas pueden controlarse.

«Hay muchos otros desafíos por delante, pero lo que parecía más aterrador ya no parece un obstáculo», dijo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *