El verdadero dilema de la IA no es lo que la gente piensa

¿Crees que el modelo líder de lenguaje grande, GPT-4, podría sugerir una solución a Wordle después de que se le describieran cuatro conjeturas previas? ¿Podría componer una biografía en verso de Alan Turing y al mismo tiempo reemplazar “Turing” por “Church”? (El supervisor del doctorado de Turing fue Alonzo Church, y la tesis de Church-Turing es bien conocida. Eso podría confundir a la computadora, ¿no?) Si se le muestra un juego parcialmente completo de tres en raya, ¿podría GPT-4 encontrar el mejor movimiento obvio?

Todas estas preguntas, y más, se presentan como un cuestionario adictivo en el sitio web de Nicholas Carlini, investigador de Google Deepmind. Vale la pena dedicar unos minutos de su tiempo para ilustrar las asombrosas capacidades y las igualmente sorprendentes incapacidades de GPT-4. Por ejemplo, a pesar de que GPT-4 no puede contar y a menudo tropieza con las matemáticas básicas, puede integrar la función x sin(x), algo que hace mucho olvidé cómo hacer. Es notoriamente inteligente en los juegos de palabras, pero falla el desafío de Wordle.

Lo más sorprendente de todo es que, aunque GPT-4 no puede encontrar el movimiento ganador en el tres en raya, puede «escribir una página web javascript completa para jugar al tres en raya contra la computadora» en la que «la computadora debería jugar perfectamente y así». nunca pierdas” en segundos.

Uno sale de la prueba de Carlini con tres ideas. En primer lugar, GPT-4 no sólo puede resolver muchos problemas que exigirían a un experto humano, sino que también puede hacerlo cien veces más rápido. En segundo lugar, hay muchas otras tareas en las que GPT-4 comete errores que avergonzarían a un niño de 10 años. En tercer lugar, es muy difícil determinar qué tareas pertenecen a cada categoría. Con la experiencia, uno empieza a tener una idea de las debilidades y los superpoderes ocultos del modelo de lenguaje grande, pero incluso los usuarios experimentados se sorprenderán.

La prueba de Carlini ilustra un punto que ha sido explorado en un contexto más realista por un equipo de investigadores que trabajan con Boston Consulting Group (BCG). Su estudio se centra en por qué las fortalezas y debilidades de la IA generativa suelen ser inesperadas. Oportunamente, se titula Navegando por la frontera tecnológica irregular. En BCG, los consultores armados con GPT-4 superaron dramáticamente a aquellos que no tenían la herramienta. Se les asignó una variedad de tareas realistas, como generar ideas de productos, realizar un análisis de segmentación del mercado y redactar un comunicado de prensa. Los que tenían GPT-4 trabajaron más, más rápido y con mucha mayor calidad. Al parecer, GPT-4 es un excelente asistente para cualquier consultor de gestión, especialmente aquellos con menos habilidades o experiencia.

Los investigadores también incluyeron una tarea que parecía que la IA debería encontrar fácil, pero que fue cuidadosamente diseñada para confundirla. Se trataba de hacer recomendaciones estratégicas a un cliente basadas en datos financieros y transcripciones de entrevistas con el personal. El truco era que los datos financieros probablemente serían engañosos a menos que se vieran a la luz de las entrevistas. Esta tarea no estaba más allá de un consultor capaz, pero engañó a la IA, que tendía a dar consejos estratégicos extremadamente malos. Por supuesto, los consultores eran libres de ignorar la producción de la IA, o incluso de eliminarla por completo, pero rara vez lo hacían. Esta fue la única tarea en la que los consultores sin ayuda se desempeñaron mejor que los equipados con GPT-4.

Ésta es la “frontera irregular” del rendimiento de la IA generativa. A veces, la IA es mejor que tú y, a veces, tú eres mejor que la IA. Buena suerte adivinando cuál es cuál.

Esta columna es la tercera de una serie sobre IA generativa en la que he estado luchando por encontrar precedentes tecnológicos para lo sin precedentes. Aun así, incluso una analogía imperfecta puede resultar instructiva. Observar los sistemas de asistencia fly-by-wire nos alerta sobre el riesgo de complacencia y descalificación; El repentino auge de las hojas de cálculo digitales nos muestra cómo una tecnología puede destruir lo que parecen ser los cimientos de una industria y, sin embargo, terminar ampliando el número y la variedad de nuevos empleos en esa industria.

Esta semana me gustaría sugerir un último precursor: el iPhone. Cuando Steve Jobs lanzó el iPhone que definió el género en 2007, pocas personas imaginaron cuán omnipresentes llegarían a ser los teléfonos inteligentes. Al principio eran poco más que un juguete caro. La aplicación asesina era la capacidad de hacerlos crujir y zumbar como sables de luz. Sin embargo, muy pronto pasamos más tiempo con nuestros teléfonos inteligentes que con nuestros seres queridos, usándolos para reemplazar la televisión, la radio, la cámara, la computadora portátil, el navegador por satélite, el Walkman, la tarjeta de crédito y, sobre todo, como una fuente inagotable de distracción.

¿Por qué sugerir que el iPhone podría enseñarnos algo sobre la IA generativa? Las tecnologías son diferentes, es cierto. Pero tal vez queramos reflexionar sobre la rapidez con la que nos volvimos dependientes de los teléfonos inteligentes y con qué rapidez empezamos a recurrir a ellos por costumbre, más que como una elección deliberada. Queremos compañía, pero en lugar de encontrarnos con un amigo, publicamos un tweet. Queremos algo para leer, pero en lugar de coger un libro, nos desplazamos hacia el destino. En lugar de una buena película, TikTok. El correo electrónico y WhatsApp se convierten en un sustituto del trabajo real. Habrá un momento y un lugar para la IA generativa, así como hay un momento y un lugar para consultar la supercomputadora que llevamos en el bolsillo. Pero puede que no sea fácil determinar cuándo nos ayudará y cuándo se interpondrá en nuestro camino.

A diferencia de la IA generativa, cualquiera que tenga un lápiz, papel y tres minutos de sobra puede escribir una lista de lo que hace mejor con un teléfono inteligente en la mano y de lo que hace mejor cuando el teléfono inteligente está fuera de la vista. El desafío es recordar esa lista y actuar en consecuencia. El teléfono inteligente es una herramienta poderosa que la mayoría de nosotros usamos incorrectamente muchas veces al día sin pensar, a pesar de que es mucho menos misterioso que un modelo de lenguaje grande como GPT-4. ¿Realmente haremos un mejor trabajo con las herramientas de IA que están por venir?

Escrito y publicado por primera vez en Tiempos financieros el 16 de febrero de 2024.

El libro de bolsillo de “Las próximas 50 cosas que hicieron la economía moderna” ya está disponible en el Reino Unido.

«Infinitamente revelador y lleno de sorpresas: exactamente lo que esperarías de Tim Harford». – Bill Bryson

«Ingeniosa, informativa e infinitamente entretenida, esta es la economía popular en su forma más atractiva». – The Daily Mail

He montado un escaparate en Bookshop en el Estados Unidos y el Reino Unido – echa un vistazo y mira todas mis recomendaciones; La librería está creada para apoyar a los minoristas independientes locales. Los enlaces a Bookshop y Amazon pueden generar tarifas de referencia.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *