Cansado de los tropos apocalípticos de la IA, el CEO de Cohere dice que su objetivo es una tecnología que sea «aditiva para la humanidad»

Aidan Gomez puede atribuirse algo de crédito por la ‘T’ al final de ChatGPT. Formó parte de un grupo de ingenieros de Google que introdujeron por primera vez un nuevo modelo de inteligencia artificial llamado transformador.

Eso ayudó a sentar las bases para el auge de la IA generativa actual sobre el que se basaron OpenAI, creador de ChatGPT, y otros. Gómez, uno de los ocho coautores del artículo de Google de 2017, era un pasante de 20 años en ese momento.

Ahora es el director ejecutivo y cofundador de Cohere, una startup con sede en Toronto que compite con otras empresas líderes en inteligencia artificial en el suministro de grandes modelos de lenguaje y los chatbots que impulsan a grandes empresas y organizaciones.

Gómez habló sobre el futuro de la IA generativa con The Associated Press. La entrevista ha sido editada para mayor extensión y claridad.

P: ¿Qué es un transformador?

R: Un transformador es una arquitectura de una red neuronal: la estructura del cálculo que ocurre dentro del modelo. La razón por la que los transformadores son especiales en relación con sus pares (otras arquitecturas en competencia, otras formas de estructurar redes neuronales) es esencialmente que escalan muy bien. Se pueden entrenar no sólo en miles, sino en decenas de miles de chips. Se pueden entrenar extremadamente rápido. Utilizan muchas operaciones diferentes para las que están diseñadas estas GPU (chips gráficos). En comparación con lo que existía antes del transformador, realizan ese procesamiento de manera más rápida y eficiente.

P: ¿Qué importancia tienen para lo que haces en Cohere?

R: Muy importante. Usamos la arquitectura transformadora como todos los demás para construir modelos de lenguaje grandes. Para Cohere, un gran enfoque es la escalabilidad y la preparación para la producción de las empresas. Algunos de los otros modelos con los que competimos son enormes y súper ineficientes. En realidad, no se puede poner eso en producción, porque tan pronto como te enfrentas a usuarios reales, los costos se disparan y la economía se arruina.

P: ¿Cuál es un ejemplo específico de cómo un cliente utiliza un modelo Cohere?

R: Tengo un ejemplo favorito en el ámbito de la atención médica. Se debe al sorprendente hecho de que el 40% de la jornada laboral de un médico se dedica a escribir notas sobre los pacientes. Entonces, ¿qué pasaría si pudiéramos hacer que los médicos conectaran un pequeño dispositivo de escucha pasiva para seguirlos durante todo el día, entre las visitas de sus pacientes, escuchar la conversación y completar previamente esas notas para que, en lugar de tener que escribirlas desde cero, haya un primer borrador ahí. Pueden leerlo y simplemente editarlo. De repente, la capacidad de los médicos aumenta en una proporción enorme.

P: ¿Cómo aborda las inquietudes de los clientes acerca de que los modelos de lenguaje de IA son propensos a «alucinaciones» (errores) y sesgos?

R: Los clientes siempre están preocupados por las alucinaciones y los prejuicios. Conduce a una mala experiencia con el producto. Así que es algo en lo que nos centramos mucho. Para las alucinaciones, nos centramos principalmente en RAG, que es la generación de recuperación aumentada. Acabamos de lanzar un nuevo modelo llamado Command R que está dirigido explícitamente a RAG. Le permite conectar el modelo a fuentes privadas de conocimiento confiable. Podrían ser los documentos internos de su organización o los correos electrónicos de un empleado específico. Le estás dando al modelo acceso a información que de otro modo no habría visto en la web cuando estaba aprendiendo. Lo importante es que también le permite verificar los hechos del modelo, porque ahora, en lugar de solo ingresar y salir texto, el modelo en realidad hace referencia a documentos. Puede citar el lugar de donde obtuvo esa información. Puede comprobar su funcionamiento y ganar mucha más confianza trabajando con la herramienta. Reduce enormemente las alucinaciones.

P: ¿Cuáles son los mayores conceptos erróneos del público sobre la IA generativa?

R: El temor que ciertas personas y organizaciones defienden de que esta tecnología sea un terminador, un riesgo existencial. Ésas son historias que la humanidad se ha estado contando a sí misma durante décadas. La tecnología viene, se apodera de nosotros y nos desplaza, dejándonos subordinados. Están muy profundamente arraigados en el tronco cerebral cultural del público. Es una narrativa muy destacada. Es más fácil captar la imaginación y el miedo de las personas cuando les dices eso. Así que le prestamos mucha atención porque es una historia muy apasionante. Pero la realidad es que creo que esta tecnología será profundamente buena. Muchos de los argumentos sobre cómo podría salir mal, quienes desarrollamos la tecnología somos muy conscientes de ellos y trabajamos para mitigar esos riesgos. Todos queremos que esto salga bien. Todos queremos que la tecnología sea un aporte para la humanidad, no una amenaza para ella.

P: No sólo OpenAI, sino varias grandes empresas de tecnología están diciendo ahora explícitamente que están intentando crear inteligencia artificial general (un término para referirse a una IA en términos generales mejor que la humana). ¿AGI es parte de su misión?

R: No, no lo veo como parte de mi misión. Para mí, AGI no es el objetivo final. El objetivo final es un profundo impacto positivo para el mundo con esta tecnología. Es una tecnología muy general. Es razonamiento, es inteligencia. Entonces se aplica en todas partes. Y queremos asegurarnos de que sea la forma más eficaz de tecnología posible, lo antes posible. No es una búsqueda pseudo-religiosa de AGI, de la cual ni siquiera conocemos realmente la definición.

P: ¿Qué viene después?

R: Creo que todo el mundo debería estar atento al uso de herramientas y al comportamiento más parecido al de los agentes. Modelos que puedes presentar por primera vez con una herramienta que hayas creado. Tal vez sea un programa de software o una API (interfaz de programación de aplicaciones). Y puedes decir: ‘Hola modelo, acabo de construir esto’. Esto es lo que hace. Así es como interactúas con él. Esto es parte de tu conjunto de herramientas de cosas que puedes hacer». Ese principio general de poder darle a un modelo una herramienta que nunca antes se había visto y que pueda adoptarla de manera efectiva, creo que será muy poderoso. Para hacer muchas cosas, necesitas acceso a herramientas externas. El status quo actual es que los modelos pueden simplemente escribirle caracteres (texto). Si les das acceso a herramientas, podrán tomar medidas en el mundo real en tu nombre.

© Copyright 2024 The Associated Press. Reservados todos los derechos. Este material no puede publicarse, transmitirse, reescribirse ni redistribuirse sin permiso.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *