Lo que hay que saber sobre las empresas de tecnología que utilizan la IA para enseñar su propia IA

OpenAI, Google y otras empresas tecnológicas entrenar a sus chatbots con enormes cantidades de datos extraídos de libros, artículos de Wikipedia, noticias y otras fuentes de Internet. Pero en el futuro esperan utilizar algo llamado datos sintéticos.

Esto se debe a que las empresas de tecnología pueden agotar el texto de alta calidad que Internet tiene para ofrecer para el desarrollo de la inteligencia artificial. Y las empresas se enfrentan a demandas por derechos de autor de autores, organizaciones de noticias y programador de computadoras por utilizar sus obras sin permiso. (En una de esas demandas, Los New York Times demandó a OpenAI y Microsoft.)

Creen que los datos sintéticos ayudarán a reducir los problemas de derechos de autor y aumentarán el suministro de materiales de capacitación necesarios para la IA. Esto es lo que debe saber al respecto.

¿Qué son los datos sintéticos?

Son datos generados por inteligencia artificial.

¿Eso significa que las empresas de tecnología quieren que la IA sea entrenada por IA?

Sí. En lugar de entrenar modelos de IA con texto escrito por personas, empresas tecnológicas como Google, OpenAI y Anthropic esperan entrenar su tecnología con datos generados por otros modelos de IA.

¿Funcionan los datos sintéticos?

No exactamente. Los modelos de IA se equivocan y inventar cosas. También han demostrado que Recoger los sesgos que aparecen en los datos de Internet a partir de los cuales han sido capacitados.. Entonces, si las empresas utilizan la IA para entrenarla, pueden terminar amplificando sus propios defectos.

¿Las empresas de tecnología utilizan ampliamente los datos sintéticos en este momento?

No. Las empresas tecnológicas están experimentando con ello. Pero debido a los posibles defectos de los datos sintéticos, no son una gran parte de la forma en que se construyen los sistemas de IA en la actualidad.

Entonces, ¿por qué las empresas de tecnología dicen que los datos sintéticos son el futuro?

Las empresas creen que pueden perfeccionar la forma en que se crean los datos sintéticos. OpenAI y otros han explorado una técnica en la que dos modelos de IA diferentes trabajan juntos para generar datos sintéticos que son más útiles y confiables.

Un modelo de IA genera los datos. Luego, un segundo modelo juzga los datos, de forma muy parecida a como lo haría un humano, decidiendo si los datos son buenos o malos, precisos o no. En realidad, los modelos de IA son mejores para juzgar el texto que para escribirlo.

«Si le das dos cosas a la tecnología, es bastante bueno elegir cuál se ve mejor», dijo Nathan Lile, director ejecutivo de la nueva empresa de inteligencia artificial SynthLabs.

La idea es que esto proporcionará los datos de alta calidad necesarios para entrenar un chatbot aún mejor.

¿Funciona esta técnica?

Algo así como. Todo se reduce a ese segundo modelo de IA. ¿Qué tan bueno es para juzgar textos?

Anthropic ha sido el que más ha expresado sus esfuerzos para que esto funcione. Afina el segundo modelo de IA utilizando una «constitución» seleccionada por los investigadores de la empresa. Esto enseña al modelo a elegir un texto que respalde ciertos principios, como la libertad, la igualdad y el sentido de hermandad, o la vida, la libertad y la seguridad personal. El método de Anthropic se conoce como “IA constitucional”

Así es como dos modelos de IA funcionan en conjunto para producir datos sintéticos mediante un proceso como el de Anthropic:

Aun así, se necesitan humanos para garantizar que el segundo modelo de IA se mantenga en marcha. Eso limita la cantidad de datos sintéticos que puede generar este proceso. Y los investigadores no están de acuerdo sobre si un método como el de Anthropic seguirá mejorando los sistemas de IA.

¿Los datos sintéticos ayudan a las empresas a evitar el uso de información protegida por derechos de autor?

Los modelos de IA que generan datos sintéticos fueron entrenados a su vez con datos creados por humanos, muchos de los cuales tenían derechos de autor. Por lo tanto, los titulares de derechos de autor aún pueden argumentar que empresas como OpenAI y Anthropic utilizaron textos, imágenes y videos protegidos por derechos de autor sin permiso.

Jeff Clune, profesor de informática de la Universidad de Columbia Británica que anteriormente trabajó como investigador en OpenAI, dijo que los modelos de IA podrían, en última instancia, volverse más poderosos que el cerebro humano en algunos aspectos. Pero lo harán porque aprendieron del cerebro humano.

«Tomando prestado de Newton: la IA ve más allá al apoyarse en conjuntos de datos humanos gigantes», dijo.

BREAKING NEWS