Los modelos de lenguaje de IA se están quedando sin texto escrito por humanos del que aprender

Los modelos de lenguaje de IA se están quedando sin texto escrito por humanos del que aprender

  • Un nuevo estudio publicado por el grupo de investigación Epoch AI proyecta que las empresas de tecnología agotarán el suministro de datos de entrenamiento disponibles públicamente para modelos de lenguaje de IA en algún momento entre 2026 y 2032.
  • Cuando los datos públicos finalmente se agoten, los desarrolladores tendrán que decidir qué alimentar a los modelos de lenguaje. Las ideas incluyen datos que ahora se consideran privados, como correos electrónicos o mensajes de texto, y el uso de «datos sintéticos» creados por otros modelos de IA.
  • Además de entrenar modelos cada vez más grandes, otro camino a seguir es construir modelos de capacitación más capacitados y especializados para tareas específicas.

Sistemas de inteligencia artificial como ChatGPT pronto podrían quedarse sin lo que los hace más inteligentes: las decenas de billones de palabras que la gente ha escrito y compartido en línea.

Un nuevo estudio publicado el jueves por el grupo de investigación Epoch AI proyecta que las empresas de tecnología agotarán el suministro de datos de entrenamiento disponibles públicamente para modelos de lenguaje de IA aproximadamente hacia el cambio de década, en algún momento entre 2026 y 2032.

Comparándolo con una «fiebre del oro literal» que agota los recursos naturales finitos, Tamay Besiroglu, autor del estudio, dijo que el campo de la IA podría enfrentar desafíos para mantener su ritmo actual de progreso una vez que agote las reservas de escritura generada por humanos.

GRITAR PARA ADVERTIR SOBRE ‘RIESGOS SIGNIFICATIVOS’ DE LA IA EN LAS FINANZAS, AL TIEMPO QUE RECONOCE ‘TREMENDAS OPORTUNIDADES’

En el corto plazo, empresas de tecnología como OpenAI, fabricante de ChatGPT, y Google están compitiendo para asegurar y, a veces, pagar, fuentes de datos de alta calidad para entrenar sus grandes modelos de lenguaje de IA, por ejemplo, firmando acuerdos para aprovechar el flujo constante de oraciones que llegan. fuera de foros de Reddit y medios de comunicación.

A largo plazo, no habrá suficientes blogs nuevos, artículos de noticias y comentarios en las redes sociales para sostener la trayectoria actual de desarrollo de la IA, lo que presionará a las empresas para que aprovechen datos confidenciales que ahora se consideran privados (como correos electrónicos o mensajes de texto). confiando en «datos sintéticos» menos confiables escupidos por los propios chatbots.

«Aquí hay un serio cuello de botella», dijo Besiroglu. «Si comienzas a superar esas limitaciones sobre la cantidad de datos que tienes, entonces ya no podrás ampliar tus modelos de manera eficiente. Y ampliar los modelos ha sido probablemente la forma más importante de ampliar sus capacidades y mejorar la calidad de su producción. «

Los sistemas de inteligencia artificial como ChatGPT están consumiendo colecciones cada vez mayores de escritos humanos que necesitan para volverse más inteligentes. (Inserción digital AP)

Los investigadores hicieron sus proyecciones por primera vez hace dos años, poco antes El debut de ChatGPT – en un documento de trabajo que pronostica un límite más inminente para 2026 de datos de texto de alta calidad. Mucho ha cambiado desde entonces, incluidas nuevas técnicas que permitieron a los investigadores de IA hacer un mejor uso de los datos que ya tienen y, a veces, «sobreentrenarse» en las mismas fuentes varias veces.

Pero hay límites y, después de más investigaciones, Epoch ahora prevé quedarse sin datos de texto públicos en algún momento de los próximos dos a ocho años.

El último estudio del equipo está revisado por pares y se presentará en la Conferencia Internacional sobre Aprendizaje Automático de este verano en Viena, Austria. Epoch es un instituto sin fines de lucro organizado por Rethink Priorities, con sede en San Francisco, y financiado por defensores del altruismo efectivo, un movimiento filantrópico que ha invertido dinero en mitigar los peores riesgos de la IA.

Besiroglu dijo que los investigadores de IA se dieron cuenta hace más de una década de que expandir agresivamente dos ingredientes clave (potencia informática y grandes almacenes de datos de Internet) podría mejorar significativamente el rendimiento de los sistemas de IA.

Según el estudio Epoch, la cantidad de datos de texto introducidos en los modelos de lenguaje de IA ha aumentado aproximadamente 2,5 veces por año, mientras que la informática ha crecido aproximadamente 4 veces por año. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su próximo modelo Llama 3, que aún no se ha lanzado, ha sido entrenada en hasta 15 billones de tokens, cada uno de los cuales puede representar una parte de una palabra.

Pero es discutible hasta qué punto vale la pena preocuparse por el cuello de botella de datos.

«Creo que es importante tener en cuenta que no necesariamente necesitamos entrenar modelos cada vez más grandes», dijo Nicolas Papernot, profesor asistente de ingeniería informática en la Universidad de Toronto e investigador del Vector Institute for Artificial Intelligence, una organización sin fines de lucro.

Papernot, que no participó en el estudio de Epoch, dijo que la construcción de sistemas de IA más capacitados también puede provenir de modelos de entrenamiento que estén más especializados para tareas específicas. Pero le preocupa entrenar sistemas de IA generativa con los mismos resultados que están produciendo, lo que lleva a una degradación del rendimiento conocida como «colapso del modelo».

7 COSAS QUE GOOGLE ACABA DE ANUNCIAR QUE VALE LA PENA SEGUIR DE CERCA

El entrenamiento con datos generados por IA es «como lo que sucede cuando fotocopias una hoja de papel y luego fotocopias la fotocopia. Se pierde parte de la información», dijo Papernot. No sólo eso, sino que la investigación de Papernot también ha descubierto que puede codificar aún más los errores, los prejuicios y la injusticia que ya están integrados en el ecosistema de la información.

Si las oraciones reales elaboradas por humanos siguen siendo una fuente fundamental de datos de la IA, quienes administran los tesoros más buscados (sitios web como Reddit y Wikipedia, así como editores de noticias y libros) se han visto obligados a pensar detenidamente sobre cómo se utilizan. siendo utilizado.

«Tal vez no se corten las cimas de todas las montañas», bromea Selena Deckelmann, directora de productos y tecnología de la Fundación Wikimedia, que administra Wikipedia. «Es un problema interesante en este momento que estemos teniendo conversaciones sobre recursos naturales sobre datos creados por humanos. No debería reírme de ello, pero lo encuentro algo sorprendente».

Si bien algunos han tratado de excluir sus datos del entrenamiento de IA, a menudo después ya ha sido tomado sin compensación — Wikipedia ha impuesto pocas restricciones sobre cómo las empresas de inteligencia artificial utilizan sus entradas escritas por voluntarios. Aún así, Deckelmann dijo que espera que siga habiendo incentivos para que la gente siga contribuyendo, especialmente a medida que una avalancha de «contenido basura» barato y generado automáticamente comienza a contaminar Internet.

Las empresas de IA deberían «preocuparse por cómo el contenido generado por humanos sigue existiendo y siendo accesible», dijo.

Desde la perspectiva de los desarrolladores de IA, el estudio de Epoch dice que pagar a millones de humanos para generar el texto que necesitarán los modelos de IA «es poco probable que sea una forma económica» de impulsar un mejor rendimiento técnico.

HAGA CLIC AQUÍ PARA OBTENER LA APLICACIÓN FOX NEWS

Mientras OpenAI comienza a trabajar en el entrenamiento de la próxima generación de sus grandes modelos de lenguaje GPT, el CEO Sam Altman dijo a la audiencia en un evento de las Naciones Unidas el mes pasado que la compañía ya ha experimentado con «generar muchos datos sintéticos» para el entrenamiento.

«Creo que lo que se necesita son datos de alta calidad. Hay datos sintéticos de baja calidad. Hay datos humanos de baja calidad», dijo Altman. Pero también expresó reservas sobre depender demasiado de datos sintéticos en lugar de otros métodos técnicos para mejorar los modelos de IA.

«Sería algo muy extraño si la mejor manera de entrenar un modelo fuera simplemente generar como un billón de tokens de datos sintéticos y volver a alimentarlos», dijo Altman. «De alguna manera eso parece ineficiente».

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *