Cuatro conclusiones sobre la carrera por acumular datos para la IA

Cuatro conclusiones sobre la carrera por acumular datos para la IA

datos en línea ha sido durante mucho tiempo un bien valioso. Durante años, Meta y Google han utilizado datos para orientar su publicidad online. Netflix y Spotify lo han utilizado para recomendar más películas y música. Los candidatos políticos han recurrido a los datos para saber en qué grupos de votantes centrar su atención.

En los últimos 18 meses, ha quedado cada vez más claro que los datos digitales también son cruciales en el desarrollo de la inteligencia artificial. Esto es lo que debe saber.

El éxito de la IA depende de los datos. Esto se debe a que los modelos de IA se vuelven más precisos y más humanos con más datos.

De la misma manera que un estudiante aprende leyendo más libros, ensayos y otra información, los grandes modelos de lenguaje (los sistemas que son la base de los chatbots) también se vuelven más precisos y poderosos si se les suministra más datos.

Algunos modelos de lenguaje grandes, como OpenAI GPT-3lanzados en 2020, fueron entrenados en cientos de miles de millones de “tokens”, que son esencialmente palabras o fragmentos de palabras. Se entrenaron modelos de lenguajes grandes más recientes con más de tres billones de tokens.

Las empresas de tecnología están utilizando datos en línea disponibles públicamente para desarrollar sus modelos de IA, más rápido de lo que se producen nuevos datos. Según una predicción, los datos digitales de alta calidad se agotarán en 2026.

En la carrera por obtener más datos, OpenAI, Google y Meta están recurriendo a nuevas herramientas, cambiando sus términos de servicio y participando en debates internos.

En OpenAI, los investigadores crearon un programa en 2021 que convertía el audio de los vídeos de YouTube en texto y luego introducía las transcripciones en uno de sus modelos de IA, yendo en contra de los términos de servicio de YouTube, dijeron personas con conocimiento del tema.

(El New York Times ha demandó a OpenAI y Microsoft por utilizar artículos de noticias con derechos de autor sin permiso para el desarrollo de IA. AbiertoAI y microsoft han dicho que utilizaron artículos de noticias de maneras transformadoras que no violaban la ley de derechos de autor).

Google, propietario de YouTube, también utilizó datos de YouTube para desarrollar sus modelos de inteligencia artificial, entrando en un área legal gris de derechos de autor, dijeron personas con conocimiento de la acción. Y Google revisó su política de privacidad el año pasado para poder utilizar material disponible públicamente para desarrollar más productos de inteligencia artificial.

En Meta, ejecutivos y abogados debatieron el año pasado cómo obtener más datos para el desarrollo de la IA y discutieron la compra de una editorial importante como Simon & Schuster. En reuniones privadas, sopesaron la posibilidad de incluir obras protegidas por derechos de autor en su modelo de IA, incluso si eso significaba que serían demandados más tarde, según las grabaciones de las reuniones, que fueron obtenidas por The Times.

OpenAI, Google y otras empresas están explorando el uso de su IA para crear más datos. El resultado serían lo que se conoce como datos “sintéticos”. La idea es que los modelos de IA generen texto nuevo que luego pueda usarse para construir una mejor IA.

Los datos sintéticos son riesgosos porque los modelos de IA pueden cometer errores. Depender de esos datos puede agravar esos errores.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *