Cuatro conclusiones sobre la carrera por acumular datos para la IA

datos en línea ha sido durante mucho tiempo un bien valioso. Durante años, Meta y Google han utilizado datos para orientar su publicidad online. Netflix y Spotify lo han utilizado para recomendar más películas y música. Los candidatos políticos han recurrido a los datos para saber en qué grupos de votantes centrar su atención.

En los últimos 18 meses, ha quedado cada vez más claro que los datos digitales también son cruciales en el desarrollo de la inteligencia artificial. Esto es lo que debe saber.

Cuantos más datos, mejor.

El éxito de la IA depende de los datos. Esto se debe a que los modelos de IA se vuelven más precisos y más humanos con más datos.

De la misma manera que un estudiante aprende leyendo más libros, ensayos y otra información, los grandes modelos de lenguaje (los sistemas que son la base de los chatbots) también se vuelven más precisos y poderosos si se les suministra más datos.

Algunos modelos de lenguaje grandes, como OpenAI GPT-3lanzados en 2020, fueron entrenados en cientos de miles de millones de “tokens”, que son esencialmente palabras o fragmentos de palabras. Se entrenaron modelos de lenguajes grandes más recientes con más de tres billones de tokens.

Los datos en línea son un recurso valioso y finito.

Las empresas de tecnología están utilizando datos en línea disponibles públicamente para desarrollar sus modelos de IA, más rápido de lo que se producen nuevos datos. Según una predicción, los datos digitales de alta calidad se agotarán en 2026.

Las empresas de tecnología están haciendo todo lo posible para obtener más datos.

En la carrera por obtener más datos, OpenAI, Google y Meta están recurriendo a nuevas herramientas, cambiando sus términos de servicio y participando en debates internos.

En OpenAI, los investigadores crearon un programa en 2021 que convertía el audio de los vídeos de YouTube en texto y luego introducía las transcripciones en uno de sus modelos de IA, yendo en contra de los términos de servicio de YouTube, dijeron personas con conocimiento del tema.

(El New York Times ha demandó a OpenAI y Microsoft por utilizar artículos de noticias con derechos de autor sin permiso para el desarrollo de IA. AbiertoAI y microsoft han dicho que utilizaron artículos de noticias de maneras transformadoras que no violaban la ley de derechos de autor).

Google, propietario de YouTube, también utilizó datos de YouTube para desarrollar sus modelos de inteligencia artificial, entrando en un área legal gris de derechos de autor, dijeron personas con conocimiento de la acción. Y Google revisó su política de privacidad el año pasado para poder utilizar material disponible públicamente para desarrollar más productos de inteligencia artificial.

En Meta, ejecutivos y abogados debatieron el año pasado cómo obtener más datos para el desarrollo de la IA y discutieron la compra de una editorial importante como Simon & Schuster. En reuniones privadas, sopesaron la posibilidad de incluir obras protegidas por derechos de autor en su modelo de IA, incluso si eso significaba que serían demandados más tarde, según las grabaciones de las reuniones, que fueron obtenidas por The Times.

Una solución pueden ser los datos «sintéticos».

OpenAI, Google y otras empresas están explorando el uso de su IA para crear más datos. El resultado serían lo que se conoce como datos “sintéticos”. La idea es que los modelos de IA generen texto nuevo que luego pueda usarse para construir una mejor IA.

Los datos sintéticos son riesgosos porque los modelos de IA pueden cometer errores. Depender de esos datos puede agravar esos errores.

BREAKING NEWS

Cuatro conclusiones sobre la carrera por acumular datos para la IA

Cuantos más datos, mejor.

Los datos en línea son un recurso valioso y finito.

Las empresas de tecnología están haciendo todo lo posible para obtener más datos.

Una solución pueden ser los datos «sintéticos».

Deja una respuesta Cancelar la respuesta