Las empresas de inteligencia artificial entrenan modelos de lenguaje en el archivo de YouTube, lo que convierte los videos de familiares y amigos en un riesgo para la privacidad

La revolución de la inteligencia artificial prometida requiere datos. Muchos, muchos datos. OpenAI y Google han comenzado a usar videos de YouTube para entrenar sus modelos de IA basados en texto. Pero ¿qué incluye realmente el archivo de YouTube?

Nuestro equipo de investigadores de medios digitales de la Universidad de Massachusetts Amherst recopiló y analizó muestras aleatorias de videos de YouTube para obtener más información sobre ese archivo. Publicamos un artículo de 85 páginas sobre ese conjunto de datos y creamos un sitio web llamado TubeStats para investigadores y periodistas que necesitan información básica sobre YouTube.

Ahora, vamos a analizar más de cerca algunos de nuestros hallazgos más sorprendentes para entender mejor cómo estos videos poco conocidos podrían convertirse en parte de poderosos sistemas de inteligencia artificial. Descubrimos que muchos videos de YouTube están destinados al uso personal o a pequeños grupos de personas, y una proporción significativa fueron creados por niños que parecen tener menos de 13 años.

La mayor parte del iceberg de YouTube

La experiencia de la mayoría de las personas en YouTube está seleccionada por algoritmos: hasta el 70 % de los videos que miran los usuarios son recomendados por los algoritmos del sitio. Los videos recomendados suelen ser contenido popular, como trucos de influencers, clips de noticias, videos explicativos, vlogs de viajes y reseñas de videojuegos, mientras que el contenido que no se recomienda languidece en la oscuridad.

Algunos contenidos de YouTube imitan a creadores populares o encajan en géneros establecidos, pero gran parte son personales: celebraciones familiares, selfies con música, tareas escolares, clips de videojuegos sin contexto y niños bailando. El lado oscuro de YouTube (la gran mayoría de los aproximadamente 14.800 millones de vídeos creados y subidos a la plataforma) es poco conocido.

Esclarecer este aspecto de YouTube –y de las redes sociales en general– es difícil porque las grandes empresas tecnológicas se han vuelto cada vez más hostiles a los investigadores.

Descubrimos que muchos videos de YouTube nunca estuvieron pensados para ser compartidos ampliamente. Documentamos miles de videos personales cortos que tienen pocas vistas pero una alta participación (me gusta y comentarios), lo que implica una audiencia pequeña pero muy comprometida. Estos estaban claramente pensados para una audiencia pequeña de amigos y familiares. Estos usos sociales de YouTube contrastan con los videos que intentan maximizar su audiencia, lo que sugiere otra forma de usar YouTube: como una red social centrada en videos para grupos pequeños.

Otros videos parecen estar destinados a un tipo diferente de audiencia pequeña y fija: clases grabadas de instrucción virtual en tiempos de pandemia, reuniones de consejos escolares y reuniones de trabajo. Si bien no son lo que la mayoría de la gente considera usos sociales, también implican que sus creadores tienen expectativas diferentes sobre la audiencia de los videos que los creadores del tipo de contenido que la gente ve en sus recomendaciones.

Combustible para la máquina de IA

Fue con esta comprensión más amplia que leímos el artículo del New York Times sobre cómo OpenAI y Google recurrieron a YouTube en una carrera por encontrar nuevos conjuntos de datos para entrenar sus grandes modelos de lenguaje. Un archivo de transcripciones de YouTube constituye un conjunto de datos extraordinario para los modelos basados en texto.

También existe especulación, impulsada en parte por una respuesta evasiva de la directora de tecnología de OpenAI, Mira Murati, de que los videos en sí mismos podrían usarse para entrenar modelos de texto a video de IA como Sora de OpenAI.

El artículo del New York Times planteó inquietudes sobre las condiciones de servicio de YouTube y, por supuesto, sobre los problemas de derechos de autor que impregnan gran parte del debate sobre la IA. Pero hay otro problema: ¿cómo podría alguien saber qué contiene realmente un archivo de más de 14 mil millones de vídeos subidos por personas de todo el mundo? No está del todo claro si Google lo sabe o incluso si podría saberlo si quisiera.

Los niños como creadores de contenidos

Nos sorprendió encontrar una cantidad inquietante de videos protagonizados por niños o aparentemente creados por ellos. YouTube exige que quienes suben los videos tengan al menos 13 años, pero con frecuencia vimos niños que parecían ser mucho más jóvenes, generalmente bailando, cantando o jugando videojuegos.

En nuestra investigación preliminar, nuestros codificadores determinaron que casi una quinta parte de los videos aleatorios con al menos el rostro de una persona visible probablemente incluían a alguien menor de 13 años. No tomamos en cuenta los videos que claramente fueron filmados con el consentimiento de un padre o tutor.

El tamaño actual de nuestra muestra de 250 personas es relativamente pequeño (estamos trabajando en la codificación de una muestra mucho más grande), pero los hallazgos hasta ahora son consistentes con lo que hemos visto en el pasado. No pretendemos criticar a Google. La validación de la edad en Internet es notoriamente difícil y problemática, y no tenemos forma de determinar si estos videos se subieron con el consentimiento de un padre o tutor. Pero queremos destacar lo que están asimilando los modelos de inteligencia artificial de estas grandes empresas.

Pequeño alcance, gran influencia

Es tentador suponer que OpenAI utiliza vídeos de influencers de gran producción o noticieros de televisión publicados en la plataforma para entrenar sus modelos, pero investigaciones anteriores sobre datos de entrenamiento de modelos lingüísticos de gran tamaño muestran que el contenido más popular no siempre es el más influyente en el entrenamiento de modelos de IA. Una conversación prácticamente no vista entre tres amigos podría tener mucho más valor lingüístico en el entrenamiento de un modelo lingüístico de un chatbot que un vídeo musical con millones de visitas.

Lamentablemente, OpenAI y otras empresas de IA son bastante opacas en lo que respecta a sus materiales de capacitación: no especifican qué se incluye y qué no. La mayoría de las veces, los investigadores pueden inferir problemas con los datos de capacitación a través de sesgos en los resultados de los sistemas de IA. Pero cuando obtenemos un vistazo de los datos de capacitación, a menudo hay motivos para preocuparse. Por ejemplo, Human Rights Watch publicó un informe el 10 de junio de 2024 que mostraba que un conjunto de datos de capacitación popular incluye muchas fotos de niños identificables.

La historia de la autorregulación de las grandes tecnológicas está llena de metas cambiantes. OpenAI, en particular, es conocida por pedir perdón en lugar de permiso y ha enfrentado cada vez más críticas por priorizar las ganancias por sobre la seguridad.

Las preocupaciones sobre el uso de contenido generado por los usuarios para entrenar modelos de IA suelen centrarse en la propiedad intelectual, pero también hay cuestiones de privacidad. YouTube es un archivo enorme y difícil de manejar, imposible de revisar en su totalidad.

Los modelos entrenados con un subconjunto de videos producidos profesionalmente podrían ser el primer corpus de entrenamiento de una empresa de inteligencia artificial. Pero sin políticas sólidas en vigor, cualquier empresa que ingiera más que la popular punta del iceberg probablemente incluya contenido que viole la Norma de Protección de la Privacidad Infantil en Internet de la Comisión Federal de Comercio, que impide a las empresas recopilar datos de niños menores de 13 años sin previo aviso.

Con la orden ejecutiva del año pasado sobre IA y al menos una propuesta prometedora sobre la mesa para una legislación integral sobre privacidad, hay señales de que las protecciones legales para los datos de los usuarios en Estados Unidos podrían volverse más sólidas.

¿Has ayudado sin saberlo a entrenar a ChatGPT?

Las intenciones de un usuario de YouTube no son tan consistentes ni predecibles como las de alguien que publica un libro, escribe un artículo para una revista o exhibe un cuadro en una galería. Pero incluso si el algoritmo de YouTube ignora tu publicación y nunca obtiene más que un par de vistas, puede usarse para entrenar modelos como ChatGPT y Gemini.

En lo que respecta a la IA, el vídeo de tu reunión familiar puede ser tan importante como los subidos por el gigante influencer Mr. Beast o CNN.

Ryan McGrady y Ethan Zuckerman son profesores asociados de Políticas Públicas, Información y Comunicación en UMass Amherst.

The Conversation es una fuente independiente y sin fines de lucro de noticias, análisis y comentarios de expertos académicos.

BREAKING NEWS

Las empresas de inteligencia artificial entrenan modelos de lenguaje en el archivo de YouTube, lo que convierte los videos de familiares y amigos en un riesgo para la privacidad

Deja una respuesta Cancelar la respuesta