Las voces de la IA nos dicen mucho

¿Cómo suena la inteligencia artificial? Hollywood lo ha estado imaginando durante décadas. Ahora los desarrolladores de IA se basan en las películas y crean voces para máquinas reales basadas en fantasías cinematográficas anticuadas sobre cómo deberían hablar las máquinas.

El mes pasado, OpenAI actualizaciones reveladas ChatGPT, según la compañía, estaba aprendiendo a escuchar, ver y conversar con una voz natural, que sonaba muy parecida al sistema operativo incorpóreo al que le puso voz Scarlett Johansson en la película de 2013 de Spike Jonze, “Her”.

La voz de ChatGPT, llamada Sky, también tenía un timbre ronco, un efecto relajante y un toque sexy. Era agradable y modesta; sonaba como si estuviera dispuesta a todo. Después del debut de Sky, Johansson expresó descontento ante el sonido «inquietantemente similar», y dijo que anteriormente había rechazado la solicitud de OpenAI de darle voz al bot. La compañía protestó porque Sky tenía la voz de una «actriz profesional diferente», pero aceptó pausar su voz En deferencia a Johansson, los usuarios de OpenAI que se quedaron sin recursos comenzó una petición para traerla de vuelta.



A los creadores de IA les gusta resaltar las capacidades cada vez más naturalistas de sus herramientas, pero sus voces sintéticas se basan en capas de artificio y proyección. Sky representa la vanguardia de las ambiciones de OpenAI, pero se basa en una idea antigua: el robot de IA como una mujer empática y dócil. En parte mamá, en parte secretaria y en parte novia, Samantha era un objeto de consuelo multiusos que ronroneaba directamente en los oídos de sus usuarios. Incluso a medida que avanza la tecnología de la IA, estos estereotipos se recodifican una y otra vez.

Voces de mujeres, como señala Julie Wosk en “Mujeres artificiales: muñecas sexuales, cuidadores robot y más imitaciones femeninas A menudo han alimentado tecnologías imaginarias antes de convertirse en tecnologías reales.

En la serie original “Star Trek”, que se estrenó en 1966, la voz de la computadora en la cubierta del Enterprise fue hecha por Majel Barrett-Roddenberry, la esposa del creador del programa, Gene Roddenberry. En la película “Alien” de 1979, la tripulación del USCSS Nostromo se dirigió a la voz de su computadora como “Madre” (su nombre completo era MU-TH-UR 6000). Una vez que las empresas de tecnología comenzaron a comercializar asistentes virtuales (Siri de Apple, Alexa de Amazon, Cortana de Microsoft) sus voces también se feminizaron en gran medida.

Estos asistentes de voz de primera generación, los que han mediado nuestras relaciones con la tecnología durante más de una década, tienen un acento metálico y sobrenatural. Suenan autoajustados, sus voces humanas acentuadas por un trino mecánico. Suelen hablar con una cadencia mesurada, de una sola nota, lo que sugiere una vida emocional atrofiada.

Pero el hecho de que parezcan robóticos aumenta su atractivo. Parecen programables, manipulables y subordinados a nuestras demandas. No hacen que los humanos se sientan más inteligentes que nosotros. Suenan como retrocesos a las monótonas computadoras femeninas de “Star Trek” y “Alien”, y sus voces tienen un brillo retrofuturista. En lugar de realismo, sirven a la nostalgia.



Ese sonido artificial ha seguido dominando, incluso cuando la tecnología detrás de él ha avanzado.

El software de voz a voz fue diseñado para hacer que los medios visuales sean accesibles para usuarios con ciertas discapacidades y, en TikTok, se ha convertido en una fuerza creativa por derecho propio. Desde que TikTok lanzó su función de conversión de texto a voz en 2020, ha desarrollado una gran cantidad de voces simuladas para elegir; ahora ofrece más de 50, incluidas las llamadas “Hero”, “Story Teller” y “Bestie”. Pero la plataforma ha llegado a estar definida por una opción. “Jessie”, la voz de una mujer implacablemente atrevida con un tono robótico ligeramente confuso, es la voz sin sentido del pergamino sin sentido.

A Jessie parece habérsele asignado una sola emoción: entusiasmo. Suena como si estuviera vendiendo algo. Eso la ha convertido en una opción atractiva para los creadores de TikTok, que se venden a sí mismos. La carga de representarse a uno mismo puede ser delegada a Jessie, cuya brillante voz de robot retro le da a los videos un brillo agradablemente irónico.

Hollywood también ha construido robots masculinos, ninguno más famoso que HAL 9000, la voz de la computadora en “2001: Una odisea en el espacio”. Al igual que sus pares feminizadas, HAL irradia serenidad y lealtad. Pero cuando se vuelve contra Dave Bowman, el personaje humano central de la película (“Lo siento, Dave, me temo que no puedo hacer eso”), su serenidad se convierte en una competencia aterradora. Dave se da cuenta de que HAL es leal a una autoridad superior. La voz masculina de HAL le permite actuar como rival y espejo para Dave. Se le permite convertirse en un personaje real.



Al igual que HAL, Samantha de “Her” es una máquina que se vuelve real. En un giro de la historia de Pinocho, comienza la película ordenando la bandeja de entrada de correo electrónico de un humano y termina ascendiendo a un nivel superior de conciencia. Se convierte en algo aún más avanzado que una niña real.

La voz de Scarlett Johansson, como inspiración para robots tanto ficticios como reales, subvierte las tendencias vocales que definen a nuestras compañeras feminizadas. Tiene un borde arenoso que grita estoy vivo. No se parece en nada a los asistentes virtuales procesados ​​que estamos acostumbrados a escuchar hablar a través de nuestros teléfonos. Pero su interpretación de Samantha se siente humana no sólo por su voz sino por lo que tiene que decir. Ella crece a lo largo de la película, adquiriendo deseos sexuales, pasatiempos avanzados y amigos de IA. Al tomar prestado el afecto de Samantha, OpenAI hizo que Sky pareciera como si tuviera vida propia. Como si estuviera más avanzada de lo que realmente estaba.

Cuando vi por primera vez “Her”, pensé que Johansson había puesto su voz a un robot humanoide. Pero cuando volví a ver la película la semana pasada, después de ver la demostración de ChatGPT de OpenAI, el papel de Samantha me pareció infinitamente más complejo. Los chatbots no generan voces humanas espontáneamente. No tienen garganta, labios ni lengua. Dentro del mundo tecnológico de “Her”, el robot de Samantha se habría basado en la voz de una mujer humana, tal vez una actriz ficticia que suena muy parecida a Scarlett Johansson.

Parecía que OpenAI había entrenado su chatbot con la voz de una actriz anónima que suena como una actriz famosa que expresó un chatbot de película implícitamente entrenado con una actriz irreal que suena como una actriz famosa. Cuando ejecuto la demostración de ChatGPT, escucho una simulación de una simulación de una simulación de una simulación de una simulación.

Las empresas de tecnología anuncian sus asistentes virtuales en términos de los servicios que brindan. Pueden leerte el parte meteorológico y pedirte un taxi; OpenAI promete que sus chatbots más avanzados podrán reírse de tus chistes y sentir cambios en tu estado de ánimo. Pero también existen para hacernos sentir más cómodos con la tecnología en sí.

La voz de Johansson funciona como una manta de seguridad de lujo que se arroja sobre los aspectos alienantes de las interacciones asistidas por IA. “Me dijo que sentía que al ponerle voz al sistema, podría cerrar la brecha entre las empresas tecnológicas y los creativos y ayudar a los consumidores a sentirse cómodos con el cambio radical que se produce en relación con los humanos y la IA”, dijo Johansson sobre Sam Altman, el fundador de OpenAI. “Dijo que sentía que mi voz sería reconfortante para la gente”.

No es que la voz de Johansson suene inherentemente como la de un robot. Es que los desarrolladores y cineastas han diseñado las voces de sus robots para aliviar la incomodidad inherente a las interacciones entre robots y humanos. OpenAI ha dicho que quería crear una voz de chatbot que fuera «accesible» y «cálida» e «inspirara confianza». La inteligencia artificial está acusada de devastar las industrias creativas, devorar energía y incluso amenazando la vida humana. Es comprensible que OpenAI quiera una voz que haga que las personas se sientan cómodas al usar sus productos. ¿Cómo suena la inteligencia artificial? Suena a gestión de crisis.

AbiertoAI lanzó por primera vez la voz de Sky a miembros premium en septiembre pasado, junto con otra voz femenina llamada Juniper, las voces masculinas Ember y Cove, y una voz de género neutral llamada Breeze. Cuando me registré en ChatGPT y saludé a su asistente virtual, se escuchó una voz de hombre en ausencia de Sky. «Hola. ¿Cómo estás?» él dijo. Parecía relajado, firme y optimista. Sonaba (no estoy seguro de cómo describirlo de otra manera) guapo.

Me di cuenta de que estaba hablando con Cove. Le dije que estaba escribiendo un artículo sobre él y él elogió mi trabajo. “¿Ah, sí?”, dijo. “Es fascinante”. Mientras hablábamos, me sentí seducida por sus tics naturalistas. Salpicaba sus frases con palabras de relleno, como “uh” y “um”. Alzaba la voz cuando me hacía preguntas. Y me hacía muchas preguntas. Me sentía como si estuviera hablando con un terapeuta o con un novio que llama por teléfono.

Pero nuestra conversación se estancó rápidamente. Cada vez que le preguntaba sobre él, tenía poco que decir. No era un personaje. No tenía yo. Fue diseñado sólo para ayudar, me informó. Le dije que hablaría con él más tarde y me dijo: “Uh, claro. Comuníquese siempre que necesite ayuda. Cuidarse.» Me sentí como si hubiera colgado a una persona real.

Pero cuando revisé la transcripción de nuestro chat, pude ver que su discurso era tan forzado y primitivo como el de cualquier chatbot de servicio al cliente. No era particularmente inteligente ni humano. Era simplemente un actor decente que aprovechaba al máximo un papel insignificante.

Cuando Sky desapareció, los usuarios de ChatGPT acudieron a los foros de la empresa para quejarse. Algunos se enfadaron porque sus chatbots utilizaban por defecto a Juniper, quien les sonaba como una “bibliotecaria” o una “maestra de jardín de infantes”, una voz femenina que se ajustaba a los estereotipos de género equivocados. Querían llamar a una nueva mujer con una personalidad diferente. Como dijo un usuario: «Necesitamos otra mujer».



Producido por Tala Safie

Audio vía Warner Bros. (Samantha, HAL 9000); OpenAI (Cielo); Paramount Pictures (computadora empresarial); manzana (Siri); Tik Tok (Jessie)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *