La IA resuelve el «problema de los cócteles» y resulta útil en los tribunales
Es el eterno «problema de las fiestas de cócteles»: estar en una sala llena de gente, con una bebida en la mano, intentando escuchar lo que dice el otro invitado.
De hecho, los seres humanos son notablemente hábiles para mantener una conversación con una persona y al mismo tiempo filtrar las voces competidoras.
Sin embargo, aunque parezca sorprendente, se trata de una habilidad que hasta hace poco la tecnología no había podido replicar.
Y eso es importante cuando se trata de utilizar pruebas de audio en casos judiciales. Las voces de fondo pueden dificultar saber quién está hablando y qué se está diciendo, lo que puede hacer que las grabaciones sean inútiles.
El ingeniero eléctrico Keith McElveen, fundador y director de tecnología de Wave Sciences, se interesó en el problema cuando trabajaba para el gobierno de Estados Unidos en un caso de crímenes de guerra.
«Lo que estábamos intentando averiguar era quién había ordenado la masacre de civiles. Algunas de las pruebas incluían grabaciones de un montón de voces hablando a la vez, y fue entonces cuando me enteré de lo que era el ‘problema de la fiesta de cócteles'», afirma.
«Había tenido éxito en eliminar ruidos como los sonidos de automóviles o de aires acondicionados o ventiladores del habla, pero cuando comencé a tratar de eliminar el habla del habla, resultó no solo ser un problema muy difícil, era uno de los clásicos problemas difíciles en acústica.
«Los sonidos rebotan en una habitación y es matemáticamente horrible resolverlo».
La respuesta, dice, fue utilizar IA para intentar localizar y filtrar todos los sonidos en competencia según su procedencia original en una habitación.
Esto no solo se refiere a otras personas que puedan estar hablando: también hay una cantidad significativa de interferencia debido a la forma en que los sonidos se reflejan en una habitación, y la voz del hablante objetivo se escucha tanto directa como indirectamente.
En una anecoica perfecta cámara -una totalmente libre de ecos- un micrófono por orador sería suficiente para captar lo que cada uno dice; pero en una sala real, el problema requiere también un micrófono para cada sonido reflejado.
McElveen fundó Wave Sciences en 2009 con la esperanza de desarrollar una tecnología que pudiera separar voces superpuestas. Inicialmente, la empresa utilizó una gran cantidad de micrófonos en lo que se conoce como formación de haces en matriz.
Sin embargo, los comentarios de potenciales socios comerciales fueron que el sistema requería demasiados micrófonos para el costo involucrado como para dar buenos resultados en muchas situaciones, y que no funcionaría en absoluto en muchas otras.
«El estribillo común fue que si pudiéramos encontrar una solución que abordara esas preocupaciones, estarían muy interesados», dice McElveen.
Y añade: «Sabíamos que tenía que haber una solución, porque se puede hacer con sólo dos oídos».
La empresa finalmente resolvió el problema después de 10 años de investigación financiada internamente y presentó una solicitud de patente en septiembre de 2019.
Lo que se les ocurrió fue una IA que puede analizar cómo el sonido rebota en una habitación antes de llegar al micrófono o al oído.
«Captamos el sonido cuando llega a cada micrófono, lo rastreamos para averiguar de dónde proviene y luego, en esencia, suprimimos cualquier sonido que no pueda provenir del lugar donde está sentada la persona», dice McElveen.
El efecto es comparable en ciertos aspectos a cuando una cámara enfoca un sujeto y desenfoca el primer plano y el fondo.
“Los resultados no suenan tan claros cuando solo puedes usar una grabación muy ruidosa para aprender, pero aun así son sorprendentes”.
La tecnología tuvo su primer uso forense en el mundo real en un caso de asesinato en Estados Unidos, donde la evidencia que pudo proporcionar resultó fundamental para las condenas.
Después de que dos sicarios fueran arrestados por matar a un hombre, el FBI quería demostrar que habían sido contratados por una familia que estaba pasando por una disputa por la custodia de un niño. El FBI se las arregló para engañar a la familia haciéndoles creer que los estaban chantajeando por su participación, y luego se quedaron esperando a ver la reacción.
Si bien era razonablemente fácil para el FBI acceder a los mensajes de texto y las llamadas telefónicas, en persona… Las reuniones en dos restaurantes fueron un asunto diferente, pero el tribunal autorizó el uso del algoritmo de Wave Sciences, lo que significa que el audio pasó de ser inadmisible a una pieza clave de evidencia.
Desde entonces, otros laboratorios gubernamentales, incluso en el Reino Unido, lo han sometido a una serie de pruebas. Ahora, la empresa está comercializando la tecnología al ejército estadounidense, que la ha utilizado para analizar las señales del sonar.
También podría tener aplicaciones en negociaciones de rehenes y escenarios de suicidio, dice McElveen, para garantizar que se puedan escuchar ambas partes de una conversación, no solo al negociador con un megáfono.
A fines del año pasado, la compañía lanzó una aplicación de software que utiliza su algoritmo de aprendizaje para que lo utilicen los laboratorios gubernamentales que realizan análisis forenses de audio y análisis acústicos.
Con el tiempo, su objetivo es introducir versiones personalizadas de su producto para su uso en kits de grabación de audio, interfaces de voz para automóviles, altavoces inteligentes, realidad aumentada y virtual, sonares y dispositivos de ayuda auditiva.
Entonces, por ejemplo, si usted habla con su automóvil o con su altavoz inteligente, no importaría si hubiera mucho ruido a su alrededor: el dispositivo aún podría entender lo que está diciendo.
La IA ya se está utilizando también en otras áreas de la ciencia forense, según la educadora forense Terri Armenta, de la Academia de Ciencias Forenses.
«ML [machine learning] «Los modelos analizan patrones de voz para determinar la identidad de los hablantes, un proceso particularmente útil en investigaciones criminales donde es necesario autenticar pruebas de voz», afirma.
“Además, las herramientas de IA pueden detectar manipulaciones o alteraciones en las grabaciones de audio, garantizando la integridad de las pruebas presentadas ante el tribunal”.
Y la IA también se ha abierto camino en otros aspectos del análisis de audio.
Bosch tiene una tecnología llamada SoundSee, que utiliza algoritmos de procesamiento de señales de audio para analizar, por ejemplo, el sonido de un motor y predecir un mal funcionamiento antes de que ocurra.
«Las capacidades tradicionales de procesamiento de señales de audio carecen de la capacidad de comprender el sonido como lo hacemos los humanos», afirma el Dr. Samarjit Das, director de investigación y tecnología de Bosch USA.
«La inteligencia artificial de audio permite una comprensión más profunda y una interpretación semántica mejor que nunca del sonido de las cosas que nos rodean, por ejemplo, los sonidos ambientales o las señales sonoras que emanan de las máquinas».
Pruebas más recientes del algoritmo de Wave Sciences han demostrado que, incluso con sólo dos micrófonos, la tecnología puede funcionar tan bien como el oído humano (y mejor cuando se añaden más micrófonos).
Y también revelaron algo más.
«Las matemáticas de todas nuestras pruebas muestran similitudes notables con la audición humana. Hay pequeñas rarezas en lo que nuestro algoritmo puede hacer y en la precisión con la que lo hace que son sorprendentemente similares a algunas de las rarezas que existen en la audición humana», afirma McElveen.
«Sospechamos que el cerebro humano puede estar usando las mismas matemáticas: que al resolver el problema del cóctel, podemos habernos topado con lo que realmente está sucediendo en el cerebro».