Captar música mirando los movimientos corporales de los músicos

Percibimos la música escuchándola o al menos leyendo en una partitura todo aquello que esta puede decirnos de la obra musical. ¿Sería posible captarla mediante una observación minuciosa de los movimientos corporales de los músicos que la interpretan?

Una nueva herramienta de inteligencia artificial desarrollada por el Laboratorio Watson de Inteligencia Artificial, una entidad dependiente de la empresa IBM y del Instituto Tecnológico de Massachusetts (MIT) en Estados Unidos, se vale de los ojos y oídos virtuales de un ordenador para separar sonidos similares que son difíciles de diferenciar incluso para los humanos. La herramienta permite a los oyentes, por ejemplo, aislar una sola flauta o violín entre múltiples flautas o violines sonando en una música.

Las posibles aplicaciones de este avance van desde el trabajo en mesa de mezclas durante una grabación profesional de música, por ejemplo aumentando el volumen de un instrumento que está en la misma pista que otros, hasta permitir entenderse mejor a las personas que hablan unas con otras al mismo tiempo en una videoconferencia.

“Los puntos clave del cuerpo proporcionan una buena información estructural”, destaca Chuang Gan, especialista de IBM y miembro del equipo responsable de este sorprendente avance tecnológico. Gan y sus colegas se han servido de esa clase de información estructural para mejorar la capacidad de su sistema de inteligencia artificial a la hora de captar sonidos en la música y aislarlos unos de otros.

Un sistema de inteligencia artificial que aprende a través de diversas modalidades sensoriales (sentidos) puede ser capaz de aprender más rápido, con menos datos y sin que los humanos tengamos que añadir molestas etiquetas a cada representación de cosas o situaciones del mundo real. Los humanos aprendemos de todos nuestros sentidos, por lo que tiene su lógica que se procure que un sistema de inteligencia artificial haga lo mismo, tal como se deduce de las palabras de Antonio Torralba, profesor del MIT y coautor del trabajo.

Torralba y sus colegas han demostrado que los modelos de aprendizaje profundo (una modalidad de inteligencia artificial) entrenados mediante datos de audio y video emparejados pueden aprender a reconocer los sonidos naturales como el canto de los pájaros o el choque de las olas. También pueden determinar las coordenadas geográficas de un coche en movimiento a partir del sonido del motor y de los neumáticos que se acercan o se alejan de un micrófono.

El nuevo estudio sugiere que las herramientas de rastreo de sonido, como las empleadas en el nuevo avance, podrían ser de gran ayuda en los coches autoconducidos, ya que complementarían la información aportada por sus cámaras cuando las condiciones de visibilidad fueran malas o cuando la conducción resultase difícil por otros motivos. (Fuente: NCYT de Amazings)