Seguro que más de una vez hemos cogido el móvil para averiguar cuál es la canción que está sonando en un bar o en una serie que estamos mirando en la televisión. Hoy en día es un gesto que hacemos habitualmente sin ser conscientes de la tecnología que hay detrás de aplicaciones como Shazam, por poner un ejemplo. Esta tecnología se conoce como "Audio Fingerprinting" (huella digital de audio), y consiste básicamente en identificar un archivo de audio mediante la extracción de características únicas de su señal. El audio fingerprinting es una técnica utilizada para identificar una grabación de audio en particular. Esta técnica convierte una grabación de audio en un conjunto de datos únicos que se usan para identificar la grabación. El proceso de audio fingerprinting implica varios pasos, como la extracción de características del audio, la creación de una huella digital de audio y la búsqueda de coincidencias en una base de datos.
El reconocimiento de sonidos se ha convertido en una tarea importante en muchos campos, como la seguridad, la música y la publicidad. No obstante, el reconocimiento de sonidos sigue siendo un desafío debido a la complejidad de los sonidos y la variedad de fuentes de sonido en el entorno. Una de las aplicaciones más comunes es la identificación de canciones en la radio o en una lista de reproducción en línea. La técnica de audio fingerprinting se utiliza para identificar la canción en función de las características únicas de la grabación de audio. Con esta tecnología se pueden identificar canciones de forma automática, permitiendo identificar qué canción está sonando y proporcionando información como el título, el artista y el álbum asociados a la canción. Pero también puede ser muy útil a detectar canciones que se han colgado ilegalmente, a través de la comparación de las huellas digitales de las canciones con las huellas digitales de las canciones legales en la base de datos.
«El Audio Fingerprinting hace tiempo que se estudia, pero hay ciertos escenarios donde no funciona bien. Me refiero a entornos ruidosos como pueden ser conciertos, bares, espectáculos al aire libre, o también en entornos donde la música suena en segundo plano, como ocurre muy a menudo en la radio y televisión»
Guillem Cortès Sebastià Tweet
Desarrollar un sistema de monitorización de música es un desafío tecnológico, especialmente cuando se deben considerar los escenarios ruidosos en los que a menudo se escucha música, como conciertos, bares o espectáculos al aire libre. Para solucionar este problema, nace el proyecto NextCore de la empresa BMAT, quien ha creado una tecnología innovadora para la monitorización de música en tiempo real. La empresa nace en 2005 como un spin-off del grupo de investigación MTG (Music Technology Group) de la Universidad Pompeu Fabra (UPF). La investigación ha estado siempre presente en la empresa y ha jugado un papel determinante en su éxito, así lo confirman sus diversas patentes y publicaciones. BMAT ya ha puesto en marcha dos Doctorados Industriales, el primer proyecto lo llevó a cabo el doctor industrial Blai Meléndez Catalán, un proyecto exitoso que ha desarrollado una tecnología que ya se ha incorporado a los servicios que ofrece la empresa.
En Guillem Cortès Sebastià es el doctorando del segundo proyecto de Doctorados Industriales que se realiza en BMAT en colaboración con la UPF, bajo la supervisión del profesor Xavier Serra y el doctor Emilio Molina. El objetivo del proyecto consiste en investigar cómo mejorar con algoritmos de aprendizaje profundo la monitorización musical. Cortés siempre ha tenido una relación intensa con la música, hasta descubrir la importancia de la relación entre la música y las matemáticas. La música y las matemáticas están estrechamente relacionadas. De hecho, muchos de los aspectos fundamentales de la música, como el ritmo, la melodía, la armonía y la forma, se pueden describir y entender mediante conceptos matemáticos. A Cortés le sorprendió descubrir cómo están relacionados los sonidos que escuchamos en la música y las matemáticas. Por poner un ejemplo, La nota "La3" que a menudo es utilizada como nota de referencia para afinar, emite una onda sonora que vibra a una frecuencia de 440 Hz. Si tocan la misma nota, pero una octava más alta, la llamada "La4", la frecuencia es de 880 Hz, el doble de la primera. Esto también ocurre con los acordes que suenan bien en nuestros oídos, las frecuencias de las notas que los forman tienen una relación matemática sencilla.
«El gran desafío que se plantea BMAT es usar el Audio Fingerprinting en escenarios ruidosos y en situaciones en las que la música suena en segundo plano, como ocurre a menudo en la radio y televisión»
Guillem Cortès Sebastià Tweet
Cortés nos explica que el objetivo del proyecto es mejorar los sistemas de monitorización de música y hacerlos más robustos en múltiples escenarios, así como crear herramientas para incentivar la investigación en este campo: "el Audio Fingerprinting hace tiempo que se estudia, pero hay ciertos escenarios donde no funciona bien. Me refiero a entornos ruidosos como pueden ser conciertos, bares, espectáculos al aire libre, o también en entornos donde la música suena en segundo plano, como pasa muy a menudo en la radio y televisión". El sistema de monitorización del proyecto NextCore se basa en la tecnología Audio Fingerprinting que se ha explicado al inicio de este artículo, y el gran desafío que se plantea BMAT es usar el Audio Fingerprinting en escenarios ruidosos y en situaciones en las que la música suena en segundo plano, como ocurre a menudo en la radio y televisión.
Gracias a la colaboración entre BMAT y la UPF, el proyecto NextCore puede cambiar la manera en que los sistemas de monitorización de música se adaptan a entornos ruidosos. Esta investigación, que combina música y matemáticas, tiene el potencial de incentivar el desarrollo de nuevas herramientas en el campo de la identificación de audio.