Así reconoce YouTube los videos ‘pirata’

Los vídeos tienen huellas dactilares. Cada compilación de imágenes y sonido tiene una identidad, una marca que perdura ante modificaciones y copias. En esa premisa se basa el funcionamiento de Content ID, la tecnología desarrollada por YouTube, que se utiliza para detectar vídeos sin derechos de autor. La plataforma de vídeos rastrea audios, imágenes y melodías, y compara las posibles copias con el original.
La efectividad es casi del 100% gracias a este carnet de identidad, da igual que hayan sido girados, recortados, oscurecidos o cambiados de color. El objetivo: combatir el robo de derechos para satisfacer a la gran industria musical y cinematográfica sin perjudicar hasta perder a los millones de usuarios creadores de un contenido que, en muchas ocasiones, no les pertenece.
Content ID nació en 2007, en estos nueve años ha ido añadiendo nuevas tecnologías para poder, primero, identificar el audio, después el vídeo y por último la melodía. Con el crecimiento de las herramientas, crecía también el equipo de ingenieros que se ocupaba de ellas. Una gran parte de ellos se encuentra ahora trabajando en Sihlcity Zúrich, en un edificio de siete plantas donde se desciende al comedor por un tobogán y a cada piso por una barra de bomberos.
Es la sede que Google tiene en la capital suiza, la más grande fuera de Estados Unidos.
El equipo de Content ID trabaja en la quinta planta del edificio, llamada Time Out. Es allí donde, rodeados de palos de hockey, de pelotas de fútbol y de camas para echar la siesta, esta docena de ingenieros ha creado y mejorado una de las herramientas orgullo de la compañía. «Hemos invertido más de 60 millones de dólares en el desarrollo y mejora de Content ID desde 2007», explica David Erb, director de Ingeniería en YouTube. Cada minuto se suben a YouTube 400 horas de vídeo en todo el mundo. Hay mil millones de visitantes cada mes. Una cifra que ha aumentado el 50% en el último año y el 100% en dispositivos móviles. ¿Cómo se puede controlar si el archivo infringe los derechos? «Ese es el desafío al que nos enfrentamos cada día: reconocer las copias, hayan sido o no transformadas», reconoce Fabio Magagna, responsable de Content ID.
Se encuentran de todo: vídeos recortados, girados, puestos en blanco y negro, emborronados, cambiados de color, de tono. Todo eso y todo a la vez. Para hacerlo más sencillo, el proceso se divide en fases: fraccionar el vídeo en fotogramas, sacar las huellas de cada uno y compararlas con las huellas del archivo de referencia que han mandado los propietarios del contenido.
Ahí entra en juego la increíble base de datos con la que cuenta Content ID: más de 600 años de contenido de referencia, más de 50 millones de archivos activos enviados por los ocho mil partners (artistas, sellos discográficos, cadenas de televisión…) con los que trabajan.

Cuando los dos archivos coinciden se produce el match. Una coincidencia que se identifica en mapas de calor con puntos brillantes. Todo en cuestión de segundos. La rapidez se debe a la inteligencia artificial que hay detrás del proyecto. Desde hace dos años utilizan el machine learning, una rama de la inteligencia artificial dedicada a tomar decisiones e interpretar datos basándose en patrones, que permite detectar identificar los rasgos de forma escalable mucho más rápido.