Investigadores españoles han desarrollado una innovadora técnica que, utilizando dos videocámaras para capturar el movimiento humano, permite reconocer los gestos del cuerpo y representarlos en tres dimensiones en el ordenador. El sistema se puede aplicar al desarrollo de videojuegos interactivos en los que se gesticula con las manos y los pies.
El ingeniero Pedro Correa, del Laboratorio de Telecomunicaciones y Teledetección de la Universidad de Lovaina (Bélgica), explicó a la Plataforma SINC que, junto con la unidad del profesor Ferran Marqués de la Universidad Politécnica de Cataluña, han desarrollado unos algoritmos que abordan el problema del reconocimiento de los gestos «de la manera menos invasiva posible, ya que no se requiere vestir ningún tipo de traje o captores especiales, y para filmar el movimiento del cuerpo se utiliza una simple videocámara».
Las imágenes filmadas identifican la silueta de la persona varias decenas de veces por segundo, y los datos obtenidos son analizados por el algoritmo ideado por los investigadores para identificar los denominados «puntos cruciales» (cabeza, pies y manos).
Distancia geodésica
El denominado «algoritmo de extracción de puntos cruciales» emplea la noción matemática de distancia geodésica para calcular cuáles son las extremidades de la persona, «o dicho de otra manera -aclaró Correa-, qué puntos están más alejados de su centro de gravedad siguiendo un camino enteramente comprendido dentro de su silueta».
Una vez obtenidas las extremidades, se analiza de nuevo la silueta creando «esqueletos morfológicos», que ayudan a asignar una etiqueta a cada extremidad. Las cinco etiquetas posibles son la cabeza, la mano izquierda, la mano derecha, el pie izquierdo y el pie derecho. Una vez son identificadas, se representan con puntos de color para poder realizar su seguimiento en dos dimensiones. De esta forma, el usuario puede analizar el resultado visualmente.
Para obtener esas informaciones en tres dimensiones se realizan las mismas etapas con una cámara suplementaria. Así, la triangulación de las etiquetas extraídas en cada una de las dos vistas permite obtener los puntos en un espacio tridimensional. La vista frontal aporta las informaciones de las posiciones vertical y horizontal de las extremidades, y la vista lateral informa sobre su profundidad.
En cualquier ordenador
La baja complejidad del sistema permite aplicarlo en tiempo real en cualquier ordenador personal, con un margen de error de entre el 4% y el 9% en situaciones reales, dependiendo del contexto y la calidad de la segmentación realizada.
Según Correa, las aplicaciones de esta técnica son «todas aquellas que requieran una interacción gestual con el ordenador, es decir, desde navegación en un sistema operativo -como desplazar ventanas y texto con movimientos de las manos-, hasta videojuegos interactivos de aeróbic, entre muchos otros».