C.4 La captura de movimiento
Los datos específicos para este desarrollo fueron extraídos de un documento generado por Emiliano Causa [“Algoritmos de captura óptica de movimiento por substracción de video. Una implementación en sintaxis de Processing (Java)”.
En línea. Dirección URL: www.biopus.com.ar y www.emiliano-causa.com.ar. Para ver el tutorial de una aplicación para la captura óptica –con cámara web o
archivos de video–, análisis y síntesis del gesto corporal.
En línea. Dirección URL: http://www.biopus.com.ar/
Proyecto Hoseo está emplazado sobre la técnica de captura óptica de movimiento (Motion Capture). Esta se realiza por comparación de imágenes: consiste en confrontar cada uno de los fotogramas con los anteriores, es decir, se usa un retardo (delay) que demora la imagen para luego realizar la substracción, una resta entre la imagen demorada y la actual. Digamos que la diferencia entre lo actual y el pasado es el cambio. Por lo cual, el cambio en la imagen es igual a movimiento. Entonces, no lee el movimiento sino el cambio [Es interesante remitirnos a La imagen movimiento de Gilles Deleuze (1983) que inicia con las tres tesis sobre el movimiento de Henri Bergson (1896): “Hay imágenes móviles de movimiento que son cortes móviles de la duración, por fin hay imágenes tiempo, imágenes cambio, imágenes relación, mas allá del movimiento mismo”].
Cuando los píxeles de una y otra imagen coinciden dentro de la función del delay, la substracción entre valores idénticos resulta cero, lo que traducido a color es igual a negro (cero luz, o falta total de luz). Esto tiene como desventaja el hacer esta técnica muy sensible a los cambios de luz o al ruido visual de la cámara o de la iluminación, generando inconvenientes a la par que insta al uso de la luz como propuesta para interactuar. Esto incide directamente en el tipo de gestualidad y
en los movimientos con los que se interactúa, ya que si el performer se
queda quieto el método no lo detectará. Se capta la cantidad de movimiento, en consecuencia, la quietud dialoga a nivel compositivo como
silencio visual y/o sonoro.
EyesWeb es una aplicación que se especializa en la captación de diferentes patrones de movimiento y gestualidad del cuerpo humano. Es un entorno visual de programación por objetos (unidades de código modulares), orientado a la producción de sistemas multimedia interactivos, a través del análisis de movimientos escénicos en tiempo real. El entorno trae consigo cientos de objetos con diferentes funcionalidades. Estos módulos para la extracción en tiempo real de señales de movimiento del cuerpo, se basan en el uso de un dispositivo como una cámara de video u otros sistemas de sensado.
Los objetos, por su parte, están directamente relacionados con su funcionalidad y determinan las operaciones que estos pueden realizar o a las que pueden responder. La funcionalidad de un objeto está determinada, en principio, por su responsabilidad. Los objetos tanto como la interface tienen como función hacer accesible a nuestro cuerpo las representaciones necesarias para sostener el fenómeno. El diseño de la programación –tanto de la interface como de los objetos (Patch) para Proyecto Hoseo– se adecua a la metáfora propuesta y desarrollada
en el ítem 4.1. La imagen del cuerpo.
Entre los objetos que forman el entorno para Proyecto Hoseo destacaremos aquellos que inciden en la ergonomía performática y la composición de la sonoridad generadas en la interacción en tiempo real:
1º Delay: a través del tiempo de retardo define el ‘quantum’ de diferencia entre la imagen actual y la del pasado.
2º Integrador: define la duración de la reverberación de las superficies conformadas por píxeles en blanco.
3º Rescalador: realiza un mapeo de la imagen permitiendo generar diferentes zonas de captura.
4º Trhesholdbitonal: controla la variable del valor de umbral, es decir, cuánto de fondo negro y/o pixeles blancos habrá en la imagen.
VER VIDEO
Imágenes de la programación donde se destacan dos diferencias de captación
modificando el slider del objeto Trhesholdbitonal :
Modificando el valor de umbral del objeto Trhesholdbitonal se puede apreciar en las siguientes imágenes tres diferencias en la proyección pixelada del cuerpo en movimiento
A continuación describiremos cómo esta programación de los objetos de EyesWeb se comporta e incide en la performance de movimiento.
El cuerpo del performer interactiva se encuentra acuclillado a 0,70 cm de
la webcam de la laptop. Un haz de luz la ilumina de forma cenital.
La imagen pixelada del cuerpo se proyecta amplificada, se propone como parte
de la estética escénica junto a un cuerpo físico que puede estar ubicado en posición frontal o de espaldas, pero siempre posicionado en el plano
bidimensional de captura. Esta frontalidad opera como un condicionante, puesto que lo que se realice fuera del encuadre y sin iluminación no será detectado por la cámara-sensor.
Entonces, si el cuerpo físico está iluminado y trabaja a conciencia dentro del
plano bidimensional, y es captado por el sensor de movimiento (webcam),
la imagen proyectada se verá así: un fondo negro con formas móviles y
cambiantes compuestas por la traducción de la zona de luz que alumbra el cuerpo.
El halo de píxeles blancos ingresa en las regiones (encuadre apaisado, cuatro regiones superiores y cuatro inferiores). Ante un micro-movimiento o gesto frente al sensor, se acciona la captura poniendo en conexión el software de imagen con el de sonido.
Este halo de píxeles se forma por la traducción de la zona iluminada del cuerpo en movimiento. Según se defina el umbral del Trhesholdbitonal resultará la relación de cantidad de superficie de blanco o negro que aparecerá en la constitución pixelada de la imagen. Sumado a la manera en que se traslada ese halo de píxeles,
entrando y saliendo de las regiones o zonas, incidirá también en la escucha de los sonidos asignados a cada región. La cantidad de superficie blanca determinará también el nivel de volumen con la que se disparen los sonidos y la cantidad de sonidos
a la vez: a mayor cantidad total de píxeles en blanco mayor volumen y más sonoridades.
Cada región disparará niveles de volumen según el procedimiento explicado. Hay que tener en cuenta en la performance que hay ocho regiones, por ende, ocho variaciones de volumen y de sonidos sincrónicos o alternados que hay que controlar. A través de una serie de gestos con diversos grados de complejidad, el performer ejecuta señales que van retroalimentando esos loops.
La densidad, la persistencia y la velocidad del halo están definidas por los objetos de la programación: Delay e Integrador; y por la calidad del gesto (ej. entrecortado o ligado, con tiempos suspendidos de diferentes duraciones entre sí), más la cantidad de luz que conlleva ese gesto. Al transitar entre las regiones, impacta en las micro-relaciones que puedan ejecutar las articulaciones del cuerpo para el logro de determinadas composiciones sonoras: mayor o menor volumen –contrapuntos, sostenimiento y disolución del sonido–, transiciones, etcétera.
C.5. La cámara en las diferentes versiones de Hoseo
La obra tiene como eje conceptual y práctico la captación de un cuerpo humano por una cámara web, y la posterior utilización audio-visual y metafórica de los datos que esta genera. Esta captación se realiza por contraste de luminancia (intensidad de energía lumínica), previo pasaje a binario (blanco y negro, lo que facilita el contraste y ahorra recursos de computadora). Más abajo vemos una infografía donde se aprecian las conexiones y los dispositivos de la performance.
La distancia de la webcam tiene tres versiones: horizontal a 0,30 cm aprox.
del piso (incluida en la laptop o exenta en un trípode de cámara de fotografía); a una distancia de 0,60 a 0,70 cm del performer; o de manera cenital central a unos aprox. 1,80 a 2 metros del suelo. El espacio de captación está enmarcado por los siguientes elementos:
- El encuadre de la cámara.
- Las regiones en las que este encuadre está dividido.
- La iluminación puntual.
- El cuerpo y sus coordenadas variables que señalan la dirección y velocidad del movimiento.
- La combinación de todos estos elementos a la vez.
La matriz de captación está dividida en ocho zonas, en las cuales el cuerpo
o –partes de él– puede entrar y salir, generando tanto emisión sonora como procesamiento dentro de las diferentes zonas.