Cuaderno de interacción e interactividad | 4.3. Interacciones gestuales

4.3. Interacciones gestuales

Intuitivamente, si pensamos en la interacción con gestos, seguramente nos vendrán a la mente imágenes de películas futuristas, de superhéroes o de agentes secretos. En Iron man (2008), por ejemplo, el actor Robert Downey Jr. hace varios gestos con las manos para controlar interfaces flotantes. En esta película, de hecho, también aparece J.A.R.V.I.S. (Just A Rather Very Intelligent System), que es un asistente de voz basado en la inteligencia artificial. Más conocida es la interacción con gestos que aparece en Minority report (2002), en que el protagonista, con el movimiento de los brazos y manos diferentes, navega por un entorno tridimensional, arrastrando y moviendo diferentes elementos de la interfaz.

Aunque pueda parecer que la interacción con gestos pertenece a un terreno con ciertos toques de ciencia ficción, creemos que es importante dar a conocer las posibilidades de este tipo de interacción.

En primer lugar, aunque parezca obvio, debemos definir gestos en el contexto del diseño de interacción. Podemos decir que son los movimientos del cuerpo que expresan significado, es decir, normalmente no entendemos como gestos el movimiento de los ojos, por ejemplo, excepto que haya una intención.

También podríamos considerar un gesto aquel movimiento de un instrumento o herramienta unida al cuerpo. Los gestos están vinculados a la interpretación que hacemos, es decir, su significado tiene que ser descifrado, pero no tenemos un manual o una teoría que sirva de manera unívoca. Las interpretaciones se basan, pues, en aspectos como el conocimiento que tenemos del contexto o en la propia intuición basada en la experiencia. Aquello que puede parecer un gesto educado en un lugar o una situación determinada, puede parecer agresivo en otra y, por lo tanto, depende de muchas variables que hacen que tenga un significado simbólico.

La definición siguiente de gesto de Kurtenbach y Hulteen nos puede ayudar a explicarlo mejor:

«A gesture is a motion of the body that contains information. Waving goodbye is a gesture. Pressing a key on a keyboard is not a gesture because the motion of a finger on its way to hitting a key is neither observed nor significant. All that matters is which key was pressed».

Kurtenbach, Gordon y Hulteen, Eric E. “Gestures in human-computer communication.” The art of human-computer interface design, Laurel, Ed., 309-317. Addison-Wesley, 1990.

En cuanto a la interacción con gestos, podemos distinguir entre dos grandes grupos: gestos sin tocar directamente una superficie y gestos táctiles.

Por su utilidad cuando usamos el móvil y las tabletas, los gestos táctiles son los más habituales, pero queremos empezar con los gestos sin tocar una superficie directamente. Estos gestos, normalmente, los hacemos con las manos o brazos o bien con la cabeza o facialmente. También puede haber interacción con el cuerpo entero, un aspecto del que hablaremos en el apartado siguiente.

Para el reconocimiento de gestos, disponemos de diferentes tecnologías, algunas más populares que otras. Específicamente para las manos, tenemos guantes capaces de detectar la posición y rotación y también los movimientos de los dedos, a menudo con alta precisión. Los guantes sobre todo se usan en ámbitos especializados, como, por ejemplo, sistemas de entrenamiento virtual de cirugía.

Lo que sí es más habitual son las cámaras sensibles a la profundidad, como la Kinect. Se trata de un campo que continúa despertando el interés de grandes empresas como Microsoft, que en 2016 presentó un sistema de control de gestos llamado Handpose, o también Apple, que tiene más unas sesenta patentes, sobre todo orientadas a controlar interfaces empleando un casco de realidad virtual o mixta.

Una aplicación comercial de reconocimiento de gestos la encontramos a partir del 2018 en algunos coches de la marca Volkswagen y también de la marca BMW. Estos incorporan un sistema de control de pantalla basado en gestos que permiten responder a llamadas, ajustar el volumen o ajustar la visualización del mapa.

Un poco antes, el 2015, y con un espíritu mucho más DIY, los artistas Mushon Zer-Aviv y Dan Phiffe crearon Atlas gloves. Se trata de una interfaz física que permitía controlar con gestos aplicaciones como Google Earth. Con unas sencillas pelotas de ping-pong iluminadas, la cámara del ordenador reconoce nuestra posición y movimientos y permite coger, empujar o rotar objetos de la interfaz gráfica.

El otro gran tipo de gestos serían los que hacemos con la cara y la cabeza. Hay un abanico amplio de posibilidades en este campo, especialmente en lo que tiene que ver con el reconocimiento facial, cosa que podemos definir como «el proceso computacional que permite identificar si algo es una cara o no y qué características tiene si lo es». Normalmente, asociamos directamente el reconocimiento facial con el control y la vigilancia en las fronteras o durante controles policiales, pero también algunos gobiernos, como el chino o el ruso, han implantado esta tecnología en las cámaras de videovigilancia de la calle. Aun así, también encontramos que se está extendiendo a usos más cotidianos, como por ejemplo desbloquear un móvil. Y no solo esto, sino que en combinación con el aprendizaje profundo (Deep learning), uno de los campos que se están expandiendo es el de la previsión de comportamientos a partir del reconocimiento de gestos y caras.

Actualmente, no es especialmente difícil aplicar el reconocimiento facial, a pesar de que las librerías y aplicaciones que tenemos al alcance no siempre son muy precisas. De las varias posibilidades que hay, muchas de ellas privativas, un proyecto de código abierto es Open face, de la Universidad Carnegie Mellon. Es una herramienta capaz de detectar puntos de referencia faciales, la posición de la cabeza, las unidades de expresión facial y la dirección de la mirada. Funciona usando una cámara web.

A pesar de que puede ser muy útil, su uso también suscita debate. Una de las preocupaciones principales se centra en los sesgos que contienen las bases de datos con caras y que, por lo tanto, los sistemas de reconocimiento facial acaban reproduciendo porque se alimentan de estas bases de datos.

En cuanto al segundo gran grupo de gestos que planteábamos al principio, los gestos táctiles (también llamados multi-touch gestures), estos sí que van asociados a algún tipo de pantalla. Los más habituales son los que hacemos con el móvil, por ejemplo, hacer pinch con dos dedos para ampliar una foto, hacer scroll para navegar hacia arriba o hacia abajo los contenidos de una web o deslizar hacia la derecha para pasar una foto o para decir que alguien nos gusta en Tinder.

Otra tipología de gestos táctiles son los que engloba la interacción tangible, que se basa en la relación física con representaciones materiales que tienen características táctiles. Este contexto de interacción tiene que ver tanto con interacciones que implican todo el cuerpo como con objetos que tocamos directamente, tal como encontramos, por ejemplo, en la Reactable. Se trata de un instrumento musical desarrollado por la Universitat Pompeu Fabra que consta de un tablón en que físicamente se van situando objetos que, dependiendo de su posición y movimiento, generan varios sonidos.

A continuación, ampliaremos información sobre el papel del cuerpo en la interacción y la idea de corporeidad, que puede ser de utilidad a la hora de diseñar cualquier estilo de interacción. Otro concepto que conecta con la interacción gestual es el de hibridación, que también veremos algo más adelante. A diferencia de las interfaces gráficas de usuario, la interacción con gestos implica la combinación entre el mundo de los átomos y el mundo de los bits, es decir, entre una dimensión física y una virtual.