Google desarrolla sistema para detectar lengua de señas en videollamadas

0
119

Google presentó un modelo de detección de lenguaje de señas en tiempo real que proporcionará a los sistemas de videoconferencia un mecanismo para identificar a la persona.

El gigante tecnológico señaló que, para habilitar la solución de trabajo en tiempo real, fue necesario diseñar un modelo liviano que fuera simple de conectar y usar.

Debido a que el lenguaje de señas involucra el cuerpo y las manos del usuario, se comienza ejecutando un modelo de estimación de pose. “Esto reduce considerablemente la entrada de una imagen HD completa a un pequeño conjunto de puntos de referencia en el cuerpo del usuario, incluidos los ojos, la nariz, los hombros, las manos, etc.”, detalló Google.

Los puntos se utilizan como referencia para calcular el flujo óptico cuadro por cuadro que cuantifica el movimiento del usuario, para utilizarla aunque sin retener información específica del mismo.

Para probar el enfoque, el equipo utilizó el lenguaje de señas alemán que contienen videos largos de personas que firman e incluye anotaciones que indican en qué fotogramas están firmando.

Google agregó: “como línea de base ingenua, entrenamos un modelo de regresión lineal para predecir cuándo una persona está firmando, usando datos de flujo óptico. Esta línea de base alcanzó alrededor del 80 por ciento de precisión. Al incluir el flujo óptico de los 50 fotogramas anteriores como contexto para el modelo lineal, puede alcanzar el 83.4 por ciento”.

Asimismo, para generalizar el uso del contexto, Google utilizó arquitectura de memoria a largo y corto plazo que contiene memoria sobre los pasos de tiempo anteriores. Una vez con el modelo de detección de lenguaje de señas, se desarrolló una web liviana, en tiempo real de detección de lenguaje de señas que se conecta con varias aplicaciones y pudo establecer al usuario como orador.

Cuando el modelo de detección de lenguaje de señas determina que un usuario está firmando, pasa un tono de audio ultrasónico a través de un cable de audio virtual, que puede ser detectado por cualquier aplicación de videoconferencia como si el usuario firmante estuviera “hablando”.

LEAVE A REPLY

Please enter your comment!
Please enter your name here