Usted esta aquí
Inicio > Lo que viene > Sonido Visual 2.5D

Sonido Visual 2.5D

El audio binaural proporciona al oyente una sensación de sonido 3D, lo que permite una experiencia perceptiva de la escena. Sin embargo, las grabaciones binaurales están escasamente disponibles y requieren conocimientos y equipos no triviales para obtenerlas. Teniendo esto en cuenta Ruohan Gao de la Universidad de Texas en Austin  y Kristen Grauman de Facebook AI Research proponen convertir el audio monoaural común en audio binaural aprovechando el video. La idea clave es que los cuadros visuales revelan señales espaciales significativas que, aunque carecen explícitamente del audio de un solo canal que lo acompaña, están fuertemente vinculados a él. Su enfoque multimodal recupera este enlace de video sin etiqueta. Diseñando una red neuronal convolucional profunda que aprende a decodificar la banda sonora monoaural (de un solo canal) en su contraparte binaural mediante la inyección de información visual sobre las configuraciones de objetos y escenas.

A esta salida resultante la han bautizadol sonido visual 2.5D — el flujo visual ayuda a “levantar” el audio plano de un solo canal en sonido espacializado. Además de la generación de sonido, nos muestran la representación auto-supervisada aprendida por su red de beneficios de separación de fuentes audiovisuales.

En el siguiente video cualitativo, podemos observar (a) ejemplos de audios binaurales grabados por profesionales, (b) resultados de ejemplo de predicción de audio binaural y (c) resultados de separación de fuentes audiovisuales. Se recomienda usar unos auriculares o audífonos (izquierdo y derecho) para ver el video.

Más información: Universidad de Texas en Austin

Así funciona y se diferencia este nuevo sistema:

Deja un comentario

Top