5 ago. 2014

Desarrollan un algoritmo que extrae audio de las vibraciones de objetos filmados

Los investigadores del Instituto de Tecnología de Massachusetts, MIT, conjuntamente con los de Microsoft y Adobe han desarrollado un algoritmo que puede reconstruir una señal de audio mediante el análisis de vibraciones de objetos representados en un video de los mismos.
En varios experimentos realizados fueron capaces de recuperar el audio inteligible del entorno cercano a partir de las vibraciones de una bolsa de papas fritas, filmada desde 15 metros de distancia a través de un cristal a prueba de sonido.
En otros experimentos, se extrajeron las señales de audio útiles a partir de vídeos de papel de aluminio, la superficie de un vaso con agua, e incluso las hojas de una planta en una maceta. 


"Cuando el sonido interacciona contra un objeto, hace que mismo vibre", dice Abe Davis, una estudiante graduada en ingeniería eléctrica e informática en el MIT y autora principal del nuevo estudio. "El movimiento de esta vibración crea una señal visual muy sutil que es generalmente invisible al ojo. La gente no se da cuenta de que esta información estaba allí ".
La reconstrucción del audio a partir de grabar las vibraciones de un objeto requiere que la frecuencia de las muestras de video (el número de fotogramas de vídeo capturados por segundo), sea superior a la frecuencia de la señal de audio. En algunos de sus experimentos, los investigadores utilizaron una cámara de alta velocidad que captó 2000 a 6000 fotogramas por segundo. Eso es mucho más rápido que los 60 cuadros por segundo posibles con cámaras comerciales típicas, pero muy por debajo de las frecuencias de cuadros de las mejores cámaras de alta velocidad comerciales, que pueden superar 100 mil fotogramas por segundo.

De manera que como la frecuencia audible para el ser humano, o rango de frecuencias, es de 20 Hz a 20 mil Hz, con una cámara de alta velocidad de 100 mil cuadros por segundo se podría incluso reconstruir el ultrasonido

Hardware aplicado a productos básicos

En otros experimentos, sin embargo, se utilizó una cámara digital común. Debido a una peculiaridad en el diseño de los sensores de la mayoría de las cámaras, los investigadores fueron capaces de inferir información acerca de las vibraciones de alta frecuencia incluso de vídeos grabados a un estándar de 60 fotogramas por segundo. Mientras que esta reconstrucción de audio no era tan fiel como lo fue con la cámara de alta velocidad, es posible determinar el género de un hablante en una habitación; el número de hablantes; e incluso obtener información precisa sobre las propiedades acústicas de las voces de los hablantes y sus identidades.

Video Publicado por los Investigadores




Aplicaciones

Esta nueva técnica tiene aplicaciones obvias en cuestiones legales y forenses, pero Davis está más entusiasmada con otras posibilidades.

"Estamos recuperando los sonidos de los objetos", dice. "Eso nos da una gran cantidad de información sobre el sonido que está pasando alrededor del objeto, además de darnos también una gran cantidad de información sobre el objeto en sí, ya que los diferentes objetos responden al sonido de diferentes maneras." En el trabajo en curso, los investigadores han comenzado a tratar de determinar las propiedades estructurales de los objetos a partir de su respuesta visible al sonido.

Medir movimientos más sutiles que el tamaño de un píxel

Los investigadores midieron las propiedades mecánicas de los objetos que estaban filmando y determinaron que los movimientos que estaban midiendo eran de alrededor de una décima de micrómetro (una décima de millonésima de metro). Y aunque eso equivale a cinco milésimas del tamaño un píxel en una imagen de primer plano, es posible medir los movimientos de dicho píxel a partir del cambio de valor de color en función del tiempo.

También, los investigadores pidieron prestado una técnica de trabajo anterior en algoritmos que amplifican las variaciones minúsculas en el vídeo, haciendo visibles los movimientos previamente indetectables. Con esto, se podría reconstruir el audio de la respiración de un bebé en la sala de neonatología de un hospital, por ejemplo. Esa técnica pasa cuadros sucesivos de vídeo a través de una batería de filtros de imagen, que se utilizan para medir las fluctuaciones, tales como el cambio de valores de color en los límites, en varias orientaciones diferentes (por ejemplo, horizontales, verticales o diagonales), y de varias escalas diferentes.

De esta forma, los investigadores desarrollaron un algoritmo que combina la salida de los filtros para inferir los movimientos de un objeto como un todo cuando es golpeado por las ondas de sonido. Como los diferentes bordes de un objeto pueden estar moviéndose en diferentes direcciones, el algoritmo alinea primero todas las medidas para que no se anulen entre sí. Y le da mayor ponderación a las mediciones realizadas en los bordes muy distintos.

El algoritmo aplicado a videos convencionales

Los investigadores, como se mencionó más arriba, analizaron videos convencionales pero realizando una variación en el algoritmo. (Esos videos son los que podemos grabar cualquiera de nosotros con una cámara típica). El sensor de una cámara digital se compone de una matriz de fotodetectores, millones de ellos, incluso en los dispositivos de los productos básicos. 

De forma que a partir de ligeras distorsiones en los bordes de los objetos en el vídeo convencional, aunque invisibles a al ojo, las cuales contienen información sobre las vibraciones de alta frecuencia de los objetos, es suficiente para producir una señal de audio turbia pero potencialmente útil.

"Esto es nuevo y refrescante”, dice Alexei Efros, profesor asociado de ingeniería eléctrica e informática en la Universidad de California en Berkeley. "Somos científicos, y a veces vemos estas películas, como las de James Bond, y pensamos: No es posible hacer eso, es ridículo. Y, de repente, ahí lo tienen. Esto está totalmente fuera de toda película de Hollywood. Usted sabe que el asesino ha admitido su culpabilidad porque hay evidencia en su bolsa de papas fritas".

Por MML
Fuente: MIT News

No hay comentarios: