Mejorando la calidad de sonido con tecnología efectiva de reconocimiento de voz en los dispositivos de Microsoft.
Dado que la calidad de sonido es una pieza clave en un mercado tan competitivo y que los ingenieros de Microsoft siempre quieren contar con el mejor equipo, se han propuesto construir una serie de cámaras anecoicas para pruebas, que incluyen el lugar más tranquilo del mundo.
El reto: Desarrollar dispositivos tecnológicos con una calidad de sonido líder en su clase y diseños que enamoran a los usuarios, incluyendo tecnología efectiva de reconocimiento de voz.
La solución: Cámaras anecoicas para realizar pruebas exactas de niveles de sonido, equipadas con una variedad de micrófonos preamplificadores y simuladores de oído de HBK.
Los resultados: Calidad de sonido de productos líder en el mercado, gracias a la cuantificación repetible de rendimiento de audio a un nivel más detallado.
Si hay una cosa que la era digital nos ha dejado claro, es que la experiencia que nos proporcionan los productos lo es todo. Se han quedado atrás esos días en los que tenías que estudiar a detalle los manuales. Hoy en día, cada vez que tenemos un nuevo dispositivo en nuestras manos, esperamos que sea más intuitivo y al mismo tiempo que nos ofrezca una experiencia más placentera: que sea más rápido, con más capacidades y mucho más silencioso. Para Microsoft, alcanzar este avance requiere una alta calidad de sonido en todo lo que escuchemos y cada vez que hablemos.
Por ejemplo; cuando sostienes una tableta Surface™ en tus manos y escuchas una alerta que te informa que se ha abierto una nueva ventana una y otra vez, tu percepción del dispositivo se ve afectada o cada vez que sostienes una videoconferencia con tus colegas en pantallas Surface Hub, esperas obtener una transmisión de voz muy clara, casi como si estuvieras en persona. Y cuando usamos la interfaz del asistente personal Cortana® esperamos que responda de forma exacta a nuestros comandos de voz.
Pero, ¿cómo llegar hasta ese punto? Una interfaz de lenguaje natural es una parte importante de la visión a futuro de Microsoft. Los cerebros líderes en la empresa trabajan duro en interfaces entre la máquina y el humano que sean mucho más naturales, hasta llegar a un punto en donde no se perciba la diferencia.
“El modo de comunicación más natural en todo el mundo es el habla y el lenguaje”, menciona Hundraj Gopal, Ingeniero de Factores Humanos en Microsoft. “Finalmente estamos en un punto de inflexión. Estamos a punto de usar el lenguaje hablado como una interfaz de comunicación real y valiosa con la tecnología”.
Mucho más allá de que la máquina nos entienda a nosotros, primero necesitamos entendernos sin ningún esfuerzo, si es que la tecnología se va a convertir en un asistente invisible. Así que, Microsoft utiliza múltiples micrófonos en teléfonos y pantallas de gran tamaño para afinar nuestras voces con algoritmos de localización. Separando nuestra voz del ruido de fondo, pueden aclarar la señal que se necesita, de forma que no tengamos que esforzar nuestros oídos para escuchar o levantar la voz para que nos escuchen.
El reto
Sin embargo, por debajo de dicha programación inteligente, la calidad de cualquier interfaz de audio se reduce a su hardware. Como dice As LeSalle Munroe, Ingeniero en Jefe de Dispositivos Surface: “Un buen reconocimiento de voz, inicia con un buen diseño acústico. Nuestra cámara anecoica y nuestro equipo de prueba, nos permite caracterizar de manera viable nuestros micrófonos y altavoces, lo que nos brinda la oportunidad de cumplir nuestros objetivos de reconocimiento de voz”.
"Un buen reconocimiento de voz, inicia con un buen diseño acústico"
Una de las razones fundamentales detrás del enorme esfuerzo de hacer esta cámara anecoica, fue la de probar componentes como pantallas con sonido, condensadores de canto, componentes retumbantes y vibraciones estructurales. “Ser capaz de capturar y caracterizar el ruido en una tarjeta de circuito impreso, es un gran reto para nosotros”, dice LeSalle.
A pesar de que esos niveles de ruido son a menudo pequeños y muy por debajo de lo que el oído puede detectar, se pueden sumar de manera lineal para producir un ruido que sea audible, molesto y que interfiera con el reconocimiento de voz.
La solución
LeSalle y sus colegas caracterizan de forma exacta micrófonos y altavoces para todos los dispositivos de hardware.
“En general, probamos los componentes solos y después los probamos en el sistema completo, enfocándonos en la frecuencia de respuesta, distorsión total de armónicos (THD), rozamiento y zumbido, intervalo dinámico, sello acústico, sensibilidad y ruido de fondo. Después, hacemos una cualificación del sistema completo con el procesamiento añadido”, menciona LeSalle.
El último paso, es hacer una prueba de reconocimiento de voz y calidad de sonido. “Esto puede tomar más de la mitad del tiempo, porque es un proceso bastante repetitivo. Además, investigamos los aspectos relevantes de la tecnología de la ingeniería del audio y lo mapeamos a la percepción humana, la aceptación y la molestia, con el fin de aumentar la satisfacción del usuario”, concluye.
La mayor parte de las pruebas de hardware de Microsoft se llevan a cabo en el edificio 87 en el Campus Redmond. Dentro de estas instalaciones, Cortana es puesta a prueba con discursos precisos de un simulador de cabeza y torso (HATS) de Brüel & Kjaer, al que ella debe entender y responder sin importar el ruido de fondo que se añada.
Los investigadores también prueban la capacidad de los algoritmos de beamforming para localizar la voz de un orador -de nuevo en el ruido de fondo cuantificado. También se usa el simulador de torso y oído (HATS) para poner a prueba tecnologías en 3D, con el fin de identificar qué tan efectivos son al transmitir las señales de audio que necesitamos para sumergirse en los campos sonoros auténticos -especialmente para HoloLens, la diadema de realidad aumentada. Otra de las características que se analizan, es el sonido de los teclados, con el objetivo de encontrar el sonido más placentero de un dispositivo.
Los resultados
“Siempre quisimos tener las mejores herramientas para nuestro trabajo”, dice LeSalle. “Nuestra otra cámara anecoica es buena, de eso no hay duda. Sin embargo, queríamos construir una con mejores capacidades de sonido y de esa forma poder medir bajos niveles de sonido con una mayor pureza de las mediciones, aumentado su fiabilidad y validez -así podemos cuantificar el desempeño del audio de nuestros productos a un nivel más fino y con mayor detalle. La cámara, los micrófonos y preamplificadores de Brüel & Kjaerque usamos, nos ayudan a alcanzar la capacidad de repetición que queremos “.
Probablemente no sea una novedad que los ingenieros de Microsoft son perfeccionistas. Y de acuerdo a Gopal, el perfeccionismo es un requisito en la selección de personal. “Los productos líderes requieren un compromiso a largo plazo para alcanzar la excelencia, además de expertos de primer nivel y equipo de alta calidad”, menciona LeSalle.
Con esta receta para el éxito, Microsoft puede estar seguro de que la calidad de sonido de sus dispositivos está basada en los datos más puros. Están fusionando un dispositivo máquina/humano con un conocimiento preciso de sus componentes y sistemas individuales, con los algoritmos y códecs más afinados.
Pero este laboratorio es más que las mediciones más confiables y finas de hoy en día, es el cimiento de un compromiso para desarrollar hardware de alta calidad en el futuro. Porque cuando los investigadores de Microsoft están innovando en cómo interactuamos con nuevos dispositivos, no hay un mapa para guiarlos. Deben imaginar y construir sus visiones con las mejores bases posibles y para ello Microsoft quiere las mejores herramientas a la mano listas para hacer el futuro que esperamos ver y escuchar.
Referencia: Brüel & Kjaer. Case Study “HELPING MICROSOFT TO PERFECT SOUND QUALITY” [documento en línea https://www.bksv.com acceso: junio de 2016].
No Comments