Google está aprendiendo a diferenciar entre tu voz y la de tus amigos – @Google

Es posible que podamos distinguir la voz de nuestro mejor amigo o la voz de nuestra madre en una multitud, pero ¿se puede decir lo mismo de nuestros altavoces inteligentes? Por los momentos, la respuesta puede ser “no”. Los asistentes inteligentes no siempre tienen razón acerca de quién están hablando, pero Google quiere cambiar eso con una solución bastante elegante.

Gracias a una nueva investigación, la cual se detalla en el documento que lleva por nombre Looking to Listen at the Cocktail Party (Escuchar en una fiesta de cóctel), los investigadores de Google explican cómo un nuevo sistema de aprendizaje profundo puede identificar voces simplemente mirando las caras de las personas mientras hablan.

En una publicación, los ingenieros de software de Google Research Inbar Mosseri y Oran Lang señalaron que las personas son claramente buenas enfocando su atención en otra persona en un ambiente con mucho ruido, “enmudeciendo” mentalmente a todos los demás sonidos y voces. Y, a pesar de que esta capacidad es inherente al ser humano, “la separación automática del habla, que divide una señal de audio en sus fuentes de habla individuales, a su vez es un problema bien estudiado que sigue siendo un desafío importante para las computadoras”.

No obstante, Mosseri y Lang crearon un modelo audiovisual de aprendizaje profundo el cual tiene la capacidad de aislar las señales de voz de una variedad de otras entradas auditivas, como voces adicionales y ruidos de fondo. El dúo acotó: “Creemos que esta capacidad puede tener una amplia gama de aplicaciones desde la mejora del habla y reconocimiento en videos mediante videoconferencias, hasta audífonos mejorados especialmente en situaciones en las que hay muchas personas conversando”.

Entonces, ¿cómo lo hicieron?

Lo primero que se hizo fue capacitar el sistema para identificar voces individuales (emparejadas con sus caras) hablando ininterrumpidamente en un entorno auditivo limpio. Los investigadores presentaron el sistema con aproximadamente 2 mil horas de video, todas de ellas con una sola persona en el marco de la cámara sin interferencia de fondo. Una vez que se completó, empezaron a incluir ruido virtual, como otras voces, para enseñar a su sistema de IA a diferenciar entre las pistas de audio y así permitir que el sistema identificara qué pista era cuál.

Finalmente, los investigadores entrenaron al sistema para “dividir la mezcla de cóctel sintético en flujos de audio separados para cada altavoz en el video.” Como se puede ver en el video, la IA puede identificar las voces de dos comediantes incluso cuando hablan uno sobre el otro, simplemente mirando sus caras.

[youtube https://www.youtube.com/watch?v=NzZDnRni-8A]

Mosseri y Lang escribieron: “Nuestro método funciona en videos comunes con una única pista de audio, y todo lo que se requiere por parte del usuario es seleccionar la cara de la persona que quieren escuchar en el video, o hacer que dicha persona se escoja a través de un algoritmo en función del contexto”.

Habrá que esperar y ver cómo esta nueva metodología se va a implementar en los productos de Google.