
- Select a language for the TTS:
- Spanish Female
- Spanish Male
- Spanish Latin American Female
- Spanish Latin American Male
- Language selected: (auto detect) - ES
Play all audios:
Los investigadores de Google han desarrollado una aplicación de inteligencia artificial que puede distinguir la voz de una persona de entre una combinación de sonidos como, por ejemplo,
otras voces y ruido de fondo. En la publicación de un blog, Inbar Mosseri y Oran Lang, dos de los investigadores, dijeron que creen que el avance podría tener una amplia gama de usos, entre
ellos mejorar los subtítulos de programas de televisión y optimizar la función de audífonos, “especialmente en situaciones en las que hay varias personas hablando”. La tecnología imita el
denominado “cocktail party effect” (efecto de fiesta de coctel), en el que una persona con buena audición puede filtrar mentalmente voces y sonidos, lo que le permite enfocar su atención en
una persona en particular, mientras está en un ambiente ruidoso y lleno de gente. Hasta ahora, a las máquinas se les dificultaba hacer eso. Los investigadores combinaron 2,000 horas de
videos de YouTube de oradores discursando, con el objetivo de crear versiones sintéticas del ambiente en una fiesta de coctel. Después, capacitaron el programa de inteligencia artificial
para analizar las caras de los oradores e identificar señales que indicaran que estaban hablando, como el movimiento de la boca, y vincularlas a sus palabras. Como resultado, el programa
pudo identificar una señal de audio clara de un orador en particular. Según los investigadores, además de mejorar los audífonos, la tecnología podría hacer que la subtitulación en programas
de televisión y videos sea más precisa, incluso cuando las voces se superponen.