Hogar Software ¿Qué es la síntesis del habla? - definición de techopedia

¿Qué es la síntesis del habla? - definición de techopedia

Tabla de contenido:

Anonim

Definición - ¿Qué significa la síntesis de voz?

La síntesis del habla es una simulación artificial del habla humana con una computadora u otro dispositivo. Como contrapartida del reconocimiento de voz, la síntesis de voz se usa principalmente para traducir información de texto en información de audio y en aplicaciones como servicios habilitados para voz y aplicaciones móviles. Además de esto, también se utiliza en tecnología de asistencia para ayudar a las personas con discapacidad visual a leer contenido de texto.

Techopedia explica la síntesis de voz

El VODER de Homer Dudley, basado en el codificador de voz de los Laboratorios Bell, se considera el primer sintetizador de voz completamente funcional. La computadora utilizada en la síntesis de voz se conoce como sintetizador de voz o computadora de voz. La calidad de la computadora del habla a menudo se juzga por su similitud con la voz humana. La mayoría de los sistemas operativos informáticos han incorporado sintetizadores de voz desde principios de los años noventa. El discurso sintetizado generalmente se genera con la ayuda de concatenar piezas de discurso grabado, que está contenido en una base de datos.

La etapa inicial en la síntesis del habla es el preprocesamiento, lo que elimina la ambigüedad que rodea la forma en que se debe leer la palabra específica, y que también incluye el manejo de homógrafos. En la siguiente etapa de síntesis de voz, la computadora toma la ayuda de fonemas para convertir el texto en secuencia de sonidos. La última etapa implica el uso de grabaciones humanas o técnicas básicas de generación de sonido para imitar el mecanismo de la voz humana y leer todo el texto. Una de las ramas populares de la síntesis de voz es la síntesis de voz audiovisual o síntesis de voz multimodal, que utiliza una cara animada estrechamente sincronizada para complementar la voz sintetizada. La síntesis de voz multimodal también incorpora características adicionales tales como señales no verbales para ayudar a comunicar las palabras del usuario con mayor precisión. Muchos sistemas de síntesis de voz permiten a los usuarios elegir el tipo de voz, como la voz masculina o femenina.

La mayoría de los sistemas de síntesis de voz son capaces de leer textos y emitirlos de una manera muy inteligente, aunque la voz a veces puede ser aburrida. Sin embargo, la síntesis de voz aún no ha desarrollado la capacidad de imitar completamente el amplio espectro de entonaciones y cadencias humanas.

¿Qué es la síntesis del habla? - definición de techopedia