Hogar Audio ¿Cuál es la diferencia entre discurso a texto y chatbots?

¿Cuál es la diferencia entre discurso a texto y chatbots?

Anonim

Q:

¿Cuál es la diferencia entre discurso a texto y chatbots?

UN:

Las numerosas diferencias significativas entre las tecnologías de voz a texto y chatbots son parte de lo que se está examinando en la rápida evolución de los proyectos de chatbot y voicebot.

Una tecnología de voz a texto es simplemente una que convierte el habla verbal en texto en una página digital. Esa es su función completa, pero no es simple de diseñar. Para convertir el discurso verbal en texto, la tecnología debe dividir las palabras y oraciones en fonemas individuales y trabajar con ellos de acuerdo con algoritmos complejos para crear texto que sea preciso y represente lo que dijo el hablante.

Los chatbots, por otro lado, son tecnologías que logran el objetivo de comunicarse con un humano. Hay dos tipos de chatbots: chatbots de texto y voicebots. Los chatbots de texto han existido por mucho más tiempo, porque no necesitan el elemento de voz a texto que utilizan los voicebots.

La principal diferencia entre las tecnologías de voz a texto y chatbots es el alcance. Como se mencionó, todo lo que necesita hacer la tecnología de voz a texto es transcribir el discurso verbal. El chatbot, por otro lado, necesita hablar en cualquier forma para la que está hecho, comprenderlo y proporcionar respuestas que busquen pasar la prueba de Turing: la prueba de si una tecnología puede engañar a un humano para que piense que él o ella son hablando con otra persona.

Con eso en mente, los chatbots son mucho más fáciles de crear que los voicebots. El chatbot toma el texto del humano y proporciona una respuesta de texto. Incluso los chatbots relativamente simples han sido capaces de proporcionar resultados interesantes y agradables para los humanos desde finales de los años ochenta y principios de los noventa.

El voicebot, por otro lado, tiene que asimilar el habla verbal, convertirlo en texto, verificar su precisión, generar una respuesta y construir esa respuesta desde el lenguaje de la máquina en lenguaje audible. Este gran número de tareas bastante significativas significa que el robot de voz requiere mucha potencia informática y mucho diseño para construir.

Proyectos como Siri, Cortana y Alexa demuestran parte de la vanguardia de las tecnologías de bots de voz. También ilustran que esta tecnología aún está en pañales. Aunque Alexa y otras tecnologías pueden responder verbalmente al habla humana, no son extremadamente capaces en el sentido de que nos asociamos con el habla humana verbal en general. En otras palabras, hay bastante limitación en las respuestas que estas tecnologías pueden proporcionar. Incluso hay una capacidad limitada de la generación actual de asistentes personales para generar realmente voz a texto, por ejemplo, con el propósito de transcribir un correo electrónico o ayudar a alguien a escribir un ensayo sin usar sus manos. Algunos de los programas específicos de voz a texto en el mercado lo hacen mejor que Siri o Cortana, probablemente debido a la asignación de recursos. Sin embargo, hay señales de que el progreso del robot de voz pronto despegará, como la plataforma Lex de Amazon que permite un entorno de estudio para construir este tipo de tecnologías.

En un ensayo inteligente e instructivo sobre el tema, Tobias Goebel habla sobre la diferencia entre estas tecnologías, contrastando el proceso de "transcripción", que hace el discurso al texto, con el trabajo de comprensión, que se supone que deben hacer los chatbots.

"Si bien eliminar la necesidad de reconocimiento de voz facilita las cosas para un chatbot, el principal desafío para construir bots funcionales radica en la comprensión del lenguaje natural", escribe Goebel.

Goebel también identifica a muchos de los jugadores actuales en la industria:

El líder del mercado para el reconocimiento de voz es Nuance, que está detrás de sistemas conocidos como Dragon NaturallySpeaking para dictar en una PC, que ha existido desde los años noventa, pero también Siri: la tarea de reconocimiento / transcripción de voz realizada en la nube de Apple utiliza Tecnología Nuance detrás de escena. Otros son LumenVox, Verbio o Interactions, pero ahora el reconocimiento de voz también se ofrece como un servicio en la nube a través de API por parte de Amazon, Google, Microsoft e IBM.

A medida que se desarrollan los chatbots, se supone que su comprensión continuará aumentando en cierta trayectoria, y también se supone en gran medida que pasará más tecnología de bot de las interfaces de texto a las interfaces verbales, lo que requiere cantidades adicionales de potencia informática.

¿Cuál es la diferencia entre discurso a texto y chatbots?