Hogar Audio Escucho gente muerta? la tecnología del lenguaje natural hace que las voces pasadas y presentes cobren vida

Escucho gente muerta? la tecnología del lenguaje natural hace que las voces pasadas y presentes cobren vida

Tabla de contenido:

Anonim

En estos días, la mayoría de las voces de las computadoras son pasadas. Probablemente no se entusiasme demasiado con los cyborgs y los robots cuando escuche el "droide" en su teléfono que lo ayuda con el pago de una factura o le pregunta qué departamento desea. Pero, ¿qué pasa si de repente escuchaste a Kurt Cobain pidiéndote información sobre la tarjeta? ¿O John F. Kennedy contándole sobre las maravillas de la votación anticipada? ¿O Elvis anotando su nombre y dirección antes de entrar en "un trozo, un trozo de amor ardiente"?


Todo esto sería … un poco extraño, pero lo que es aún más fascinante es que la tecnología básicamente ya está aquí. Hace solo una década más o menos, nos sorprendió la capacidad de una computadora de hablar incluso. Ahora, estamos a punto de ser derribados por voces generadas por computadora que suenan como personas que conocemos.

Grandes cambios en PNL

Si está prestando atención al campo del procesamiento del lenguaje natural (PNL), es posible que haya escuchado sobre algunos avances recientes que van más allá de los tipos de voces de asistente virtual enlatado que ahora escuchamos en nuestros sistemas de posicionamiento global (GPS) y negocios automatizados. Líneas telefónicas.


El comienzo de la PNL requirió mucha investigación sobre la mecánica general del habla humana. Los investigadores e ingenieros tuvieron que identificar la fonética individual, doblarlos en algoritmos más grandes para generar frases y oraciones, y luego tratar de manejar todo a un nivel meta para generar algo que sonara real. Con el tiempo, los líderes de la PNL dominaron esto y comenzaron a construir algoritmos avanzados para comprender lo que los humanos dicen. Al unir estos dos, las empresas idearon los controladores para los asistentes virtuales de hoy y los empleados de pago de facturas totalmente digitales, cuyos gestos, aunque molestos, siguen siendo sorprendentes cuando te detienes a pensar en el trabajo que se les dedicó.


Ahora, algunas compañías van más allá de la voz virtual genérica para crear un resultado personalizado más específico. Esto requiere pasar por el léxico de una persona en particular y recolectar grandes cantidades de video de voz único, luego aplicar este archivo a los ritmos complejos para fonética, énfasis, cadencia y todas las otras pequeñas señales que los lingüistas a menudo agrupan bajo el amplio cartel de "prosodia".


Lo que sale es una voz que los oyentes piensan que es "propiedad" de una persona en particular, ya sea alguien que conocen y con quien han hablado, o alguien cuya voz reconocen como resultado de la fama de la persona.


Desde Elvis hasta Martin Luther King, la voz de cualquier persona ahora se puede "clonar" de esta manera, siempre que haya un registro sustancial pregrabado de su discurso. Al aplicar un análisis y manipulación aún más detallados a pequeños sonidos individuales, las compañías pueden hacer una copia virtual de la voz de alguien que se parece mucho a la realidad.

Emocionantes creaciones de "Texto a voz" en VivoText

VivoText, por ejemplo, es una compañía que está trabajando para revolucionar el uso de voces humanas artificiales para todo tipo de campañas, desde audiolibros hasta respuesta de voz interactiva (IVR). En VivoText, los equipos de investigación y producción están trabajando en procesos que, en teoría, podrían replicar específicamente las voces de celebridades fallecidas, como el propio Ol 'Blue Eyes.


"Para clonar la voz de Frank Sinatra, en realidad pasaríamos por su legado grabado", dice el CEO de VivoText, Gershon Silbert, hablando sobre cómo podría funcionar este tipo de tecnología.


En este momento, VivoText está trabajando en archivar las voces de aquellos que todavía están con nosotros, como el corresponsal de NPR Neal Conan, quien se ha registrado como modelo para este tipo de proyecto pionero de TI. Un video promocional muestra a los trabajadores de VivoText creando minuciosamente módulos de código fonético utilizando la entrada de voz proporcionada por Conan. Luego crean los modelos para herramientas de texto a voz (TTS) que evocan un resultado dramáticamente humano y personificado.


Según Ben Feibleman, vicepresidente de estrategia y desarrollo comercial de VivoText, la computadora funciona a nivel de fonema (utilizando las partes más pequeñas del discurso) para conformar un modelo prosódico para una voz humana individual.


"Sabe cómo habla la voz", dice Feibleman, y agrega que al usar "selección de unidad", la computadora elige una serie de piezas para juntar una sola palabra corta, como donde la palabra "viernes" recibe cinco componentes que ayudan a desarrollar Un énfasis particular y un resultado tonal.

Voz Artificial en Marketing

Entonces, ¿cómo funciona esto en marketing? Los productos de VivoText podrían ser extremadamente útiles en la creación de productos, como audiolibros, que podrían llegar al público objetivo. Por ejemplo, ¿cuánto más efectiva sería una voz de Elvis en comparación con una de las voces automáticas genéricas, inexpresivas de hoy en día si se usara para vender productos relacionados con el entretenimiento?


O, ¿qué tal en política? Feibleman ha estado trabajando en varias ideas para usar proyectos como estos para mejorar el marketing para empresas u otras partes que necesitan mensajes más efectivos.


"Si conoces a algún político que se postule para presidente, esto podría hacer que 10 millones de votantes del estado oscilante reciban una llamada personal de un candidato, agradeciéndoles su apoyo, diciéndoles a dónde deben ir a votar, el clima y todos los recortes que el noche antes de las elecciones ", dijo Feibleman.

Tu voz sigue viva

Hay otra aplicación obvia para toda esta tecnología. Las compañías de lenguaje natural como VivoText podrían crear un servicio personal que cargaría todos los datos de voz de un cliente en un producto que le permitiría a esa persona "hablar para siempre".


La implementación práctica probablemente plantearía una serie de preguntas sobre cómo escuchamos e internalizamos las voces habladas. Por ejemplo, ¿qué se necesita para hacer que un flujo de sonido suene exactamente como alguien? ¿Qué tan bien tenemos que conocer a una persona para reconocer una voz en particular? Y, curiosamente, ¿qué sucede si un servicio de lenguaje natural produce una caricatura burda, en lugar de una imitación convincente?


La evaluación de resultados, dice Feibleman, a menudo depende de la consideración del contexto. Por ejemplo, dice que los niños generalmente no hacen preguntas sobre quién habla cuando escuchan una historia. Solo quieren más. Pero también, muchos adultos pueden no pensar en quién les está hablando, dado un escenario particular, como una transmisión pasiva o un mensaje telefónico. Además, es más fácil ser engañado por una computadora por teléfono porque el sonido amortiguado puede enmascarar fallas u otras discrepancias entre los resultados de la computadora y una voz humana.


"No se te ocurre desafiar la autenticidad de la voz", dice Feibleman.

En el año 2525

A medida que las empresas avanzan en el desarrollo de productos y servicios y responden estas preguntas, las tecnologías de "discurso vivo" podrían avanzar hacia esa convergencia de la tecnología y la mente humana, que se ha denominado clásicamente inteligencia artificial (IA).


Si las computadoras pueden hablar como nosotros, pueden engañar a otros usuarios para que piensen que piensan como nosotros, alimentando el principio más amplio de la singularidad, tal como John von Neumann, un pionero de la tecnología de la década de 1950, introdujo en nuestro léxico. y pensadores como Ray Kurzweil. El libro de Kurzweil de 2005, "La singularidad está cerca", emociona a algunos y asusta a otros. Kurzweil predijo que para 2045, la "inteligencia" como fenómeno se desligará en gran medida del cerebro humano y migrará a la tecnología, difuminando las líneas entre las máquinas y sus amos humanos.


Inmortalizado en la letra de "In the Year 2525" de Zager & Evans (nadie hace baladas espeluznantes de ciencia ficción como estos tipos) …


En el año 4545

No vas a necesitar tus dientes, no necesitarás

tus ojos

No encontrarás nada para masticar

Nadie te va a mirar


En el año 5555

Tus brazos colgando flácidos a tus costados

Tus piernas no tienen nada que hacer

Algunas máquinas lo están haciendo por ti


¿Son las voces de la computadora un paso en esta dirección? Como una nueva forma de externalizar algunas de las funciones del cuerpo humano (o más comúnmente, para simularlas), este tipo de progreso tecnológico es uno de los avances más grandes, y probablemente no reportados, en el horizonte a medida que miramos hacia un futuro singular. . (sobre "la singularidad" en ¿Las computadoras serán capaces de imitar la mente humana?)

Escucho gente muerta? la tecnología del lenguaje natural hace que las voces pasadas y presentes cobren vida