- La “reducción fonética” podría ser clave para mejorar el diálogo generado por IA, afirma un profesor
EL PASO, Texas (18 de diciembre de 2025) – Un estudio sobre el habla realizado por un equipo de investigación de la Universidad de Texas en El Paso identifica un aspecto poco valorado del habla en hablantes de inglés y español que podría conducir a mejoras en los sistemas de diálogo hablado de inteligencia artificial (IA).
Un estudio sobre el habla realizado por un equipo de investigación de la Universidad de Texas en El Paso identifica un aspecto poco valorado del habla en hablantes de inglés y español que podría conducir a mejoras en los sistemas de diálogo hablado de inteligencia artificial (IA). De izquierda a derecha: Nigel Ward y los asistentes de investigación Raul Gomez y Javier Vazquez.
Un estudio sobre el habla realizado por un equipo de investigación de la Universidad de Texas en El Paso identifica un aspecto poco valorado del habla en hablantes de inglés y español que podría conducir a mejoras en los sistemas de diálogo hablado de inteligencia artificial (IA). De izquierda a derecha: Nigel Ward, Ph.D., y los asistentes de investigación Raul Gomez y Javier Vazquez.
Las personas tienden a articular sus palabras con menos precisión cuando expresan un sentimiento positivo, según una nueva investigación dirigida por Nigel Ward, Ph.D., profesor del Departamento de Ciencias de la Computación de la Facultad de Ingeniería de UTEP. La articulación reducida en el habla, llamada reducción fonética, no había sido considerada relevante anteriormente por los investigadores de tecnología del habla, dijo Ward.
“Las personas a menudo perciben los sistemas de IA como fríos e insensibles y no confían en ellos, incluso si su rendimiento es excelente”, dijo Ward. “Las voces de IA actuales son consistentemente muy inteligibles, por lo que hay margen para sacrificar un poco de precisión articulatoria cuando sea necesario. Planeamos crear voces que hagan esto, para que los sistemas de IA finalmente puedan escapar del estereotipo frío y robótico y volverse más comunicativos, más confiables y más útiles”.
Ward detalla sus hallazgos en un artículo revisado por pares titulado “La reducción fonética está asociada con la evaluación positiva y otras funciones pragmáticas”, que se publicó recientemente en la revista Speech Communication. Los asistentes de investigación de pregrado Raul O. Gomez, Carlos A. Ortega y Georgina Bugarini fueron coautores del artículo.
En el estudio, realizado en el otoño de 2023 y la primavera de 2024, los investigadores grabaron a los hablantes diciendo una de seis frases dos veces: una vez en un tono de voz neutro y otra en un tono positivo. Un grupo independiente de jueces no expertos comparó cada fonema, o unidad de sonido con significado, en ambas versiones.
Se descubrió que los hablantes tenían un tercio más de probabilidades de simplificar su pronunciación en el tono positivo que en el tono neutro, con un 30% de fonemas considerados “reducidos” y un 9% “muy reducidos” en inglés. El equipo también encontró evidencia del mismo patrón en español, con un 35% de fonemas reducidos y un 4% muy reducidos.
La reducción fonética, que incluye el habla murmurada, descuidada o generalmente menos articulada, también ocurre en frases que cumplen otras funciones sociales, como el habla interna, la expresión de incertidumbre o el cierre de un tema de conversación. En el estudio, los investigadores buscaron aislar la correlación entre la reducción y el habla positiva.
“Cuando se habla de forma más positiva, el tono es más alto y se tiende a hablar un poco más rápido”, dijo el coautor Raúl Gómez. “Nos aseguramos de eliminar este factor haciendo que los participantes grabaran primero la versión positiva y luego la neutra, de modo que, si la versión neutra era más larga, pudieran acortarla. De esta manera, solo observamos la reducción en función de la positividad de la voz, y no de la duración”.
Ward espera que el estudio inspire una mayor exploración de la reducción fonética, especialmente en lo que respecta a los sistemas de diálogo hablado como Siri, Alexa y Google Assistant, que conversan con los humanos utilizando una voz de sonido humano.
El laboratorio de Ward, el Grupo de Sistemas Interactivos, utiliza una herramienta llamada ReduEst, un programa que estima el nivel de reducción fonética en los datos de voz.
El software, que se distribuye como software gratuito para que esté disponible para otros investigadores, fue desarrollado por Javier Vázquez, un estudiante de segundo año de maestría que estudia la traducción de voz a voz, una tecnología de inteligencia artificial que convierte palabras habladas de un idioma a otro en tiempo real.
“Queremos pasar de un sistema de traducción meramente transaccional, donde simplemente se transmite información, a un sistema conversacional, donde podamos expresar sentimientos y emociones”, dijo Vázquez.
Una voz más realista sería especialmente útil en situaciones delicadas, dijo Ward. Un ejemplo podría ser un sistema de voz automatizado para un banco que pueda sonar profesional o comprensivo, según detecte si el cliente es un usuario experimentado o un usuario primerizo. Otro uso del habla realista se encuentra en la “inteligencia artificial encarnada”, donde el sistema es un agente que existe en el mundo real, como un robot o un coche autónomo, explicó Ward. En entornos complejos que pueden cambiar rápidamente, una voz más realista transmite el significado de forma más eficiente.
