Tecnologías del habla en español: convergencia con InternetFrancisco Golderos Sánchez
Director general de Productos y Servicios. Telefónica I+D. Madrid (España)

1. Introducción

A mediados de los 60, la agencia gubernamental norteamericana ARPA concibió una red de comunicación entre ordenadores, cuyo objetivo era que cualquier parte de ella no dañada pudiera seguir funcionando aunque la mayoría de la red hubiera sido destruida.

Este objetivo, determinado por la guerra fría, dio lugar a un diseño de red constituido por diversas redes físicas, y sin un centro de gestión definido. Había nacido Internet.

Pocos auguraban entonces el inmenso éxito futuro de la Red, sobre todo porque no se vislumbraba cómo una red que no garantizaba «parámetros de calidad de servicio» podía ser una alternativa a las redes tradicionales.

Si eran pocos los que preveían el éxito de la Red, no creo que nadie previera la importancia que los aspectos lingüísticos iban a tener en ella, ni la importancia que la Red iba a tener para las diferentes lenguas.

Durante los años 70 y 80 Internet continuó su desarrollo, viéndose éste favorecido por el tremendo éxito del ordenador personal y el abaratamiento y popularización de los ordenadores y programas. Las aplicaciones estrella de la red eran: El correo electrónico (SMTP), la transferencia de ficheros (FTP) y el terminal virtual (TELNET). Los usuarios de estas aplicaciones constituían un grupo de iniciados informáticos que, aunque cada vez más numeroso, estaba lejos de poder considerarse gran público.

En los años 90 se produjo un cambio cualitativo en el uso de la red, con el advenimiento del HTML y del protocolo HTTP. El concepto de página pasó a ser el paradigma de unidad de información en la red y la navegación por estas páginas la aplicación más importante.

De repente la Red se había convertido en una inmensa biblioteca, con un crecimiento exponencial e incontrolado, y abierta a todos los idiomas aunque, todo hay que decirlo, con un claro predominio del inglés.

Por otra parte el usuario sí que se había convertido en el gran público, cobrando una gran importancia que la forma de acceder y usar la Red no requiriera conocimientos específicos de informática. Este requerimiento se va a ir haciendo cada vez más importante, y es aquí donde la tecnología del lenguaje va a desempeñar un papel determinante.

Paralelo al desarrollo de la Red, otro sector de crecimiento explosivo (incluso superior al de ella) ha sido el de la telefonía móvil. Si la red había permitido el rápido acceso a cualquier información y a cualquier producto (esto último en menor medida, aunque existen pocas dudas sobre que el comercio electrónico marcará la evolución de la Red en el futuro inmediato), la telefonía móvil ha hecho posible estar comunicado en todo momento y en cualquier lugar.

La unión de estos dos conceptos, acceso universal a la información y productos (Internet) y capacidad de acceso desde cualquier lugar configuran la nueva sociedad y la nueva economía, imponiendo un nuevo requerimiento a la Red: El ser accesible desde múltiples tipos de terminales (teléfonos fijos, móviles de distintas generaciones, TV, etc.) y no exclusivamente desde un PC.

Esto conlleva dos requerimientos contradictorios, puesto que deseamos teléfonos móviles cada vez más pequeños, y capacidades de presentación cada vez más sofisticadas, dado que la información en la red tiene un alto porcentaje de imágenes, lo que ha llevado a la práctica desaparición del teclado, al ser ocupado todo el espacio disponible en un teléfono móvil por la pantalla. La dificultad de satisfacer simultáneamente ambos requerimientos puede verse aliviada por el uso de las tecnologías del habla.

En definitiva las tecnologías del habla y del lenguaje van a ser muy importantes en la evolución de la red, dado que tienen mucho que aportar en los siguientes aspectos:

Eliminar o disminuir la utilización del teclado, que nunca podrá ser ergonómico en terminales de tamaño reducido.
Facilitar el uso de la Red por el gran público, al permitir manejarla usando su lengua materna sin conocimientos específicos de informática.
Permitir el acceso a la Red de personas discapacitadas, permitiendo navegar por voz a las personas que no puedan manejar un teclado, y leyendo los contenidos a personas con problemas de visión.
Analizar e indexar automáticamente los contenidos de la Red permitiendo un acceso a la información más rápido y selectivo.
Integrar la Red con la telefonía al permitir convertir texto (Internet, mensajes cortos, fax, correo electrónico, etc.) en voz (telefonía, buzones de voz, etc.), y voz en texto, ofreciendo así un acceso universal a las comunicaciones.

2. Tecnologías del habla

La denominación genérica de Tecnologías del Habla hace referencia a un conjunto de técnicas y algoritmos de procesado de la señal de voz, así como de análisis y comprensión del lenguaje entre las que destacan las siguientes:

Codificación de voz.
Reconocimiento de locutor.
Reconocimiento de habla.
Conversión texto-voz.
Sistemas de diálogo hablado.

En los últimos años, el grado de madurez tecnológica alcanzado en cada uno de los ámbitos anteriores ha proyectado y potenciado su campo de aplicación hacia los nuevos horizontes abiertos por Internet. En los apartados que siguen realizaremos un rápido recorrido por las líneas maestras y posibilidades que ofrecen cada una de las tecnologías anteriores.

2.1. Codificación de voz

Es, sin lugar a duda, la tecnología más madura, que cuenta en la actualidad con un importante número de estándares orientados a su incorporación en sistemas de comunicaciones digitales. La mayor parte de los codificadores que encontramos en los sistemas de comunicaciones actuales pertenecen a la familia de codificadores denominados CELP (Code-Excited Linear Prediction). El esquema originario de codificación CELP fue propuesto en 1984 conjuntamente por los Laboratorios Bell y el Ministerio de Defensa de Estados Unidos (DoD). Este esquema se convirtió en estándar FS-1016 del DoD para velocidad binaria 4,8 Kb/s. Diversas evoluciones de este esquema han dado paso a una serie de estándares dirigidos a la telefonía móvil e Internet.

A pesar de que el nivel de calidad de la voz codificada es algo inferior a la de la voz sin codificar, los estándares actuales son de vital importancia tanto en sistemas móviles como GSM, GPRS y UMTS como en transmisión de voz a través de redes IP, VoIP

Las mayores posibilidades de negocio de la codificación de voz se concentran en el desarrollo de terminales de sistemas de comunicaciones para telefonía móvil y VoIP. Fuera de este ámbito, la codificación de voz encuentra aplicación en el almacenamiento de voz en bases de datos (por ejemplo, almacenamiento de llamadas telefónicas asociadas a operaciones bancarias).

Ésta es una tecnología esencialmente independiente del idioma, y por tanto su desarrollo no beneficiará ni perjudicará a algunos idiomas frente a otros.

2.2. Reconocimiento de locutor

El reconocimiento de locutor presenta dos posibles modos de funcionamiento: identificación (reconocimiento de un locutor entre una población de locutores) y verificación (comprobación de la identidad de un locutor que previamente se ha identificado, por ejemplo dando una clave). Aunque en la actualidad existen algoritmos de reconocimiento ampliamente aceptados, la fiabilidad del proceso de reconocimiento (con porcentajes de acierto por encima del 95 %) es todavía un aspecto crítico. Por ello muchas veces esta tecnología se encuentra apoyada o complementada por palabras de paso o por el uso de otras técnicas de identificación biométrica (reconocimiento de huella, iris, etc.).

El ámbito de aplicación con mayores perspectivas para incorporar la tecnología de reconocimiento de locutor es el control de acceso bien a recintos, bien a servicios (comercio electrónico) e información en sistemas de comunicaciones. Pese a la juventud de esta tecnología son varias las empresas líderes en tecnologías del habla que la incluyen entre los productos que ofrecen y en las aplicaciones que desarrollan.

También es destacable el uso del reconocimiento de locutor en aplicaciones de apoyo a la investigación policial, y más concretamente en el marco de la denominada acústica forense.

Esta técnica es bastante independiente del idioma, y, como en el caso anterior, no parece que vaya a privilegiar demasiado la importancia tecnológica ni económica de ninguna lengua.

2.3. Reconocimiento de habla

La asombrosa facilidad y rapidez con que los ordenadores realizan operaciones matemáticas, o resuelven algunas cuestiones tediosas como las de ordenación y búsqueda de información, hace que las expectativas sobre la capacidad de los mismos para la resolución de todo tipo de problemas, hayan superado y superen, con mucho, a la realidad.

Así sorprende la enorme dificultad del reconocimiento de voz, objetivo perseguido desde hace muchos años y que no ha comenzado a obtener frutos hasta hace muy poco tiempo.

Esto es menos sorprendente si pensamos que en el proceso de entendimiento del habla se ven involucradas las capacidades más elevadas de la inteligencia humana, y no es una simple cuestión de detección de señales acústicas. Pensemos en la dificultad de entender un idioma conocido pero que no sea el materno en lugares concurridos, en los cuales no tendríamos ninguna dificultad en nuestra lengua (incluso en seguir varias conversaciones), y nuestro oído es el mismo.

En general, se podría decir que los ordenadores automatizan satisfactoriamente muchas tareas que, para una persona, son difíciles, repetitivas o requieren mucho tiempo, mientras que se muestran más torpes para resolver tareas aparentemente sencillas como leer caracteres escritos a mano, reconocer voz o identificar una imagen. Esto se debe, por ejemplo, a que para hacer reconocimiento de voz hay que pasar de las tareas claramente determinadas de detección o medición de señales, ordenación, búsqueda de información y realización de cálculos matemáticos, a la labor de interpretación de los datos, que requiere de procesos complejos de razonamiento, de capacidad de aprendizaje y de bases de conocimiento.

Una dificultad añadida a la resolución de este tipo de problemas es que no se conocen los mecanismos que nos permiten percibir el entorno, a pesar de que la percepción es algo que experimentamos todos los seres vivos.

Si bien todo lo dicho anteriormente es cierto, también lo es que los avances realizados en los más de cincuenta años de investigación en reconocimiento de voz, junto con los avances en el campo de la informática, han hecho posible la resolución de muchas cuestiones que hace tan sólo unos años pertenecían al mundo de la ciencia-ficción. Este hecho ha desencadenado la proliferación de productos y servicios basados en tecnologías del habla, dado que éstas han alcanzado la madurez suficiente como para poderse emplear en múltiples aplicaciones. Uno de los avances más significativos de la tecnología del habla es el Reconocedor de Lenguaje Natural; esto significa que un cliente puede hablar con la máquina de forma continua, como lo haría con otra persona, y la máquina es capaz de reconocer y entender lo que dice. Esta característica permite eliminar la rigidez tradicional en los diálogos hombre/máquina, abriendo un abanico prácticamente ilimitado de aplicaciones, en las que hasta la fecha no se podía pensar que se pudieran ofrecer con un sistema automático (servicios de información, manipulación de agendas, dictado de mensajes, etc.). Estos reconocedores son los que se usarán, principalmente, para el desarrollo de aplicaciones en Internet accedidas desde teléfonos.

La tecnología de reconocimiento acústico predominante en los sistemas de reconocimiento del habla es la basada en los denominados Modelos Ocultos de Markov, en la cual el léxico que maneja un reconocedor de voz se representa como una secuencia de Modelos de Markov que representan la secuencia de sonidos que corresponden a cada palabra del mismo. Esta técnica, junto a la incorporación de técnicas estadísticas de modelado del lenguaje, que guían y complementan el modelado acústico haciendo uso del cálculo probabilístico de la secuencia de palabras que ofrece como salida el reconocedor de voz, ha permitido el desarrollo de los Reconocedores de Lenguaje Natural.

La utilización de técnicas de reconocimiento en servicios reales no es trivial. Por tanto, es importante tener en cuenta una serie de factores a la hora de diseñar un servicio, dado que el éxito del mismo depende, en gran medida, del conocimiento de las tecnologías implicadas. A continuación se describen las principales características que afectan al funcionamiento de los reconocedores de voz.

Independencia del locutor

Los seres humanos percibimos las características de las voces de las personas con gran facilidad. Esta capacidad nos permite identificar a una persona por su voz o incluso conocer datos de la misma, como la región en la que aprendió a hablar o en la que vive habitualmente, su nivel cultural, sexo, edad, algunos rasgos de su forma de ser, su estado de ánimo, etc. Por tanto, el conjunto de sonidos emitidos al hablar no sólo lleva la información del mensaje contenido en la frase pronunciada, sino que también lleva información sobre el interlocutor. Toda esta información complementaria al propio mensaje, lejos de dificultar la comprensión, ayuda a mejorar el proceso de comunicación entre las personas. Sin embargo, en el caso de los sistemas de reconocimiento, las diferencias entre distintas voces tienen efectos negativos en la tasa de aciertos. Las diferencias en las tasas de error se deben a que los modelos acústicos de referencia de los sonidos que utiliza un reconocedor se obtienen a partir de un conjunto finito de voces de muchas personas. Por tanto, el sistema no funcionará bien con aquellas voces que sean muy distintas de las de referencia.

Para solucionar este problema es conveniente dotar a los reconocedores de técnicas de adaptación al locutor que permitan que el sistema pueda modificar dinámicamente sus modelos de referencia, a fin de que la tasa de error sea la mínima posible e igual para todos los posibles usuarios.

Efecto del ruido

El ruido de fondo afecta relativamente poco a las tasas de reconocimiento de los seres humanos y, por tanto, al proceso de comunicación. Esto se debe fundamentalmente a tres factores:

Las personas tenemos dos oídos, lo que nos permite la identificación de las fuentes de sonido y su separación, gracias al procesado realizado posteriormente por el cerebro.
La capacidad de predicción del cerebro, apoyándose en una serie de fuentes de conocimiento como el propio conocimiento del lenguaje, de la persona o personas con las que se está hablando, el contexto y tema de la conversación, etc.
La capacidad de adaptación del cerebro.

Estos factores hacen que los seres humanos seamos claramente superiores a los reconocedores de voz, que hacen su trabajo basándose en conocimiento acústico y en un modelo limitado del lenguaje. En el futuro los sistemas de reconocimiento incorporarán más información para realizar su tarea, aunque hoy no se sabe a ciencia cierta cómo hacerlo.

Existen diversas técnicas para atacar los problemas del ruido estacionario. Sin embargo, no se puede decir lo mismo del caso del ruido no estacionario y de las voces de fondo, que siguen siendo problemas sin resolver.

Efecto del canal de transmisión

Otro elemento con una influencia en el reconocedor es el canal de transmisión (red fija, red móvil, Internet); la codificación que se emplea tanto en telefonía móvil (HR, FR, EFR y AMR) como en las redes IP (G.729 y G.723.1) modifica las propiedades de la señal de voz, introduciendo una variabilidad que afecta las tasas de reconocimiento. Otro factor a considerar es la creciente variedad de teléfonos que se conectan a la red telefónica e incluso la utilización de terminales en modo de funcionamiento de manos libres.

El reconocimiento de voz es una tecnología fuertemente dependiente del lenguaje, tanto más cuanto más avanzado sea el reconocedor (pensemos en el problema de los pronombres enclíticos en castellano, la agregación de palabras en alemán, o la pronunciación sin reglas del inglés). Es además una tecnología que exige enormes inversiones para su desarrollo y un cuidado diseño de las aplicaciones que la usen (incorporando amplios conocimientos del idioma). Todo lo anterior hace que esta tecnología sólo se vaya a desarrollar totalmente para los idiomas cuya importancia económica lo justifique.

2.4. Conversión texto-voz

La conversión texto-voz es la generación, por medios automáticos, de la secuencia de sonidos que produciría una persona al leer un texto cualquiera en voz alta.

Algunos aspectos destacables de esta definición son los siguientes:

La generación debe hacerse de forma automática, sin mediar correcciones o ajustes a mano por parte de un operador humano en ninguna de las etapas del proceso.
La meta de la conversión texto-voz es producir habla emulando, en lo posible, el modo en que un ser humano lee. No bastará que se pueda entender lo que el conversor dice (inteligibilidad), sino que además debe ser apreciado por oyentes humanos como semejante a un hablante humano (naturalidad). Este último aspecto es el gran reto de la conversión texto-voz.
Aunque depende del tipo de aplicación, en el caso más general el conversor sólo tendrá como entrada los datos que se encuentren en un texto arbitrario. Debe, por tanto, ser capaz de tratar todos los fenómenos (abreviaturas, números, vocablos extranjeros, etc.) que aparecen en un texto corriente, e incluso de corregir las posibles faltas de ortografía (acentos, etc.).

Conviene aclarar que la conversión texto-voz no es síntesis de voz a partir de concepto. Es decir, la conversión texto-voz siempre trabaja a partir de un texto previamente escrito, y no incluye la capacidad de generar el texto respondiendo a condiciones variables no previsibles de antemano, a diferencia de como hacen los ordenadores parlantes que aparecen en las películas de ciencia-ficción. Actualmente, algunas técnicas de proceso de lenguaje natural y de inteligencia artificial trabajan en este sentido.

Tecnológicamente la conversión texto-voz aúna dos tipos de tareas complementarias, y claramente diferenciadas:

Proceso lingüístico, encargado de analizar el texto de entrada al sistema y obtener la secuencia de sonidos que hay que generar, y también la información asociada a los sonidos, para saber cómo pronunciarlos (duración de cada uno, y entonación del discurso).
Síntesis de voz, que, a partir de la información recibida del módulo de proceso lingüístico, realiza la generación de la señal de voz sintetizada.

La tarea de proceso lingüístico es obviamente muy dependiente del idioma, mientras que la de síntesis de voz se realiza mediante técnicas que pueden considerarse independientes del idioma, y que en la actualidad consiguen proporcionar una alta inteligibilidad a la voz sintetizada (equiparable a la de la voz natural).

Sin embargo, la naturalidad, la dificultad en la generación de nuevas voces y las limitaciones en la expresividad del habla sintetizada son las principales dificultades con que todavía tiene que enfrentarse esta tecnología.

Los conversores texto-voz han comenzado a ser usados en distintos tipos de aplicaciones o servicios automáticos, entre los que por su difusión destacan aquéllos en los que se proporciona información hablada a los usuarios (coste de llamadas telefónicas, saldo de una cuenta bancaria…) y son absolutamente claves para el acceso telefónico a Internet (lectura de páginas, correo electrónico, etc.).

Otro uso destacable de los conversores texto-voz es como alternativa o complemento a la presentación visual de la información en la pantalla de un ordenador. Piénsese en el caso de los invidentes o deficientes visuales que, de esta forma, pueden tener un medio que constituye una gran ayuda para manejar unas herramientas tan importantes hoy en día, como son los ordenadores. Así se puede contribuir a mejorar la integración laboral de estas personas, y facilitar su acceso a la información (lectura de periódicos, libros, páginas web, etc.).

A medida que el uso de conversores texto-voz se ha ido extendiendo, ha surgido la necesidad de que en ellos se pueda elegir el idioma o variedad dialectal en el que el usuario desea recibir la información. Este hecho es de especial importancia para favorecer la aceptación de los servicios por parte de los usuarios. Difícilmente se aceptará una voz sintética que los usuarios consideran como extranjera.

Como en el caso del reconocimiento de habla, esta tecnología es fuertemente dependiente del idioma, y los idiomas que no cuenten con ella verán limitadas seriamente sus posibilidades de desarrollo en Internet.

2.5. Sistemas de diálogo hablado

El grado de madurez alcanzado por las tecnologías anteriores ha abierto un nuevo e importante campo tecnológico que las engloba y que se recoge bajo la denominación de Sistemas de Diálogo Hablado. En este campo se dan cita diferentes ámbitos de la ingeniería lingüística que persiguen como objetivo abordar la problemática asociada al desarrollo de interfaces de voz que incorporen los recientes avances de las técnicas de reconocimiento de habla y conversión texto-voz. Los sistemas de diálogo se integran con los sistemas de reconocimiento y conversión texto-voz, en sistemas de procesado de lenguaje natural, mediante los cuales el usuario puede comunicarse oralmente con las máquinas de una forma fluida y natural. Esto implica que el usuario no tiene que conocer palabras claves del sistema, ni escuchar tediosos menús numéricos.

La mayor parte de los sistemas de diálogo utilizan un modelo de Diálogo Colaborativo de Iniciativa Mixta, de manera que, siempre que pueda, se dará la iniciativa al usuario y a su vez mantendrá el control, interaccionando con su interlocutor para conseguir realizar la tarea. La conversación transcurre aceptando del usuario toda clase de datos, en el orden en el que el usuario decida darlos y de la forma que desee. Así, el sistema va almacenando los datos aportados por el usuario, junto con los que pueda obtener, a partir de ellos, accediendo a determinadas bases de datos de las que disponga. Si el usuario olvida dar algún dato necesario para cumplir con la tarea, el sistema toma la iniciativa, pidiendo al usuario los datos que le faltan con el objetivo de completar la tarea. Cuando la conversación entre en un punto de mal entendimiento, el sistema intentará gestionar el diálogo para sacar al usuario de este estado, haciendo sugerencias, peticiones, aclaraciones, correcciones, etc.

A través de este tipo de gestor de diálogo se intenta detectar la actitud del usuario e interpretar sus intenciones, a la vez que se elige un comportamiento para el sistema y se toma una decisión. El fin de todo ello será conseguir el objetivo enfocado por el usuario, intentando hacerlo de la manera más natural y satisfactoria para el usuario. Tanto el comportamiento global del sistema como la adaptación a un tipo de comportamiento de usuario se pueden configurar para adaptarse al interlocutor y a cada tipo de aplicación en concreto. Para conseguir la adaptación se estima el funcionamiento del módulo de reconocimiento y la actuación del usuario, frente a un modelo de conversación ideal predeterminado, que se genera automáticamente del diseño de cada aplicación. Una vez conseguida la estimación se clasifica el usuario y la aplicación entre ciertos grupos predefinidos y se adapta el comportamiento como respuesta a esta estimación.

En el tratamiento de la conversación se produce una división del diálogo, en subdiálogos de petición, confirmación, corrección, aclaración, etc., en el momento en que ésta se produce, para resolver el diálogo de una forma especializada dentro del diálogo global. Si se quiere llegar cada vez más allá en la operatividad del sistema de conversación, debe ser mediante su acomodación a las exigencias del lenguaje natural oral. Ésta es una estrategia que se basa en mantener gran libertad de conversación que nos dará la flexibilidad necesaria para abarcar una gran diversidad de circunstancias dentro de la conversación. El conocimiento del sistema se basa en un compendio de estudios sobre el lenguaje natural oral, traducido en un sistema con un comportamiento cambiante, dependiendo del conocimiento que va adquiriendo de la interacción con su interlocutor a través de la conversación.

Estos sistemas pueden incluir la capacidad de personalización respecto del usuario que lo utilice, siendo capaz de evaluar las preferencias, intenciones, eventos y ocurrencias en una conversación desde el punto de vista personal del usuario. El sistema cambia su comportamiento haciendo las sugerencias, ayudas y correcciones que se adapten mejor al usuario y generen una mayor sensación de satisfacción al usar el servicio. Además, la gestión del diálogo debe discriminar si un mal funcionamiento es debido a una falta de calidad del entorno, en vez de una falta de experiencia o error del usuario analizando el diálogo y la información del reconocedor. Es fundamental una realimentación de información entre el reconocedor y el gestor de diálogo para conseguir sistemas avanzados de gran calidad.

Estrechamente vinculado al desarrollo de las aplicaciones de voz más innovadoras, esta tecnología es sin duda alguna la que actualmente concentra mayor número de esfuerzos tanto en centros de I+D, como en empresas de explotación de las Tecnologías del Habla. Fruto de este interés, y apoyado por los esfuerzos de convergencia de la telefonía móvil e Internet, ha surgido la especificación de interfaces de voz denominada VoiceXML, que está generando un alto nivel de expectativas en las empresas del sector.

Ni que decir tiene que esta tecnología es fuertemente dependiente del lenguaje y que se le aplican las mismas consideraciones que a las anteriores.

2.6. Ingeniería del lenguaje

Ampliando la visión de las tecnologías del habla hacia el futuro próximo podemos citar las siguientes tendencias y campos de aplicación:

La integración de la ingeniería lingüística con la ingeniería del conocimiento. En el contexto de la sociedad de Internet, donde los flujos de información hacia los individuos son cada vez mayores, se plantea como una necesidad imperiosa el paso de la información al conocimiento. Así se plantean nuevos retos en campos con un interés creciente como son: el desarrollo de buscadores de información mediante lenguaje natural, la selección y clasificación automática de textos por contenidos, o la generación automática de resúmenes.

El desarrollo de interfaces multimodales (o de comunicación natural), con la perspectiva de un futuro inmediato donde se multiplicarán las posibilidades de acceso y proceso de información multimedia, se plantea el nacimiento de nuevas interfaces multimodales que utilicen no sólo reconocimiento de voz, sino también reconocimiento de imagen, gestos, etc.

La corrección de texto es una tarea que puede ser orientada de distinta manera en función de la aplicación o contexto concreto en que se vaya a utilizar. Un sistema automático de corrección tiene que ser capaz de detectar las palabras que no están adecuadamente escritas. Para ello necesitará un diccionario suficientemente extenso como para no modificar palabras ya correctas, y convenientemente adaptado al vocabulario que se vaya a tratar. Habrá casos en los que sea necesario tener en cuenta reglas gramaticales para determinar si una palabra está correctamente escrita, especialmente si lo que se pretende realizar es una corrección de estilo del texto. Se puede desarrollar un sistema de corrección supervisada, en el que se presentan al usuario varias opciones correctas entre las que elegir, quedando en manos del mismo la decisión final, o se puede preferir un sistema de corrección no supervisada que genere automáticamente la opción identificada como más correcta. En este segundo caso hay que tener en cuenta que el sistema cometerá un cierto porcentaje de errores dependiendo del grado de entrenamiento y contenido del diccionario. En el ámbito de la conversión texto a voz, una aplicación muy importante de esta tecnología es la corrección del texto electrónico de entrada de manera que ayude a la inteligibilidad de la voz sintética, por lo que es útil intensificar el estudio del tipo de textos que más comúnmente son sintetizados, como pueden ser los mensajes cortos y los mensajes de correo electrónico.

Existen ciertos entornos de gestión de documentos (servicios de documentación, bibliotecas, administraciones públicas, etc.) que implican la elaboración de resúmenes de textos, muchos de ellos de contenido o formato muy semejante. Esta tarea puede ser lenta y tediosa si se hace de forma manual y con grandes cantidades de textos. Por ello, se están empezando a emplear herramientas que permiten automatizar, al menos en parte, estos procesos. Un generador de resúmenes de textos es una herramienta, automática o semiautomática, que desarrolla una versión reducida de un texto, eliminando aquellas partes que se consideran secundarias. Este tipo de sistemas llevan a cabo habitualmente un análisis léxico y semántico del texto, que permite identificar las palabras o frases clave del mismo. Estas palabras o frases serán las que se mantendrán, al menos parcialmente, en la versión resumida.

Los hispanohablantes de determinadas regiones de España o de América pueden sentirse en ocasiones poco identificados, sorprendidos, o incluso molestos, al leer un texto o escuchar un mensaje dirigido a ellos en una variedad del español que no es la suya. Así puede ocurrir, por ejemplo, al acceder a la edición electrónica de un diario, o a determinados servicios telefónicos automáticos que emplean mensajes grabados o conversión texto-voz. En esos casos, sería conveniente emplear mensajes adaptados a la variedad empleada por el cliente. Las diferencias entre el español hablado en distintos países se localizan en el uso de determinadas palabras y locuciones, o de determinadas construcciones sintácticas, que pueden ser específicas de una zona geográfica en concreto, pero aceptadas como correctas entre los hablantes de la misma. Es el caso, por ejemplo, de la guagua canaria, equivalente al autobús castellano y aceptada como correcta en Canarias y algunos países de Hispanoamérica, zonas en las que puede resultar incluso extraño usar la palabra autobús. La adaptación de un texto a una variedad determinada consistirá, por tanto, en sustituir aquellos vocablos o expresiones del estándar extraños en una variedad determinada por otros más propios de la misma. Una herramienta que podría ser de utilidad en estos casos sería un sistema que detectara este tipo de palabras o construcciones y las sustituyera automáticamente (o, al menos, propusiera su sustitución) por otras más adecuadas a la variedad a la que se quiere adaptar el texto. Este sistema debería contener un diccionario de formas dialectales y su equivalente en otras variedades, así como un pequeño corrector gramatical, semejante al de los procesadores de textos, que detectara construcciones inadecuadas en una variedad determinada y propusiera una alternativa.

2.7. Carácter interdisciplinar de la tecnología del habla

El importante avance logrado en tecnologías del habla se debe, en gran medida, al elevado grado de desarrollo tanto en medios tecnológicos (proceso de señal, clasificación de patrones…), como computacionales (potencia de cálculo, sistemas distribuidos…). Sin embargo, los mayores niveles de competencia alcanzados por los sistemas de reconocimiento de habla, conversión texto-voz y gestión de diálogo han estado apoyados por la amplia gama de conocimientos provenientes de la lingüística. Así, por ejemplo:

La fonética se encuentra en la base del diseño y la obtención de las unidades acústicas de los reconocedores de habla;
El análisis prosódico y sintáctico son ámbitos estrechamente imbricados en el desarrollo de un conversor texto-voz;
El análisis semántico junto al análisis del discurso y de la conversación se encuentran en el núcleo de los módulos actuales de gestión de diálogo.

Todo ello hace que el grado de éxito de los sistemas basados en tecnología del habla esté fuertemente vinculado al grado de desarrollo con que se aplique el conocimiento lingüístico. Así, el éxito y grado de aceptación de los sistemas que se desarrollen en castellano, o en las diferentes variedades dialectales del español, dependerá de nuestra capacidad para aunar los progresos y avances técnicos, con el conocimiento específico y peculiar de nuestra lengua.

3. Servicios

A continuación se describen distintas familias de servicios, que el estado del arte de la tecnología permite que puedan ser ofrecidos al usuario de la forma que le resulta más cómoda: mediante una interfaz vocal.

3.1. Los portales de voz

La idea es simple: comunicar a través de la voz los contenidos y servicios que están disponibles en Internet. Se trata de extender los conceptos tradicionales de ISP, portales, buscadores, navegadores, etc., de Internet tradicional al mundo del teléfono, abriendo además la posibilidad a nuevas formas de negocio por teléfono, como son la publicidad y el comercio electrónico.

El acceso a Internet por medio de la voz es el método más natural e inherente al ser humano. En realidad, no hay nada más sencillo que poder navegar por Internet como si se mantuviera una conversación con otra persona, interactuando mediante órdenes vocales.

El concepto de Portal de Voz da un paso más allá de la pura navegación vocal y pretende relacionar el mundo Internet con el mundo de la voz a través de un conjunto de servicios que amplíen, complementen y den un valor añadido al acceso vocal a Internet propiamente dicho. Por eso se incluyen servicios tales como la lectura de e-mail por teléfono, la realización de llamadas telefónicas y los envíos de e-mail a direcciones de una agenda web, la búsqueda de empresas y personas de forma vocal, el acceso a contenidos específicos, etc.

Con los portales de voz se traslada el concepto y las posibilidades de Internet a los clientes del servicio telefónico utilizando el simple teléfono, lo que hasta la fecha estaba reducido sólo a los usuarios con PC y, más recientemente, a los usuarios de móviles WAP. De la misma forma como ahora se utilizan los conceptos de portal, Proveedores de Servicios de Información (PSI), buscadores, navegadores, se podrá hablar de esos mismos conceptos relacionados con el teléfono tradicional.

Gracias a los portales de voz se establece la convergencia del mundo Internet con el mundo de la telefonía vocal más elemental, permitiendo el acceso no sólo a los clientes del servicio telefónico fijo, sino también a los del servicio móvil.

El concepto de portal de voz puede suponer una reinvención de la telefonía, y abre un potencial de nuevos usos de los teléfonos sin explorar todavía. Además, permitirá fomentar y servir de germen a otras actividades y negocios relacionados con la publicidad y el comercio electrónico, todo a través del teléfono.

Los portales de voz, en definitiva, permiten:

La universalización del acceso a Internet, «desde cualquier sitio, con cualquier terminal».
La popularización de Internet, al permitir acceder a la red a cualquier usuario de telefonía.
La integración de todas las redes de telecomunicación fija, móvil, Internet.
La proliferación de nuevos negocios asociados: e-commerce, juegos interactivos, facturación, publicidad, etc.

3.2. La automatización de las relaciones de los ciudadanos con las administraciones públicas

Gran parte de las relaciones que los ciudadanos mantienen con las administraciones públicas son susceptibles de automatización. Como ejemplos podemos citar:

Las declaraciones y pagos de impuestos.
La divulgación de la oferta de empleo público.
La sanidad (cita previa, etc.).
La educación (oferta de cursos, consulta e calificaciones, etc.).
Los censos, cambio de domicilio, etc.
La información en general (turística, legislativa, etc.).
La solicitud de licencias y permisos (caza, pesca, etc.).

La mayoría de las administraciones ya ofrecen gran parte de estos servicios a través de Internet, siendo el siguiente paso ofrecerlos por medio de Sistemas de Diálogo. Es evidente que de esta manera el número potencial de usuarios sería prácticamente la totalidad de los ciudadanos.

La automatización de todos estos servicios permitirá a las administraciones públicas ofrecer a los ciudadanos servicios de calidad, accesibles en todo momento y lugar, con unos costes razonables. Estos servicios no se podrían ofertar con operadores humanos sin caer en costes inaceptablemente elevados para el erario público.

3.3. Los servicios de información

Ofrecer un acceso telefónico para proporcionar al cliente información de diversa índole, es una de las ideas más explotadas en los servicios telefónicos tradicionales (información de noticias, información de tráfico, información bursátil, información meteorológica, información de eventos culturales, etc.).

Tradicionalmente, este tipo de servicios tenía el problema de exigir grandes costes de explotación, bien porque el servicio era ofrecido mediante operadoras, o bien porque los contenidos vocales tenían que ser actualizados constantemente mediante grabaciones.

Con la incorporación de las tecnologías de voz a este tipo de servicios se consigue mantener la interfaz natural de habla de cara al usuario y reducir los costes de explotación, ya que tanto la recogida del tipo de información solicitada por el usuario como la provisión de dicha información se realizan automáticamente, gracias al Reconocedor de Habla Natural y al Conversor Texto-Voz, respectivamente.

Por otra parte, como sucede en los portales de voz, la información que es susceptible de ser proporcionada mediante servicios de este tipo se ve ampliada enormemente, pudiendo pensar ya en servicios cuyo coste de explotación sin las tecnologías mencionadas sería inviable.

Con la aparición de la telefonía móvil los servicios de información se pueden enriquecer enormemente mediante la incorporación de la localización. En estos casos la información está particularizada a la situación geográfica del usuario, aumentando enormemente la utilidad de la información sobre todo si ésta va a originar una posterior actividad comercial. Entre los posibles servicios tenemos:

Información meteorológica.
Información de ocio (cines, teatros, etc.) cercanos al lugar en que estamos.
Información de transportes (metro, autobús, paradas de taxis).
Información de restaurantes, hoteles, etc.
Información de farmacias, centros de salud, etc.

Con el abaratamiento de los terminales GPS y su integración con teléfonos móviles se perfilan como de gran utilidad los servicios de guiado, tanto para peatones como para automovilistas. En estos servicios el usuario accede a un Sistema de Diálogo para indicar el lugar al que desea ir, el lugar en el que se encuentra obtenido por GPS se envía automáticamente, y va recibiendo indicaciones periódicas, mediante voz, mensajes cortos, etc., que le van guiando. Dado que la posición del usuario se va enviando periódicamente actualizada, las indicaciones que se le retornan se adaptan perfectamente a su situación en cada instante. Estos sistemas en red presentan importantes ventajas frente al mismo tipo de sistemas incorporados en vehículos, dado que estos emplean mapas almacenados localmente que casi nunca estarán actualizados, mientras que el uso de mapas centralizados de los sistemas de red permite la utilización de mapas permanentemente actualizados y la incorporación de informaciones dinámicas en la elección de la ruta más adecuada (cortes de calles, obras, accidentes, manifestaciones, etc.).

3.4. Los servicios de manejo y uso de las telecomunicaciones

Las redes de telecomunicación (telefonía fija, móvil, redes de cable, satélites, Internet, etc.) ofrecen cada vez un mayor número de servicios, cuya sofisticación también va en aumento. Por ejemplo tenemos: buzones de voz, multiconferencias, desvíos de llamadas, avisos, televisión a la carta, música a la carta, etc.

La activación, desactivación y en general el manejo de estos servicios, suele ser bastante complejo, sobre todo desde terminales telefónicos.

Los Sistemas de Diálogo pueden ser de gran ayuda en estos casos, dado que permiten que el usuario solicite la opción deseada sin tener que recordar qué comandos eran los que la activaban; servicios de este tipo podrían ser:

Manejo y configuración de buzones de voz.
Establecimiento de multiconferencias.
Configuración y activación de desvíos y restricciones de llamadas.
Servicios de consulta del gasto, saldo de tarjetas, etc.
Configuración de avisos: según gasto, cuando termine de hablar el llamado, etc.
Petición de programas de TV a la carta, indicando periodicidad, etc.
Los servicios de directorios telefónicos (páginas amarillas, páginas blancas).

Otra área de aplicación importante es la marcación mediante voz, de gran utilidad en entornos corporativos, y en telefonía móvil en vehículos. En estos servicios existen, normalmente, dos tipos de agendas:

Corporativas: con los teléfonos de las personas de la empresa, departamentos, etc.
Personales: en las que el usuario introduce los datos de las personas a las que normalmente llama, familiares, amigos, etc.

3.5. El comercio electrónico

Todos los análisis de mercado indican que el comercio electrónico será uno de los negocios que más dinero moverá en el futuro. Sin embargo, hasta la fecha son dos los motivos que no le han dejado cumplir sus expectativas:

El número de personas que realmente tienen acceso a realizar este tipo de compras.
La desconfianza en la seguridad de los sistemas.

Las tecnologías de voz pueden ayudar enormemente a vencer estas dos cuestiones de la siguiente forma:

Realizando el Pago mediante voz. Bastará con tener un terminal telefónico de cualquier tipo para poder realizar compras. Es decir, el sistema abarca todo el mercado que actualmente abarca el dinero.
Con la Verificación del Locutor. Por medio del habla se puede generar en el cliente final una confianza total en la seguridad del sistema. El cliente puede verificar que el sistema sólo acepta pagos si una clave, una clave personal o un PIN es pronunciado por él mismo, y no si la misma contraseña es pronunciada por cualquier otra persona.

Otra posibilidad interesante son las Voces Corporativas, es decir, conversores texto-voz con una voz que es específica de una empresa o servicio. Esto ayuda a que los Sistemas de Diálogo difundan además una imagen de marca. Por otra parte, dado que la naturalidad de los conversores texto-voz permite actualmente que se relacionen fácilmente con el locutor que sirvió de base para su desarrollo, la voz elegida podría ser la misma que la empleada en anuncios en radio, TV, cine, etc., creando una mayor asociación, en la mente del usuario, entre un Sistema de Diálogo y la empresa que lo ofrece.

3.6. Los sistemas de ayuda a personas discapacitadas

Las tecnologías del habla van a jugar un importante papel en los sistemas de ayuda a personas discapacitadas. Entre los sistemas de este tipo tenemos:

Sistemas de lectura de textos para invidentes.
Sistemas de navegación por Internet para invidentes (usando reconocimiento de voz y conversión texto/voz).
Sistemas domóticos controlados por voz, para personas con movilidad limitada (hemipléjicos, parapléjicos, etc).
Telefonía para sordomudos (usando reconocimiento de voz y conversión texto/voz).
Ayudas a la formación:
- Lectura de labios para sordos usando conversores texto/voz con información gráfica.
- Enseñanza a mudos mediante reconocimiento de voz.

4. Conclusiones

Las tecnologías del habla y del lenguaje van a desempeñar, sin ninguna duda, un papel clave en el desarrollo de Internet y por tanto de la nueva economía.

Ahora bien, estas tecnologías han exigido, exigen, y van a continuar exigiendo durante mucho tiempo un enorme esfuerzo inversor para su desarrollo. Esto hará que su desarrollo sólo se produzca para los idiomas en los que el retorno de este enorme esfuerzo de inversión esté justificado.

El español es, sin duda, uno de los idiomas más importantes del mundo desde casi todos los puntos de vista: histórico, literario, demográfico, etc. Pero no lo es tanto en Internet, por lo que el desarrollo de todas estas tecnologías de forma pareja al inglés no está asegurado.

Sería deseable que las administraciones, las instituciones, el mundo académico y las empresas tomaran conciencia de la importancia del desarrollo de estas tecnologías para nuestra lengua si queremos que sea, además de instrumento de comunicación entre personas, motor de la nueva economía.

Tecnologías del habla en español: convergencia con InternetFrancisco Golderos Sánchez Director general de Productos y Servicios. Telefónica I+D. Madrid (España)