ISSN: 1579-0223
 
Sentience Research
REDcientífica
· Misión de REDcientífica
· Contacto
· Condiciones de publicación
· Consultar todos los documentos
· Consultar todos los autores
· Acceso usuarios registrados
· English version


PORTADAS
40  41  42  43  44  45  46  47  48  49  50  51  52  53 

BOLETINES
40  41  42  43  44  45  46  47  48  49  50  51  52  53 

TEMAS



ENLACES

Evolución de los sistemas de dictado

Javier Macías-Guarasa;Julio Pastor Mendoza
 
ImprimirEnviar

El lenguaje hablado es sin duda el método de comunicación más natural, intuitivo y eficiente para los seres humanos. Durante décadas, la idea de interaccionar con máquinas como si de personas se tratase, ha fascinado a ingenieros, científicos y, por supuesto, a los escritores de ciencia ficción.


Gracias a los tremendos avances en este campo, la imagen del ordenador HAL9000 en la película "2001: Una odisea del espacio", dirigiéndose a la tripulación con una voz de alta naturalidad e inteligibilidad y, sobre todo, atendiendo a sus órdenes, con conversaciones absolutamente normales, se ve cada vez más cerca.

Las Tecnologías del Habla, entendidas como el conjunto de disciplinas científicas e ingenieriles que se ocupan del tratamiento del habla por parte de las máquinas en sentido general, están gozando de un interés cada vez mayor por parte no sólo de la comunidad científica internacional, sino de la sociedad en general, y, entre ellas, el reconocimiento automático de habla (RAH) presenta uno de los campos más atractivos de investigación y desarrollo.

Sin embargo, su objetivo último: la transcripción sin errores de habla espontánea, está aún muy lejos de ser alcanzado. Por supuesto, no podemos dudar que la Tecnología del RAH está en un momento de razonable madurez, y los sistemas comerciales disponibles en el mercado prueban que, efectivamente, es útil, pero con matices..

Hasta hace pocos años, los sistemas de reconocimiento de mediana y gran complejidad (en cuanto a las tareas que abordaban), estaban disponibles casi únicamente como prototipos de laboratorio. En nuestro Laboratorio desarrollamos un sistema reconocimiento de gran vocabulario que se denominó DIVO (DIctado VOcal). Comenzó hace 6 años financiado en parte por entonces INSERSO (Instituto de Asuntos Sociales) que consistió en un sistema de dictado en tiempo real sobre un ordenador personal, para gran vocabulario (miles de palabras), de habla aislada (se necesita una ligera pausa entre palabra y palabra), y destinado fundamentalmente a usuarios con algún tipo de discapacidad que les impedía acceder al ordenador por medios convencionales (teclado o ratón). También desarrollamos un sistema de control por voz del sistema operativo MSDOS y de algunas aplicaciones útiles para procesar textos como era WordPerfect. Debido a que los ordenadores personales de aquellos años no tenían potencia de cálculo suficiente para soportar los complejos algoritmos de reconocimiento, el sistema utilizaba una tarjeta específica de sonido con un procesador de señal también desarrollada en el departamento que soportaba la mayor parte de la carga computacional del sistema.

En el caso de DIVO, los requisitos de partida estaban muy marcados por el colectivo al que iba dirigido, ya que era imprescindible que el sistema operara de forma totalmente manos - libres, es decir, que el usuario pudiera manejar la totalidad de su entorno de trabajo sin recurrir a otro mecanismo que no fuera su propia voz. Además, al tratarse de colectivos marginales, los sistemas de reconocimiento comerciales ya emergentes en aquellos años iban dirigidos al gran público, con lo que adaptaciones particulares o la atención a problemáticas específicas de colectivos como el de los disminuidos físicos no siempre tenían eco en las empresas que desarrollan estos sistemas. En cambio, en laboratorios como el nuestro sí se podía. En la actualidad, la disponibilidad de equipos de prestaciones impensables hace unos años, junto con la madurez alcanzada por el sector, ha permitido que empresas como IBM y Dragon Systems (pioneras en la investigación en el área de la tecnología del habla) hayan abordado el terreno del mercado del gran consumo con productos de elevada calidad para dictado de textos, tanto en habla aislada como continua. Cualquiera de estos productos requiere un proceso de adaptación inicial, si es que queremos obtener máximo rendimiento. Por un lado hay un aprendizaje por parte de la máquina que se consigue haciendo que cada usuario grabe (pronuncie) una serie de palabras o frases, que servirán como muestra al sistema de reconocimiento para extraer los modelos de pronunciación propios de cada locutor. Por otro lado, hay un segundo proceso relevante, si cabe el más importante: el de adaptación del usuario a la máquina. Para conseguir buenos resultados, es imprescindible ser conscientes de que se habla a una máquina y que ello implica ciertas reglas en la interacción con ella como tener en cuenta que el modo de hablar debe ser claro (sin caer en una no - naturalidad), y continuo (no se suele aceptar repeticiones ni balbuceos). Así, cuando se trabaja con máquinas de dictado es fundamental tener en cuenta que éstas cometen errores, y que cada sistema comercial disponible ofrece unos determinados mecanismos de corrección que hay que dominar para conseguir en el menor tiempo posible el objetivo final: un texto escrito completamente correcto. De hecho, un cierto porcentaje de usuarios abandonan decepcionados el uso de estos sistemas al no llegar a ese dominio y, en parte, porque parten de la base de que la interacción vocal con la máquina será de un nivel similar a la que hay entre humanos. Es fundamental que un potencial usuario de un sistema de reconocimiento automático de habla sea muy consciente de las limitaciones de dicha interacción, por un lado, y de que necesitará un cierto tiempo y esfuerzo en alcanzar resultados calificables de "razonables", por otro.

Últimamente, empresas como Telefónica I+D, AT&T, NUANCE, incluso Dragon Systems y en breve IBM, ofrecen sistemas de suministro de información por línea telefónica de creciente habilidad para llevar a buen término un alto porcentaje de las solicitudes y transacciones requeridas por los usuarios; y cada día son más las empresas que abren (o crean) sus departamentos de I+D para explotar esta tecnología. Estos sistemas suelen trabajar con menos vocabulario que los sistemas de dictado pero la tarea de reconocimiento de habla es más compleja por ser independiente del locutor y por soportar las características específicas de la línea telefónica (ruidos, ancho de banda reducido, etc.). En los próximos años se prevé un gran aumento de aplicaciones comerciales que incluyan sistemas de reconocimiento de habla. Actualmente muchos laboratorios como el nuestro están trabajando en todo el mundo para aumentar la calidad de los sistemas existentes que posteriormente se traducirá en aplicaciones para el gran público que favorezca la interacción, cada vez más natural, con las máquinas. Aún así, podemos prever que aún falten unos 10 años para que veamos un despliegue masivo de esta tecnología en el "mundo real".



Sobre los autores


Javier Macías-Guarasa y Julio Pastor Mendoza. Grupo de Tecnología del Habla. Departamento de electrónica. ETSIT, Universidad Politécnica de Madrid




[Evaluar este artículo]








              Misión de REDcientífica              Condiciones de publicación              E-mail de contacto



  Bookmark and Share