En los sistemas de reconocimiento de voz no se intenta, como mucha gente piensa,
reconocer lo que el usuario dice, sino identificar una serie de sonidos y sus
características para decidir si el usuario es quien dice ser. Para
autenticar a un usuario utilizando un reconocedor de voz se debe disponer de
ciertas condiciones para el correcto registro de los datos, como ausencia de
ruidos, reverberaciones o ecos; idealmente, estas condiciones han de ser las
mismas siempre que se necesite la autenticación.
Cuando un usuario desea acceder al sistema pronunciará unas frases en las
cuales reside gran parte de la seguridad del protocolo; en algunos modelos, los
denominados de texto dependiente, el sistema tiene almacenadas un conjunto muy
limitado de frases que es capaz de reconocer: por ejemplo, imaginemos que el
usuario se limita a pronunciar su nombre, de forma que el reconocedor lo
entienda y lo autentique. Como veremos a continuación, estos modelos
proporcionan poca seguridad en comparación con los de texto independiente,
donde el sistema va `proponiendo' a la persona la pronunciación de ciertas
palabras
extraídas de un conjunto bastante grande. De cualquier forma, sea cual sea
el modelo, lo habitual es que las frases o palabras sean características
para maximizar la cantidad de datos que se pueden analizar (por ejemplo,
frases con una cierta entonación, pronunciación de los diptongos, palabras
con muchas vocales...). Conforme va hablando el usuario, el sistema registra
toda la información que le es útil; cuando termina la frase, ya ha de estar
en disposición de facilitar o denegar el acceso, en función de la
información analizada y contrastada con la de la base de datos.
El principal problema del reconocimiento de voz es la inmunidad frente a replay attacks, un modelo de ataques de simulación en los que un atacante
reproduce (por ejemplo, por medio de un magnetófono) las frases o palabras que
el usuario legítimo pronuncia para acceder al sistema. Este problema es
especialmente grave en los sistemas que se basan en textos
preestablecidos: volviendo al ejemplo anterior, el del nombre de cada usuario,
un atacante no tendría más que grabar a una persona que pronuncia su
nombre ante el autenticador y luego reproducir ese sonido para conseguir el
acceso; casi la única solución consiste en utilizar otro sistema de
autenticación junto al reconocimiento de voz. Por contra, en modelos de
texto independiente, más interactivos, este ataque no es tan
sencillo porque la autenticación se produce realmente por una especie de
desafío-respuesta entre el usuario y la máquina, de forma que la
cantidad de texto grabado habría de ser mucho mayor - y la velocidad para
localizar la parte del texto que el sistema propone habría de ser
elevada -. Otro grave problema de los sistemas basados en reconocimiento de
voz es el tiempo que el usuario
emplea hablando delante del analizador, al que se añade el que éste necesita
para extraer la información y contrastarla con la de su base de datos; aunque
actualmente en la mayoría de sistemas basta con una sola frase, es
habitual que el usuario se vea obligado a repetirla porque el sistema le deniega
el acceso (una simple congestión hace variar el tono de voz, aunque sea
levemente, y el sistema no es capaz de decidir si el acceso ha de ser autorizado
o no; incluso el estado anímico de una persona varía su timbre...).
A su favor, el reconocimiento de voz posee la cualidad de una excelente acogida
entre los usuarios, siempre y cuando su funcionamiento sea correcto y éstos
no se vean obligados a repetir lo mismo varias veces, o se les niegue un acceso
porque no se les reconoce correctamente.
© 2002 Antonio Villalón Huerta