Es un módulo software que cumple con la arquitectura VISOR. Su función es verificar la identidad de una persona en el contexto de un sistema de control de acceso. Este video sensor es un subsistema dentro de del sistema global de contro de acceso.
Las entradas a este sistema son un PIN(Personal Information Number, que tendrá que introducir el usuario del sistema, y la imagen captada del mismo (ver figuras Figura 3 y Figura 4). El PIN será el índice por el que buscar en una base de datos que contienen las características faciales del sujeto. Por otro lado el sistema extraerá características faciales de la imagen tomada y las comparará con las almacenadas, dando un PCD(Personal Confidence Degree), un número que indica el grado de similitud.
Existen dos métodos internos para extraer las características faciales:
Métodos globales. Principal Component Analysis (PCA).
Métodos locales. Gabor.
Una vez obtenida la información se usará una Red Neuronal tipo Multi-Layer Perceptron Neuronal Network(MLP-NN) para el reconocimiento.
El funcionamiento interno del módulo se puede apreciar el la figura Figura 5. Se introduce una imagen y un PIN, que son comunicados mediante un interfaz CORBA al módulo. Por un lado, el PIN sirve de índice para buscar en una base de datos, que extraerá las características faciales de la identidad propuesta por el usuario. Estas características son comparadas con las que se extraen de la imagen introducida, ya sea por PCA(Principal Component Analysis) o por Gabor y se dá un porcentaje de acierto, que será lo que se devuelva a través del interfaz CORBA.
El objetivo de este modulo inicial es encontrar y encuadrar la cara (o las posibles caras) que aparecen en la imagen. El método desarrollado barre la imagen buscando aquellos píxeles con una textura correspondiente a la de la piel, determinando cuales de ellos constituyen una hipótesis aceptable de rostro.
La idea principal es la de reducir las grandes dimensiones de estas regiones de imagen, e intentar perder el mínimo posible de información. Esto se hace con un cambio de base, pasando de un espacio a otro de menor dimensión.
No es necesaria mucha información para representar una cara, y con esta reducción conseguimos que ya sea viable la comparación directa de las características faciales almacenadas con las extraidas de la imagen.
Gabor se centra en la extracción de puntos para luego usar el filtro de Wavelet.
El objetivo del proceso es encontrar 12 puntos de control sobre el rostro del sujeto para ajustar a continuación una máscara. Esta máscara se compone de 31 puntos sobre los que se aplicará la transformada Wavelet con los que se entrenará la Red Neuronal (ver figura Figura 6). El proceso para encontrar los puntos de control es el siguiente:
Un pequeño cuadro, con tamaño suficiente para abarcar un ojo o una boca recorrerá la imagen para encontrar un ojo o boca. Este frame será la entrada para una red neuronal entrenada con ojos y bocas que nos indicará si el frame contiene alguno de estos elementos (ver figura Figura 7).
Una vez que tenemos localizado un ojo o una boca se procederá a aplicarles filtros sucesivos, a fin de extraer la información que nos facilitará la extracción de los puntos de control.
Detección de bordes. Se hace una detección de bordes con varios grados diferentes de inclinación (Horizontal, vertical, 45º y 315º) y se funden en una sola para tener toda la información posible de los bordes.
Binarizado. Se pasa la imagen resultante de la detección de bordes, que se encontraba en niveles de gris a blanco y negro para trabajar solo con valores de 1 o 0.
Thinning. Se hace un adelgazamiento para sacar unas líneas claras sin grosor. Esto facilitará enormemente la deducción de características.
Deducción de puntos. Según sea una boca o un ojo derecho o un izquierdo, al tener muy poco ruido y líneas sin grosor, ya se puede deducir cuales son los puntos del ojo.
Una vez obtenidos los puntos de control se pasa al proceso de ajuste y deformación de la máscara. De esta manera cada sujeto tendrá su propia máscara diferente a la de cualquier otro sujeto. Las transformaciones son las siguientes:
Rotación. Se calcula la diferencia de inclinación los puntos de los ojos, tanto de los de control como de la máscara, y se rota la máscara adecuadamente.
Translación. Se calcula la diferencia de coordenadas de los puntos de control y sus homólogos en la máscara y se mueve la máscara.
Deformación. Se deforma la máscara para que los puntos que estén más cerca de los de control son más atridos hacia ellos.
Una vez terminado este proceso obtendremos 31 puntos en 2D propios y únicos de ese sujeto, que serán usados como características faciales para entrenar la Red Neuronal, una vez aplicada la tranformada Wavelet.
Las redes neuronales forman parte de un importante sector dentro de la Inteligencia Artificial. Son ampliamente usadas para el reconocimieno de formas en la Visión computacional.
Las redes neuronales y otros métodos estadísticos avanzados son teorías muy útiles para hallar la solución a problemas de clasificación y predicción. Las redes neuronales proporcionan una herramienta muy potente para la resolución de problemas complejos en los ámbitos científico, tecnológico y empresarial. La característica principal de este tipo de programas es su capacidad de tratar problemas de clasificación y predicción mediante un aprendizaje realizado sobre ejemplos.