En el mundo de la seguridad y la videovigilancia, el objetivo principal siempre es la prevención de las situaciones de riesgo. Sin embargo, con el incremento constante del número de cámaras en las instalaciones, al ojo humano le resulta imposible procesar, en tiempo real, los miles de horas de vídeo recibidas en busca de evidencias de situaciones peligrosas o de alarma. Es ahí donde adquiere valor el deep learning o aprendizaje profundo.
En este contexto, los beneficios que aporta la analítica de vídeo inteligente están muy claros. Y los números así lo indican: según una investigación de Tractica, el valor del mercado de inteligencia artificial (IA) en el sector de la seguridad y vigilancia aumentará de 1,1 mil millones de dólares en 2018 a 4,5 mil millones en 2025.
No obstante, aunque el auge de la videoanalítica inteligente sea reciente, los sistemas de análisis de vídeo llevan en el sector más de 10 años ofreciendo una eficiencia operativa por debajo de la deseada. Así, a lo largo de los años, la analítica de vídeo tradicional se ha ganado una reputación desfavorable frente los nuevos sistemas basados en deep learning.
Limitaciones de los sistemas de videoanalítica tradicionales
A grandes rasgos, el análisis de vídeo de primera generación se limita a observar cambios drásticos en agrupaciones de píxeles de la imagen a través de algoritmos basados en visión por computador, como el background subtraction o sustracción de fondo.
El método de sustracción de fondo es un enfoque ampliamente utilizado para detectar objetos en movimiento en vídeos de cámaras estáticas. Su fundamento se basa en detectar los objetos a partir de la diferencia entre el fotograma actual y un fotograma de referencia, que va actualizándose periódicamente para adaptarse a los cambios de iluminación de la escena.
Cuando se detecta un grupo de píxeles con diferencias significativas respecto al fotograma de referencia, se genera una alerta de intrusión. Esto resulta en un número considerable de falsas alarmas que los operadores deben revisar individualmente, puesto que cualquier factor ambiental, animal o de vegetación podría activar una alarma de este tipo, sobre todo en cámaras exteriores.
El comportamiento descrito, junto con la propensión a procedimientos de configuración complejos, la gran necesidad de ajustes manuales y el coste de investigación de las numerosas alarmas recibidas, ha impedido que el análisis de vídeo tradicional se convierta en una aplicación transcendental.
Por suerte, gracias a los avances constantes en el rendimiento del hardware para procesamiento gráfico y al aumento de la disponibilidad de datos, el análisis de vídeo ha evolucionado de la mano del deep learning, dotando a los sistemas de videovigilancia de capacidad para detectar, identificar y clasificar los objetos y eventos que aparecen en cada fotograma de forma precisa.
Identificación y clasificación de objetos con ‘deep learning’
El deep learning o aprendizaje profundo es una rama de la IA formada por un conjunto de algoritmos que procesan datos empleando arquitecturas computacionales complejas: las redes neuronales artificiales.
Estos algoritmos están compuestos por capas de procesamiento interconectadas que emulan las conexiones neuronales del cerebro humano, aprendiendo (abstrayendo patrones comunes) de forma automática y eficiente. Para ello, el sistema se expone a grandes volúmenes de datos previamente etiquetados, llamados datasets, para aprender a reconocer e identificar los patrones en nuevos conjuntos de datos.
De esta forma, el aprendizaje profundo permite que las nuevas generaciones de analítica de vídeo detecten e identifiquen objetos y eventos de manera más competente en función de una mayor exposición a la información, mostrando una reducción drástica en la tasa de falsas alarmas respecto al análisis de vídeo tradicional. Al mismo tiempo, estas nuevas soluciones no requieren ajustes manuales por parte del usuario y son esencialmente plug-and-play, lo que hace que la implementación masiva sea un objetivo realista.
Generalmente, debido a los requisitos computacionales para ejecutar los algoritmos de manera eficiente y en tiempo real, las soluciones de análisis de vídeo que utilizan deep learning deberán procesar el vídeo recibido en un hardware dedicado, que puede encontrarse tanto en equipos independientes como embebido en videograbadores y cámaras. Estos módulos dedicados se caracterizan por su GPU, TPU u otra unidad de procesamiento específica para grandes operaciones matemáticas simultáneas.
Es necesario comprender qué hace que las nuevas analíticas inteligentes ofrezcan mayor seguridad y rendimiento y cómo distinguir aquellas soluciones realmente capaces de aprovechar el potencial de la IA
Consideraciones al elegir un sistema de videoanalítica inteligente
La IA, el machine learning y el deep learning son algunas de las palabras de moda de los últimos años, usándose para promocionar aplicaciones para todos los sectores, incluso a veces de forma errónea o engañosa. Dada esta realidad, es necesario comprender qué hace que las nuevas analíticas inteligentes ofrezcan mayor seguridad y rendimiento y cómo distinguir aquellas soluciones realmente capaces de aprovechar el potencial de la IA.
1. Capacidad de personalización.
Entrenar modelos desde cero requiere un esfuerzo considerable y asignar recursos específicos a tiempo completo, tanto humanos como computacionales. Por este motivo, algunas empresas del sector han optado por usar recursos de Internet de propósito general para ofrecer una solución de forma rápida y a gran escala, como datasets ya etiquetados y proyectos de código abierto.
Este es el primer error a evitar al elegir una solución de videoanalítica si se quiere asegurar la fiabilidad del sistema en entornos reales. Un algoritmo de aprendizaje profundo entrenado con imágenes de propósito general fallará en el análisis de imágenes de cámaras de vigilancia debido a la diferencia en los ángulos de visión, la resolución y la calidad de la imagen.
Para lograr las tasas de fiabilidad requeridas para aumentar la seguridad de las instalaciones videovigiladas, se debe recopilar e identificar una base de datos amplia a partir de imágenes de vigilancia reales y adaptar el algoritmo de entrenamiento a cada caso de uso.
2. Adaptación a las características de las cámaras.
Aparte de los atributos mencionados, como ángulos de visión, resolución y calidad de la imagen, también se deben tener en cuenta las características de las diferentes instalaciones.
Por ejemplo, en muchos sistemas las cámaras cuentan con tecnología IR para visión nocturna. Si el sistema no ha sido entrenado también con imágenes IR, este no será capaz de mantener la misma fiabilidad de clasificación tanto de día como de noche. Lo mismo puede ocurrir con las características imágenes que generan las cámaras térmicas, ampliamente usadas en aplicaciones de protección perimetral.
3. Amplio espectro de poses y pruebas.
Otro error común a evitar es la poca variabilidad de las poses y localizaciones de los objetos en las imágenes de los datasets usados. Por ejemplo, aunque se usen imágenes de personas extraídas de cámaras de vigilancia para entrenar un sistema de detección de personas, si el dataset está compuesto solamente de imágenes de personas de pie, el sistema será incapaz de detectar fiablemente una persona corriendo, saltando o gateando por el suelo. Es importante que el fabricante haya testeado extendidamente el sistema y pueda asegurar un alto porcentaje de fiabilidad en todos estos casos.
4. Métricas de evaluación promocionadas.
En el momento de evaluar el rendimiento de un modelo de deep learning ya entrenado, existen dos medidas principales de interés: la precisión (accuracy) y la recuperación (recall).
La precisión mide la fracción de positivos reales entre todas las detecciones clasificadas como positivas (evalúa la tasa de falsos positivos o clasificaciones erróneas). La recuperación, en cambio, mide cuántos positivos reales fueron detectados respecto al número total de positivos (evalúa la tasa de falsos negativos u omisiones).
Idealmente, el porcentaje de fiabilidad de un modelo de deep learning debería definirse por la media armónica entre la precisión y la recuperación.
5. Equipo I+D especializado.
Por todo esto, es sumamente importante que el proveedor de videoanalítica escogido cuente con un equipo de I+D formado por ingenieros especializados en deep learning. En Lanaccess, nuestro equipo de IA se encarga de encontrar la mejor solución adaptada a cada caso de uso para el sector de la seguridad, así como de mantener siempre las soluciones al día de los avances tecnológicos.