Comunicación presentada al I Congreso Ciudades Inteligentes:
Autores
- Dr. Víctor Fernández-Carbajales Cañete, Responsable del Programa de Visión, Treelogic, S.L.
- Prof. Shaogang Gong, Profesor de Computación Visual, Queen Mary University of London
- Dr. Tao Xiang, Director Técnico, Vision Semantics Ltd.
- Dr. Zeev Smilansky, Fundador y CSO, Emza Visual Sense
- Dr. Osman Dolu, Profesor asociado de Sociología y Criminología, Instituto estratégico de Ankara
Resumen
Desde la creación de los primeros núcleos urbanos y su desarrollo durante la historia, se ha producido un incremento constante e ininterrumpido de la población ciudadana. Este incremento es un problema recurrente para las entidades gestoras de las ciudades, siendo una de las principales la seguridad, ya que es una de las primeras exigencias de los ciudadanos. Sin una suficiente seguridad ciudadana, se suele producir un incremento de la delincuencia, centrada en delitos pequeños pero que se dan con alta frecuencia, y que tienen un gran impacto, ya que producen el decaimiento de la actividad comercial y una degradación zonal. Esto produce otro incremento de la delincuencia, produciéndose un ciclo vicioso muy perjudicial. Sin embargo, el mantener esta seguridad ciudadana de forma tradicional, implica un alto coste (incremento de efectivos policiales, del parque móvil, etc.). El objetivo principal del proyecto es investigar y desarrollar un sistema de video-seguridad multi-cámara, para apoyar a las fuerzas de seguridad públicas, en la detección de delitos en zonas urbanas, centrada en estos pequeños delitos.
Antecedentes
Motivación
En recientes publicaciones publicadas por varios periódicos ingleses (The Guardian, 2011, CS Monitor, 2012 y London Evening Standard, 2007) referidos a la ciudad de Londres, que es la ciudad con mayor número de cámaras de video-vigilancia por ciudadano, se ha puesto en entredicho la efectividad de los nuevos sistemas de video-vigilancia y su bajo ratio de éxito en relación a la inversión realizada. Además, se ha concluido que la proporción de crímenes resueltos no está relacionada con la mayor o menor implantación de sistemas de video-vigilancia en un área concreta.
Sin embargo, como se demostró en la ciudad de Nueva York en los años 90, una reducción de actos criminales menores mejora la sensación de seguridad pública y produce una reducción del crimen en términos generales. Por ejemplo, la reducción de los grafitis y la destrucción del mobiliario urbano en el metro conllevó una reducción del 25 % del crimen global en la ciudad. (The Cooperator, 2005).
Por otro lado, los sistemas de video-vigilancia son en la actualidad la mejor herramienta para aumentar la seguridad en múltiples áreas con unos costes bajos y fácil configuración para el usuario, aunque no desde un enfoque de uso tradicional por diversas limitaciones. En primer lugar, se requiere la participación de un técnico visionando un panel de cámaras, aunque se ha demostrado que después de 20 minutos la capacidad de concentración disminuye hasta el 90% y donde un único observador no puede controlar más de 15 minutos seguidos un panel de 10 cámaras (SourceSecurity.com). Es por ello que se ha calculado que la probabilidad de actuar de forma inmediata ante un evento visto por el observador es de 1 sobre 1.000 (Gouaillier & Fleurant, 2009). Si tenemos en cuenta que sólo en Reino Unido hay más de 7 millones de cámaras y que estas deben operar en continuo las 24 horas, es entendible que por razones de privacidad y económicas el uso general de operadores no es viable.
En definitiva, el interés del proyecto SmartPrevent se basa en la mejora de los actuales sistemas de video-vigilancia que aumenten la automatización y la inteligencia en los procesos de control de vigilancia por cámaras de seguridad. En resumen, el proyecto está orientado para alcanzar los siguientes desafíos:
- Caracterización de actos delictivos menores en escenarios controlados por sistemas de video-vigilancia que permita crear una algoritmia para la comprensión de la escena a bajo nivel y unas guías para entendimiento del comportamiento de las personas.
- Detección automática de crímenes que permita crear alertas para el observador, a través del procesamiento de la imagen para la obtención del entorno visual, presencia de objetos y reconocimiento, monitorización y control de actividades sospechosas.
- Conjunto de herramientas e interfaces para la gestión de las alertas y su comunicación a los cuerpos de seguridad a través de multidispositivos, grabación del evento y visionado en tiempo real y mapa de acciones para actuar frente al evento detectado.
- Prevención de crímenes, ya que el sistema no sólo se desarrolla para detectar los eventos sospechosos sino que aprenderá de los mismos para detectar pautas que permitan la prevención de potenciales actos delictivos.
Limitaciones Técnicas
Actualmente, los sistemas de video-vigilancia presentan varias limitaciones relacionadas con el procesado y entendimiento de las secuencias de video. Estas limitaciones están relacionadas con cada una de las etapas del procesado de imágenes, es decir; la detección de objetos, el seguimiento y por último, el reconocimiento y la clasificación de los objetos.
En la detección de objetos se destacan tres familias de métodos con diversas restricciones: flujo óptico, sustracción de fondo y objetos en primer plano.
Para el flujo óptico es importante mejorar los costes computacionales para el procesado en tiempo real y por otro lado en escenarios con alta cantidad de personas y objetos aparecen problemas de separación con el fondo. Finalmente, los cambios de luz pueden provocar la aparición de vectores imaginarios que no corresponden a objetos existentes.
Con respecto a los métodos de sustracción de fondo, existe el mismo problema en los escenarios masificados para diferenciar entre objetos y fondo, sobremanera si no existe diversidad de movimientos. Además, al usar modelos gaussianos mixtos es importante llevar a cabo un ajuste complejo usando múltiples capas lo que puede provocar un aumento del coste computacional.
Por último, en lo referente a los objetos en primer plano el reconocimiento de objetos se suele limitar a los objetos esperados. En los escenarios masificados aumenta la dificultad del reconocimiento individual y las oclusiones y los cambios de luz puede provocar falsos positivos.
En el seguimiento de objetos vuelven a tener relevancia algunas de las dificultadas antes mencionadas ya que los escenarios masificados dificultan el seguimiento de los objetos, sobre manera si no se usan cámaras RGB ya que los puntos de interés para el seguimiento son menores y menos específicos y las oclusiones y apantallamientos pueden llevar a perder la trazabilidad de un objeto. Además, la caracterización del objeto es primordial para poder definir el propio objeto a seguir y las condiciones de la escena y los cambios que se produzcan dificultan esta caracterización.
En la clasificación de objetos, además de heredar las anteriores dificultades cabe destacar otros dos principales desafíos como son el problema dimensional determinado por el número de clases que define un objeto y las propias limitaciones del modelo de objetos individuales que se usa en visión y que produce errores en escenarios reales motivado por la paridad Grupo vs Individuo.
Avance tecnológico, científico y social del proyecto
El proyecto SmartPrevent permite hacer frente a una serie de necesidades actuales que aún no han conseguido una respuesta tecnológica adecuada y que sea aplicable en los entornos reales a nivel local.
A continuación se enumeran las contribuciones del proyecto en referencia al estado del arte.
Tabla I. Necesidades de la Sociedad y Contribución de SmartPrevent.
Descripción del Proyecto
El principal objetivo del proyecto SmartPrevent procede de la hipótesis de que el uso de sistemas de video-vigilancia para luchar contra actos delictivos menores y frecuentes en áreas urbanas es mejorable en términos de efectividad y eficiencia a través de la detección temprana de actividades humanas sospechosas en secuencias de video. Como consecuencia, el principal resultado a conseguir es el desarrollo de nuevas herramientas y metodologías que mejoren los actuales sistemas de video seguridad para prevenir y detectar actividades criminales en el entorno urbano.
SmartPrevent es un proyecto que será de aplicación en diversos escenarios basados en un marco conceptual similar donde, en una calle de una ciudad a cualquier hora del día o de la noche existe una red de cámaras de seguridad. En la calle diferentes personas o grupos empiezan a realizar actividades anómalas o comportamientos sospechosos como un merodeo, empujones, carreras repentinas, etc, dependiendo de la actividad criminal. En este punto, y tras analizar de forma automática un conjunto de acciones concatenadas el sistema lanza una alarma que es trasmitida al operador de un centro de control o a una patrulla cercana con el visionado de una grabación de 30 segundos antes y después de la detección.
Las principales características innovadoras del sistema son:
- Monitorización en continuo de los entornos urbanos con robustez y minimizando los falsos positivos a través de aprendizaje activo.
- Configuración a las necesidades de seguridad local donde el sistema se pueda adaptar a la casuística de cada región a través de un desarrollo flexible.
- Prevención de actividades criminales ya que el sistema dispone de amplias librerías de actividades criminales y los comportamientos relacionados.
- Detección automática de actividades criminales que complementa la atención del operario en situaciones de estrés o distracción y lanza la alarma en primera pantalla.
- Almacenamiento automático de grabaciones relacionadas con actividades criminales como base de evidencias en los correspondientes procesos judiciales.
El sistema se basa en el desarrollo de nuevos métodos y algoritmos en las diferentes fases del análisis y procesado de video secuencias:
- Método de flujo óptico, estos algoritmos analizan una escena por puntos característicos o estimación del movimiento sobre la base de un gradiente calculado para la imagen completa (Tamgade & Bora, 2009), (Lenz et al, 2011). En el proyecto se desarrollan algoritmos optimizados para disminuir el coste computacional.
- Sustracción de Fondo, estos métodos construyen una imagen estática a partir de la escena observada y la usan de contraste con la imagen en curso para extraer las partes dinámicas (Cheung & Kamath, 2004), (Milla et al, 2010). La dificultad proviene de la relación entre la robustez en la detección de un objeto dinámico y la alta sensibilidad a los cambios de luz. El proyecto también busca mejorar esta sustracción con la eliminación de las sombras como partes dinámicas y la respuesta en cercano tiempo real.
- El seguimiento de objetos relaciona los objetos detectados en frames consecutivos a través de dos métodos para seguimiento individual o múltiple (Moutzouris et al, 2011),(Martínez-Sotoca et al, 2001) donde se busca optimizar los efectos de oclusión, agrupación y división con el fin de mantener el seguimiento incluso a través de diversas video cámaras.
En relación, el módulo de clasificación de objetos se puede abordar en base a las características o al movimiento generado. El primer enfoque analiza el entorno espacial a través de descriptores de forma y/o textura. Estos métodos calculan la dimensión real, usando varias cámaras, descriptores SIFT (Deselaers et al, 2010) y descriptores de contorno o de regiones. Los métodos basados en movimiento usan históricos de movimientos o imágenes recurrentes. (Johnsen & Tews, 2009).
Por otro lado, la optimización de los algoritmos permite el desarrollo de nuevos sensores de visión con mayor inteligencia y procesado parcial dentro de la cámara lo cual permite mejorar los tiempos de respuesta.
Metodología
El plan de trabajo sigue una metodología en cascada con un flujo de interdependencias entre los diferentes paquetes de trabajo. El proyecto ha seguido un enfoque usuario final para alcanzar soluciones realistas y demandadas por las partes interesadas. Además, esto permite una retroalimentación en continuo del usuario final y un avance en paralelo de aquellas tareas complementarias.
El proyecto ha sido desglosado en una serie de paquetes de trabajo que se muestran a continuación:
PT1. Dirección técnica del proyecto.
- Gestión técnica.
- Aseguramiento de la Calidad.
PT2. Especificaciones de los escenarios urbanos y los requerimientos de actividad criminal.
- Requerimientos de usuario final.
- Adquisición de datos y revisión ética.
- Diseño de la arquitectura del sistema.
PT3. Red de sensores de visión: Requerimientos, diseño e integración.
- Especificaciones de la red de sensores.
- Integración del sistema prototipo y pruebas de test.
PT4. Entendimiento de la escena a bajo nivel.
- Definición de características de bajo nivel y nuevos métodos de procesamiento.
- Algoritmos para el entendimiento de escena.
PT5. Comprensión de la actividad criminal, Detección y prevención.
- Entendimiento de la escena a alto nivel.
- Aprendizaje activo por supervisión experta.
- Desarrollo de nuevos modelos de transferencia del aprendizaje.
PT6. Integración del sistema de video-vigilancia, validación y evaluación.
- Módulo de integración de interfaces.
- Métodos y métricas de evaluación.
- Implementación del sistema de video-vigilancia inteligente.
Resultados
Los principales resultados que obtendrá el proyecto SmartPrevent cubren una serie de áreas relacionadas con la video-vigilancia en entornos urbanos, como por ejemplo:
Procesamiento de imágenes de video-vigilancia
El proyecto ha creado una serie de guías de referencia para la mejor comprensión semántica entre las capas baja y alta de una video-secuencia que incluyen algoritmos, métodos y características para explotar el entendimiento semántico de un flujo de imágenes. Además, se desarrollarán algoritmos de bajo nivel para embeber en los sensores de visión y que permitirá una mejor sustracción del fondo acotando la zona de alto nivel donde deberán correr los algoritmos correspondientes.
Sistemas de Video-vigilancia
El proyecto presenta varias mejoras para los actuales sistemas de seguridad con un sensor autónomo, sin cableado y de bajo coste. Además, el sensor es robusto en condiciones adversas manteniendo la capacidad de calidad de grabación con viento y/o lluvia.
Reconocimiento de actividades sospechosas
El proyecto ha propuesto un modelo superior con respecto el DML-HMM (T. Xiang and S. Gong, 2008) cuyos autores participan en el proyecto y que mejora el actual modelo de comportamiento. Este nuevo modelo se adapta a la realidad de los escenarios urbanos con una estructura jerárquica para cubrir los objetos múltiples en interacción. El diseño de una topología jerárquica para procesos temporales múltiples permite separar cada objeto para analizar su comportamiento pero teniendo en cuenta que objetos distintos en un espacio temporal cercano tienden a tener comportamientos relacionados.
Transferencia de aprendizaje
El proyecto se ha diseñado para combinar varias fuentes y mejorar el aprendizaje de las escenas observadas. Actualmente el aprendizaje activo se basa en procesos y entornos estáticos, y SmartPrevent desarrolla un aprendizaje activo en continuo a partir del conocimiento experto del operador.
Conclusiones
El proyecto SmartPrevent está alineado con la agenda en investigación de la Seguridad Europea y los nuevos proyectos de video-vigilancia orientados a dotar de mayor tecnología e inteligencia a los sistemas físicos de seguridad. El proyecto se basa en diferentes pilares que demuestran su alto impacto.
Los resultados se basan en soluciones innovadoras de bajo coste con capacidad de detección temprana de actividades sospechosas. La sostenibilidad del sistema proviene de los costes mínimos en energía, instalación, costes de mantenimiento y costes de equipamiento. Además, es un producto que será instalado en un entorno real, en dos escenarios del Ayuntamiento de Las Rozas (Madrid) y bajo el control de la Policía Local de Las Rozas. Por último, su versatilidad y capacidad de adaptación a diferentes entornos, facilitará su implantación en otros países europeos.
El proyecto proporcionará un conjunto de guías y referencias para mejorar los sistemas de video-vigilancia para la prevención de crímenes. Cabe destacar, que el proyecto además de un enfoque tecnológico, incluye una visión holística teniendo en cuenta aspectos éticos y legales. Y en segundo lugar, el proyecto pondrá a disposición de la comunidad científica una serie de herramientas y metodologías para mejorar el procesado de videos y el entendimiento semántico de los mismos.
SmartPrevent contribuye a mejorar la agenda estratégica de Seguridad Europea al potenciar la dimensión ética y legal de los sistemas de video-vigilancia, ya que la solución se ha diseñado para asegurar la privacidad, la anonimización y la no-estigmatización. Por otra parte, la versatilidad del sistema y su aprendizaje activo para incluir nuevos entornos y actividades criminales permitirá minimizar la actual fragmentación de la industria de seguridad orientada a las particularidades regionales de su zona de influencia. Esto llevará a mejorar su competitividad y su posicionamiento hacia mercados internacionales.
Agradecimientos
El proyecto SmartPrevent agradece la colaboración del Ayuntamiento de Las Rozas y su Policía Local por su gran implicación en el proyecto, así como a las Policías Locales de Madrid y Valencia por su interés en la explotación del proyecto en el futuro próximo.
Referencias
- Cheung, S. S., Kamath, C. “Robust techniques for background subtraction in urban traffic video”, Visual Communication and Image Processing, 2004.
- Deselaers, T., Heigold, G., Ney, H. “Object classification by fusing SVMs and Gaussian Mixtures”, Pattern Recognition Journal, vol. 43, Issue 7, July 2010.
- Gouaillier, V., Fleurant, A.E. «Intelligent Video Surveillance: Promises and Challenges». April 2009.
- Johnsen, S., Tews, T. “Real-Time Object Tracking and Classification Using a Static Camera”, Proceedings of the IEEE ICRA 2009, Workshop on people detecting and tracking, Kobe, Japan, May 2009.
- Lenz, P., Ziegler, J., Geiger, A. “Sparse scene flow segmentation for moving object detection in urban environments”, IEEE Intelligent Vehicles Symposium, pp. 926–932, 2011.
- Martínez-Sotoca,J., Ferri, F. J., Gutierrez, J., Remagnino, P., Jones, G. A. “Approximated tracking of multiple non-rigid objects using adaptive quantization and resampling techniques”, VIIP 2001.
- Milla, J.M., Toral, S. L., Barrero, M. V., Barrero, M. “Computer Vision Techniques for Background Modelling in Urban Traffic Monitoring, InTech, ISBN: 978-953-307-100-8, 2010.
- Moutzouris, J. Martinez-del-Rincon, M. Lewandowski, J-C. Nebel, D. Makris, ?Human Pose Tracking In Low Dimensional Space Enhanced By Limb Correction-, ICIP, 2011.
- Tamgade, S. N., Bora, V. R. “Motion Vector Estimation of Video Image by Pyramidal
Implementation of Lucas Kanade Optical Flow”, 2nd International Conference on Emerging Trends in Engineering and Technology, pp. 914–917, 2009. - Xiang, T., Gong, S. Video behaviour profiling for anomaly detection, IEEE Trans. PAMI, 30(5):893-908, 2008.
- Guardian
- CSMONITOR
- STANDARD
- COOPERATOR
- Challenges and developments in «intelligent video surveillance«.