A febbraio 2020 si è conclusa la ricerca sulla Violence detection in videos attraverso la pubblicazione sulla rivisita scientifica internazionale Aploied Artificial Intelligence.
Lo studio, sintetizzato all’interno dell’articolo scientifico dal titolo “Violence Detection in Videos by Combining 3D Convolutional Neural Networks and Support Vector Machines”, è stata condotto dall’Università Politecnica delle Marche con il supporto diretto di SITE e della sua ingegneria.
Il progetto è stato sviluppato con successo, rivoluzionando con i suoi promettenti risultati gli esistenti metodi di ricerca, dal gruppo di ricercatori del Dipartimento di Ingegneria dell’Informazione composto da Simone Accattoli, Paolo Sernani, Nicola Falcionelli, Dagmawi Neway Mekuria e coordinato dal Prof. Aldo Franco Dragoni.
DALLA FACE RECOGNITION ALLA VIDEO DETECTION
Leader nello sviluppo di sistemi per la gestione smart della sicurezza e consapevole delle incredibili potenzialità delle nuove tecnologie per rafforzare la sicurezza negli ambienti pubblici e privati, SITE ha avviato questa proficua collaborazione – a partire dalla seconda metà del 2015 – con l’Università delle Marche. Commissionando e finanziando degli assegni di ricerca, ha permesso lo studio che negli ultimi quattro anni ha seguito due filoni di ricerca: il primo sulla face recognition, il secondo sulla violance detection in videos.
La prima ricerca sul riconoscimento facciale dell’Università delle Marche – che ha visto anche il contributo dei tesisti triennali Alessandro Scopelliti e Mattia Luzi – in sinergia con il supporto dell’ingegneria della Ricerca & Sviluppo di SITE, si è conclusa con successo portando alla realizzazione di un prototipo perfettamente integrabile con la piattaforma KIRETI Smart City e in grado di effettuare il riconoscimento dei volti di soggetti ripresi da video e da webcam.
Gli ottimi risultati ottenuti dal progetto sulla face recognition, hanno spinto SITE a rinnovare l’importante partnership. A partire dalla fine del 2018, si è quindi deciso di indirizzare il percorso iniziato verso la ricerca dell’analisi comportamentale per il riconoscimento di atti di violenza seguendo un approccio di studio basato sia sul principio del CNN che su quello del Deep Learning .
LA RICERCA SULLA VIOLENCE DETECTION PER IL MONITORAGGIO DELLA VIOLENZA PUBBLICA E PRIVATA
Per rispondere alle mancanze della videosorveglianza in alcuni specifici scenari applicativi, l’Università delle Marche ha sviluppato la soluzione Violence detection: basandosi su una rete neurale convoluzionale 3D (CNN), il sistema permette di rilevare scontri, combattimenti, movimenti aggressivi e scene di violenza nei flussi video in diretta.
L’operatore in servizio, pur avendo a disposizione telecamere intelligenti, non sempre riesce a prevedere in maniera efficace momenti di violenza dall’analisi video in real-time. Un software intelligente è quindi la chiave per sbloccare il pieno potenziale offerto dagli attuali sistemi di videosorveglianza. L’identificazione di comportamenti potenzialmente pericolosi attraverso l’utilizzo di questo software può infatti consentire l’intervento tempestivo delle forze dell’ordine in quelle situazioni in cui anche solo pochi secondi possono davvero fare la differenza.
VIOLENCE DETECTION: L’APPROCCIO SCIENTIFICO DEL DEEP LEARING E L’INNOVAZIONE DEL METODO TRANSFER LEARNING
Lo stato dell’arte relativo al problema del riconoscimento della violenza ha permesso ai ricercatori di scegliere fra tre possibili approcci: Local Features, Global Features e le nuove tecniche di Deep Learning.
La scelta è ricaduta sul Deep Learning, sistema basato sulle tecniche delle reti neurali e ritenuto più efficace perché in grado di restituire buoni risultati sul riconoscimento della violenza sia in scenari affollati che meno affollati. Nel dettaglio l’esatta metodologia applicata nel progetto di ricerca è stata quella del Transfer Learning.
Il lavoro proposto dall’Università delle Marche ha utilizzato una rete neurale già esistente chiamata C3D che migliorava le precedenti reti di tipo CNN e consentiva la modellizzazione della dimensione temporale, indispensabile per riconoscere azioni di lotta e le accelerazioni di un movimento. L’innovazione introdotta dallo studio si è quindi fondata sull’aver considerato solo i primi livelli della rete neurale utilizzata, combinandoli con un classificatore già esistente SVM (Support Vector Machine) in grado di discriminare la presenza o meno di scenari di violenza.
La rete neurale utilizzata è stata addestrata utilizzando tre diversi dataset di video raffiguranti scene di violenza in contrapposizione a scene di non-violenza: durante delle partite di Hockey (1000 video), tratte da alcuni film (200) e da atti di violenza registrati in mezzo alla folla prevalentemente tra tifosi di squadre sportive di football durante le partite (246 video).
VIOLENCE DETECTION: I RISULTATI
Il funzionamento del sistema sviluppato sullo studio della violance detection si basa quindi sulla buona precisione raggiunta nelle attività di rilevamento e classificazione delle immagini. I risultati dei test a cui è stato sottoposto l’algoritmo del sistema evidenziano un buon comportamento sia rispetto al rilevamento di violenza in scene di lotta individuale che in scene di lotta collettive, raggiungendo un’accuratezza maggiore rispetto ai metodi pre-esistenti nel Local Features e nel Global Features. Pur esistendo in letteratura metodologie con maggiore accuratezza, queste sono relative esclusivamente al riconoscimento di lotte complessive. Ciò che rende il sistema elaborato migliorativo rispetto allo stato dell’arte, è la sua efficienza in diversi contesti applicativi.
L’indice di valutazione dell’accuratezza considerato è l’AUC ROC (Area Under the Curve of the Receiver Operating Characteristic curve), ottenuto dalla rappresentazione grafica del tasso dei test positivi sul tasso dei falsi positivi. Un indice che ha raggiunto: nell’analisi di video di violenza individuale tra persone un livello di accuratezza pari allo 0,9832 su 1 rispetto lo 0,9798 (valore di riferimento dello stato dell’arte); e nell’analisi di video di violenza collettiva un valore di AUC ROC pari a 0,990 su 1 contro lo 0,9703.
Più nello specifico, lo studio condotto aggiunge i seguenti contributi allo stato dell’arte del rilevamento video della violenza:
- dimostra come una rete neurale convoluzionale pre-addestrata attraverso una rete di dati non destinati al rilevamento della violenza possa essere utilizzata per identificare i descrittori che discriminano un comportamento violento da un comportamento non violento;
- propone un sistema per rilevare il comportamento violento del singolo o della folla con elevata precisione;
- presenta una maggiore accuratezza rispetto agli algoritmi esistenti;
- il sistema può essere utilizzato per il rilevamento di comportamenti violenti in tempo reale.
La collaborazione tra SITE e l’Università Politecnica delle Marche testimonia quanto la sinergia tra Università e imprese sia necessaria per la crescita strategica del nostro paese. Un’unità di intenti a tutto vantaggio dell’attrattività delle Università, della competitività delle aziende, dell’occupabilità degli studenti e della crescita economica e sociale dei territori. E lo studio sulla violance detection rappresenta un’opportunità anche per i cittadini che si vedono rispondere in maniera efficace alle loro esigenze di sicurezza.