Vermanent per la ricerca di indizi in file audio digitali (Leonardo Corsini)

Vermanent per la ricerca di indizi in file audio digitali (Leonardo Corsini) - Amelia 2024

Рет қаралды 38

ONIF (Osservatorio Nazionale Informatica Forense)

Күн бұрын

VerManent è uno strumento progettato per risolvere il problema dell’enorme numero di messaggi vocali (WhatsApp, T elegram, Instagram, ecc.) che un investigatore forense deve analizzare in una copia forense di uno smartphone. Attualmente gli investigatori devono ascoltare ogni messaggio vocale (o quasi) per trovare elementi utili all'indagine e, dato che il numero di messaggi vocali che le persone si scambiano ogni giorno sta crescendo sempre più, è difficile per un investigatore forense trovare indizi in questo tipo di dati. Il problema della ricerca di prove nei messaggi vocali non può essere affrontato con i metodi tradizionali di ascolto o speech-to-text combinato alla ricerca di termini specifici. L'ascolto potrebbe comportare la perdita di prove importanti (è impossibile ascoltare tutti i messaggi vocali presenti in una copia forense) e il metodo della ricerca esatta non è così efficace perché è fortemente influenzato dalla scelta dei termini ricercati. È nata così l'idea di combinare speech-to-text e word embeddings per effettuare una ricerca per similarità nel testo delle trascrizioni dell’audio. Abbiamo utilizzato Whisper AI basato su un set di dati locale (non nel cloud) per trascrivere tutti i file audio, e poi abbiamo cercato i file contenenti la parola, o il gruppo di parole, più simile al campo di ricerca, specificato dall'utente. Ad ogni file confrontato con il campo di input viene assegnato un indice di sìmilarità. Esso sarà più vicino ad 1 per parole o gruppi di parole inserite in un contesto linguistico simile, o a 0 nel caso opposto. T ale indice viene calcolato con tre diverse metodologie. La prima (word _similarity)
confronta, per tutti i file, tutte le parole presenti nella trascrizione dell’audio corrispondente e gli assegna il rapporto di similarità più alto fra quelli trovati. La seconda (average_ similarity), considera la media dei rapporti di similarità calcolati tra il campo di input e tutte le parole presenti nelle trascrizioni audio. L'ultima (window_similarity) suddivide tutta la trascrizione in finestre di lunghezza fissa di parole contigue. Quindi calcola la sìmilarità media tra il campo di input e le parole nelle finestre. Alla fine, assegna all'audio il risultato più alto trovato nel confronto. L'uso di diverse metodologie offre una maggiore possibilità di trovare messaggi rilevanti al caso in esame, in quanto queste possono funzionare meglio in situazioni differenti. Alla fine, per ogni metodologia, lo strumento ordina i risultati dal più simile al meno simile e fornisce un elenco di ciò che ha trovato. Questo approccio lascia spazio a estensioni di funzionalità, come sentiment-analysis, pitch-detection o anomaly-detection, che possono dare un grado di precisione maggiore nella ricerca di prove.