Come sviluppare metodi precisi ed efficienti per la gestione dei contenuti audiovisivi
I contenuti dei media audiovisivi non sono solo uno strumento essenziale per la comunicazione e l’intrattenimento, ma rappresentano inoltre una fonte utile per la storia moderna. Per permettere a tutti di usufruire di questi documenti altamente informativi, risulta fondamentale tradurre le immagini in movimento e i suoni in parole in modo efficiente ed economico. In questo contesto si inserisce il progetto MeMAD, finanziato dall’UE, che sta elaborando metodi automatici basati sul linguaggio per gestire, accedere e pubblicare contenuti digitali preesistenti e originariamente realizzati nell’ambito dell’industria creativa. Concentrandosi sulla radiodiffusione televisiva e sui servizi multimediali su richiesta, il progetto MeMAD si propone inoltre di migliorare la narrazione digitale. Dopo 2 anni dedicati a questo progetto, i partner di MeMAD hanno realizzato una piattaforma prototipo per aiutare i professionisti dei contenuti audiovisivi. Hanno inoltre valutato diversi aspetti della piattaforma, come riportato in un post di blog sul sito web del progetto. «Sono stati quattro i binari seguiti per la valutazione: assistenza per il montaggio video, ricerca, sottotitolaggio intralinguistico con il supporto del riconoscimento vocale automatico (ASR, Automatic Speech Recognition) e sottotitolaggio interlinguistico con il supporto della traduzione automatica (TA)». Nel medesimo post di blog si afferma: «Nel corso di tutte le valutazioni e dopo ogni attività, i partecipanti hanno compilato moduli simili ai questionari per misurare l’esperienza utente (UEQ, User Experience Questionnaire), predisposti per incentrarsi sull’attività stessa piuttosto che sull’interfaccia utente. In seguito a ogni sessione di valutazione si è svolta una breve intervista semi-strutturata. Inoltre, per le valutazioni sull’assistenza per il montaggio video e la ricerca, sono stati raccolti dati ad alta voce». Nel post di blog si aggiunge che le trascrizioni effettuate tramite il riconoscimento vocale automatico e la traduzione automatiche si sono rivelate particolarmente «utili sia per quanto riguarda l’assistenza per il montaggio video che nella ricerca di archivi, sebbene vi siano ancora margini di miglioramento». Sempre nello stesso post di blog, i partner del progetto sottolineano la necessità di migliorare la presentazione e la ricercabilità dei metadati. «Sarebbe utile poter cercare segmenti in cui una determinata persona parla di un argomento, combinando i dati di riconoscimento facciale e riconoscimento vocale. C’è anche bisogno di esaminare le lunghezze dei segmenti, anche se nei video più lunghi i segmenti più corti possono comportare un numero di marcatori eccessivo da gestire per uno strumento di montaggio video». Il post di blog continua: «Le prossime valutazioni includeranno il riconoscimento facciale e il rilevamento di oggetti visivi. Se possibile, si dovrà fare affidamento sugli stessi partecipanti per le prossime valutazioni, poiché conoscono già la piattaforma e sono in grado di confrontare i risultati».
Nuovi strumenti
Il progetto MeMAD (Methods for Managing Audiovisual Data: Combining Automatic Efficiency with Human Accuracy) utilizza l’apprendimento automatico e l’elaborazione per permettere un recupero più semplice dei dati da grandi volumi di contenuti e in diverse lingue. Inoltre, il progetto si prefigge di fornire ai creatori di contenuti strumenti nuovi per poter strutturare meglio i contenuti e rendere automatica l’erogazione dei contenuti derivati a varie piattaforme quali i social media. Grazie all’impiego della traduzione automatica per le trascrizioni vocali e i sottotitoli, il contenuto sarà disponibile per nuove platee di pubblico in lingua straniera e risulterà persino più facilmente accessibile alle persone con problemi di udito e/o vista. Questo rappresenta un esempio di uso di MeMAD, che vede coinvolti i processi di trascrizione automatica, traduzione e sottotitolaggio. In virtù di ciò, i montatori di video possono lavorare senza chiedere il supporto degli interpreti durante il montaggio delle interviste in lingua straniera. In un altro caso d’uso, i consumatori ipovedenti possono seguire gli spettacoli di attualità con il supporto delle descrizioni dei contenuti generate automaticamente che sono state rese disponibili. Una rendicontazione periodica del progetto sul sito web CORDIS riporta: «La chiave per l’innovazione è fornire all’industria creativa una rappresentazione comune dei dati principali durante i processi di produzione, affinché gli attuali processi editoriali orientati ai documenti possano essere sostituiti tramite un approccio più strutturato». Per ulteriori informazioni, consultare: sito web del progetto MeMAD
Parole chiave
MeMAD, audiovisivo, contenuti audiovisivi, montaggio video, traduzione automatica