Il sincronismo audio/video
Uno dei problemi più diffusi nel campo dell’audio televisivo è il sincronismo audio-video, meglio conosciuto come lip sync; a esso ci riferiremo, di qui in poi, con l’abbreviazione Sync A/V.
Si potrebbe pensare che l’avanzata tecnologia digitale di oggi abbia risolto questo problema relativamente vecchio. Sfortunatamente, come si dice, la stessa mano che ha dato, ha tolto, e questa avanzata tecnologia digitale sta peggiorando il problema. L’audio e il video hanno adesso la possibilità di essere trasportati più facilmente e in modo più pulito che nel passato, e perciò gli errori di sincronizzazione sono molto più avvertibili. Tuttavia esistono alcune avanzate tecniche di misura che possono evidenziare il problema e aiutare a risolverlo.
Si potrebbe pensare che l’avanzata tecnologia digitale di oggi abbia risolto questo problema relativamente vecchio. Sfortunatamente, come si dice, la stessa mano che ha dato, ha tolto, e questa avanzata tecnologia digitale sta peggiorando il problema. L’audio e il video hanno adesso la possibilità di essere trasportati più facilmente e in modo più pulito che nel passato, e perciò gli errori di sincronizzazione sono molto più avvertibili. Tuttavia esistono alcune avanzate tecniche di misura che possono evidenziare il problema e aiutare a risolverlo.
Regole generali
Esploriamo alcune vecchie credenze riguardanti la percettibilità del sync A/V. La maggior parte dei montatori cinematografici può avvertire con facilità errori nel sync di circa mezzo frame. Poiché la cadenza cinematografica è di 25 fps (negli USA 24 fps), ciò equivale approssimativamente a ± 20 mS. Altri eccedono fino circa 1 frame (± 33/40 mS), altri ancora, curiosamente, indicano +5/-15 mS. Quest’ultima indicazione deriva da una specifica dei laboratori Dolby per le prestazioni del decoder Dolby Digital (AC3). Il requisito principale è che l’audio non possa precedere il video per più di 5 mS e non lo possa seguire per più di 15 mS. Ci si potrebbe chiedere, dunque, perché si sia più rigidi in una direzione piuttosto che nell’altra. È un fatto che la luce viaggia molto più rapidamente del suono, e tutti noi siamo abituati a ciò, anche se non ce ne rendiamo conto. Ecco un esempio: un pallone da basket che colpisce il pavimento del campo di gioco apparirà relativamente corretto, in quanto a sync A/V, solo alle prime file di spettatori. Per coloro che si trovano molto indietro il suono segue di molto l’immagine della palla che colpisce il pavimento. Se fosse possibile sedersi ancora più indietro, le cose peggiorerebbero ma nessuno sembra accorgersene perché tutto ci sembra assolutamente corretto. Immaginiamo ora di invertire la sequenza temporale. Mentre stiamo guardando la partita il suono della palla ci arriva prima che essa batta sul terreno di gioco. Tutto ciò ci sembrerebbe molto innaturale e, soprattutto, sembrerebbe sbagliato anche a coloro che si trovano nelle prime file. La percezione umana del sync A/V è molto più sensibile all’evento innaturale del suono che arriva prima dell’immagine. La ITU (International Telecommunications Union) ha rilasciato nel 1998 una specifica chiamata BT.1359-1. Essa si basava su una ricerca che ha fissato l’esatta percezione degli errori di sincronismo tra i 45 mS per l’audio che precede il video e i 125 mS per l’audio che segue il video. Bisogna sottolineare che questa rappresenta solo la regione di avvertibilità del fenomeno, quella di accettabilità è persino più ampia (+90/-185 mS). Questo studio ha utilizzato persone “normali” (cioè non montatori o altri professionisti), la qual cosa aiuta a comprendere l’esistenza di una finestra così ampia. Questi numeri rappresentano però il caso estremo e l’obiettivo dovrebbe sempre essere ± 0 mS.
Problemi negli impianti
Gli errori nel sync A/V in un impianto TV non sono nuovi nella televisione digitale. Alcuni concetti base da tenere a mente sono che le lavorazioni audio, digitali o analogiche che siano, hanno, in generale, una bassa latenza. Compressione, equalizzazione, missaggio ecc. possono essere effettuati nel dominio digitale in un paio di millisecondi, e in pochi microsecondi nel dominio analogico. D’altro canto, le lavorazioni video richiedono un tempo maggiore. Ciò è dovuto sia all’ampia banda occupata, sia alla struttura basata sui frames dei segnali video. In modo simile che nell’audio, ogni volta che un segnale video viene digitalizzato, esso accumula ritardo. Al contrario, invece, la maggior parte degli effetti che si fanno sul sul video non possono essere effettuati nel dominio analogico, così è inevitabile un certo ritardo del video che deve essere compensato con un ritardo nell’audio. È imperativo che questa compensazione venga fatta per ogni apparato video che introduca un ritardo superiore a pochi millisecondi; altrimenti il sync A/V diventerà variabile e cambierà al variare del percorso del segnale per via di patch o commutazioni varie. Per aiutarci in situazioni del genere, la ITU ha pubblicato un’altra raccomandazione, molto logica, peraltro, chiamata ITU-R BT.1377, la quale suggerisce che gli apparati audio e video vengano etichettati con l’indicazione del ritardo introdotto (se esso è variabile ne va indicato il range) e che il ritardo venga indicato in millisecondi per evitare discrepanze dovute a differenti frame rate. Un apparecchio molto comune è quello chiamato video frame synchronizer. Per sua natura esso produce un ritardo di uno o due frames. Trasportare audio e video da un posto remoto di produzione al punto finale di emissione richiede di solito che i segnali passino attraverso diversi sincronizzatori. Se l’audio non verrà adeguatamente ritardato per corrispondere al video, il risultato sarà prevedibilmente sgradevole. Sono disponibili diversi ritardi audio, e alcuni possono persino individuare il ritardo video variabile e garantire un sync perfetto. Un altro gruppo di apparecchiature da controllare sono i sistemi DVE (Digital Video Effects), che possono introdurre moltissimi frames di ritardo. Dato che il ritardo di una DVE è in genere un valore fisso, generalmente può essere utilizzato un ritardo audio di valore prefissato. Tenendo, se possibile, collegati in permanenza questi sistemi si ridurrà il sync A/V variabile.
Problemi in emissione
Con le situazioni in impianto sopra descritte è facile misurare il sync A/V con un oscilloscopio e un buon segnale di riferimento come il beep flash standard e regolare il sistema per il minimo offset. Ma cosa accade quando si trasmette il segnale all’utente finale? Nel sistema analogico, se i segnali audio/video sono sincroni all’ingresso del trasmettitore, il programma sarà correttamente riprodotto alla ricezione mentre, con i nuovi sistemi di trasmissione digitale, le cose non sono così semplici. I segnali audio e video sono codificati separatamente e poi multiplexati in un unico flusso, per essere inviati al modulatore e alle successive sezioni RF del trasmettitore. Il processo di codifica richiede del tempo, ed esso è differente per l’audio e per il video. Il problema è che il circuito multiplexer deve conoscere con esattezza questa diversa temporizzazione, così da poter generare un corretto valore PTS (Presentation Time Stamp), cioè un marcatore temporale che verrà utilizzato dal decoder per restituire audio e video, si spera, in sync. Se l’encoder è incorporato nel trasmettitore, ossia se lo sono i codificatori Dolby Digital (AC3) e MPEG video, la calibrazione del sync A/V è molto facile e, verosimilmente, sarà già stata impostata. Se l’encoder AC3 è esterno, come tra breve sarà inevitabile, nel caso in cui si vogliano trasmettere canali audio 5.1, la cosa è leggermente più complessa. In entrambi i casi, la strada più accurata per effettuare la misurazione è di analizzare il flusso di trasporto dei dati (streaming). È certamente allettante utilizzare un ricevitore consumer (o anche professionale) e controllare il sync alle sue uscite audio e video. Sfortunatamente questa procedura è parecchio inaffidabile e probabilmente è stata la causa dei molti problemi iniziali di sync della TV digitale. Anche se esistono software appositi per controllare il sync A/V (anche per il 5.1) senza avere false indicazioni, ancora non sappiamo come portare in maniera corretta lo streaming a questi analizzatori. Il possibile uovo di Colombo è che è disponibile un ricevitore HDTV su scheda PCI relativamente poco costoso che trasforma un PC in un ricevitore HDTV. Altra cosa importante è che questa scheda e il software incluso consentono di salvare lo streaming sul disco rigido del computer. Il software di analisi (per esempio SyncCheck della Interra Digital Video Technology) può importare questo flusso, de-multiplexarlo, decodificarlo e visualizzarlo, semplicemente immettendo nell’encoder un segnale di test beep flash (naturalmente in sync), analizzando poi il flusso per consentire i necessari aggiustamenti. Si tratta di un modo molto economico di assicurarsi che l’encoder di emissione della stazione HDTV e il multiplexer siano correttamente tarati. Una volta allineato lo streaming per un perfetto sync A/V, utilizzando un ricevitore DTV si potrà constatare che il segnale trasmesso è assolutamente corretto. La moderna tecnologia ci fornisce anche un diverso approccio per risolvere il problema, questa volta in maniera completamente automatica. La Tektronix ha introdotto un sistema (ADVC100) che, attraverso una sofisticata analisi audio e una sorta di filigrana (watermark) sul video può individuare e correggere automaticamente gli errori nel sync A/V. Una sintesi molto semplice di questo sistema è che esso genera un inviluppo che rappresenta il segnale audio e poi codifica questo inviluppo un un watermark inserito nel corrispondente segnale video. Dopo che i segnali audio e video sono transitati attraverso l’impianto, unità di registrazione o di distribuzione, il watermark viene nuovamente decodificato nell’inviluppo del segnale audio. Questo segnale viene allora comparato con il segnale audio vero e proprio. Se il sync A/V non è corretto, viene automaticamente introdotto un ritardo audio variabile per correggere il problema. Anche se il watermark potrebbe essere inserito in ogni punto della catena, è molto meglio che ciò venga fatto all’inizio. Allo stesso modo è meglio che la correzione venga fatta il più lontano possibile, lungo il percorso del segnale. L’ideale è che la cosa avvenga subito prima della codifica finale prima dell’emissione. Il watermark è stato progettato in modo da poter sostenere tutte le normali operazioni video, inclusa la compressione MPEG, è può adattarsi a differenti data rates. Questo sistema è molto sofisticato e può comportarsi abbastanza bene, tuttavia ci sono alcune considerazioni negative da tenere bene a mente. Una di esse è che la correzione può essere fatta solo in una direzione, vale a dire ritardando l’audio per adattarsi al video. Per fortuna questa è la direzione migliore e corregge i problemi (che sono i più evidenti) dell’audio in anticipo. Un altro problema, per la verità non molto rilevante, è che il watermark occupa una porzione di banda. In un sistema con un data rate relativamente alto ciò non è rilevante, ma sistemi che possiedono livelli massimi di rate molto rigidi potrebbero non essere in grado di riservare abbastanza banda da far sì che il sistema sia efficace. Tuttavia, anche considerando come sensibili entrambi i problemi, i benefici superano abbondantemente gli svantaggi. Il complesso di questa discussione sul sync A/V può essere riassunto in due parti principali: la misura e la correzione. L’obiettivo prefissato dovrebbe sempre essere il raggiungimento di un perfetto sync A/V, cioè 0 mS. Anche se questo si ottiene raramente, dovrebbe sempre rappresentare l’obiettivo finale. La strada che porta a tale obbiettivo è lastricata di misure e correzioni. Il corretto sync A/V dovrebbe essere controllato e corretto a ogni tappa del percorso del segnale. Non bisogna cadere nella trappola mortale di contare troppo sull’efficacia di un controllo e relativa correzione a livello di encoder di trasmissione o di multiplexer per risolvere problemi di timing generati dall’impianto. Che siano manuali o automatici, gli strumenti esistono, ed è assolutamente possibile agire bene e con rapidità per risolvere definitivamente il problema. Un altro aspetto al quale bisogna fare molta attenzione coinvolge alcuni switcher video, e il problema sembra non avere una soluzione semplice. In effetti dovrebbe essere introdotto nel percorso del’audio un ritardo fisso, pari alla somma di tutti i ritardi dovuti alle apparecchiature video per effetti (DVE), e lo switcher dovrebbe mantenere questo ritardo complessivo nel percorso del video indipendentemente da quante DVE siano attive in un determinato momento. Sfortunatamente non tutti gli switcher possono fare ciò. Il risultato è che bisognerebbe anticipare o ritardare l’audio in maniera silenziosa a seconda di quali effetti sono attivi in un determinato momento. Attualmente non c’è modo di fare questo in una maniera che non sia artigianale e macchinosa. Parti dell’audio verranno certamente perse o temporalmente allungate (stretched), e in entrambi i casi il suono non sarà buono durante le transizioni. Due soluzioni sono possibili: una è progettare un processore audio molto sofisticato che permetta variazioni di ritardo silenziose (in entrambe le direzioni), mentre l’altra è mantenere costante il ritardo del video. Poiché la prima soluzione è estremamente complessa, specialmente perché esistono moltissimi differenti switchers che utilizzano molti differenti protocolli di comando, sembra dunque logico seguire senza alcun dubbio la seconda strada.
BIBLIOGRAFIA
Tim J. Carrol – Note audio da TV Technology.com