Regole generali
Esploriamo alcune vecchie credenze riguardanti la
percettibilità del sync A/V. La maggior parte dei montatori
cinematografici può avvertire con facilità errori nel sync di
circa mezzo frame. Poiché la cadenza cinematografica è di 25 fps
(negli USA 24 fps), ciò equivale approssimativamente a ± 20 mS.
Altri eccedono fino circa 1 frame (± 33/40 mS), altri ancora,
curiosamente, indicano +5/-15 mS. Quest'ultima indicazione
deriva da una specifica dei laboratori Dolby per le prestazioni
del decoder Dolby Digital (AC3). Il requisito principale è che
l’audio non possa precedere il video per più di 5 mS e non lo
possa seguire per più di 15 mS. Ci si potrebbe chiedere, dunque,
perché si sia più rigidi in una direzione piuttosto che
nell’altra.
È un fatto che la luce viaggia molto più rapidamente del suono,
e tutti noi siamo abituati a ciò, anche se non ce ne rendiamo
conto. Ecco un esempio: un pallone da basket che colpisce il
pavimento del campo di gioco apparirà relativamente corretto, in
quanto a sync A/V, solo alle prime file di spettatori. Per
coloro che si trovano molto indietro il suono segue di molto
l’immagine della palla che colpisce il pavimento. Se fosse
possibile sedersi ancora più indietro, le cose peggiorerebbero
ma nessuno sembra accorgersene perché tutto ci sembra
assolutamente corretto.
Immaginiamo ora di invertire la sequenza temporale. Mentre
stiamo guardando la partita il suono della palla ci arriva prima
che essa batta sul terreno di gioco. Tutto ciò ci sembrerebbe
molto innaturale e, soprattutto, sembrerebbe sbagliato anche a
coloro che si trovano nelle prime file. La percezione umana del
sync A/V è molto più sensibile all’evento innaturale del suono
che arriva prima dell’immagine.
La ITU (International Telecommunications Union) ha
rilasciato nel 1998 una specifica chiamata BT.1359-1. Essa si
basava su una ricerca che ha fissato l’esatta percezione degli
errori di sincronismo tra i 45 mS per l’audio che precede il
video e i 125 mS per l’audio che segue il video. Bisogna
sottolineare che questa rappresenta solo la regione di
avvertibilità del fenomeno, quella di accettabilità è
persino più ampia (+90/-185 mS). Questo studio ha utilizzato
persone “normali” (cioè non montatori o altri professionisti),
la qual cosa aiuta a comprendere l’esistenza di una finestra
così ampia. Questi numeri rappresentano però il caso estremo e
l’obiettivo dovrebbe sempre essere ± 0 mS.
Problemi negli impianti
Gli errori nel sync A/V in un impianto TV non
sono nuovi nella televisione digitale. Alcuni concetti base da
tenere a mente sono che le lavorazioni audio, digitali o
analogiche che siano, hanno, in generale, una bassa latenza.
Compressione, equalizzazione, missaggio ecc. possono essere
effettuati nel dominio digitale in un paio di millisecondi, e in
pochi microsecondi nel dominio analogico. D’altro canto, le
lavorazioni video richiedono un tempo maggiore. Ciò è dovuto sia
all’ampia banda occupata, sia alla struttura basata sui frames
dei segnali video. In modo simile che nell’audio, ogni volta che
un segnale video viene digitalizzato, esso accumula ritardo. Al
contrario, invece, la maggior parte degli effetti che si fanno
sul sul video non possono essere effettuati nel dominio
analogico, così è inevitabile un certo ritardo del video che
deve essere compensato con un ritardo nell’audio.
È imperativo che questa compensazione venga fatta per ogni
apparato video che introduca un ritardo superiore a pochi
millisecondi; altrimenti il sync A/V diventerà variabile e
cambierà al variare del percorso del segnale per via di patch o
commutazioni varie.
Per aiutarci in situazioni del genere, la ITU ha pubblicato
un’altra raccomandazione, molto logica, peraltro, chiamata ITU-R
BT.1377, la quale suggerisce che gli apparati audio e video
vengano etichettati con l’indicazione del ritardo introdotto (se
esso è variabile ne va indicato il range) e che il ritardo venga
indicato in millisecondi per evitare discrepanze dovute a
differenti frame rate.
Un apparecchio molto comune è quello chiamato video frame
synchronizer. Per sua natura esso produce un ritardo di uno
o due frames. Trasportare audio e video da un posto remoto di
produzione al punto finale di emissione richiede di solito che i
segnali passino attraverso diversi sincronizzatori. Se l’audio
non verrà adeguatamente ritardato per corrispondere al video, il
risultato sarà prevedibilmente sgradevole. Sono disponibili
diversi ritardi audio, e alcuni possono persino individuare il
ritardo video variabile e garantire un sync perfetto.
Un altro gruppo di apparecchiature da controllare sono i sistemi
DVE (Digital Video Effects), che possono introdurre
moltissimi frames di ritardo. Dato che il ritardo di una DVE è
in genere un valore fisso, generalmente può essere utilizzato un
ritardo audio di valore prefissato. Tenendo, se possibile,
collegati in permanenza questi sistemi si ridurrà il sync A/V
variabile.
Problemi in emissione
Con le situazioni in impianto sopra descritte è
facile misurare il sync A/V con un oscilloscopio e un buon
segnale di riferimento come il beep flash standard e
regolare il sistema per il minimo offset. Ma cosa accade quando
si trasmette il segnale all’utente finale?
Nel sistema analogico, se i segnali audio/video sono sincroni
all’ingresso del trasmettitore, il programma sarà correttamente
riprodotto alla ricezione mentre, con i nuovi sistemi di
trasmissione digitale, le cose non sono così semplici. I segnali
audio e video sono codificati separatamente e poi
multiplexati in un unico flusso, per essere inviati al
modulatore e alle successive sezioni RF del trasmettitore. Il
processo di codifica richiede del tempo, ed esso è differente
per l’audio e per il video. Il problema è che il circuito
multiplexer deve conoscere con esattezza questa diversa
temporizzazione, così da poter generare un corretto valore PTS (Presentation
Time Stamp), cioè un marcatore temporale che verrà
utilizzato dal decoder per restituire audio e video, si
spera, in sync.
Se l’encoder è incorporato nel trasmettitore, ossia se lo
sono i codificatori Dolby Digital (AC3) e MPEG video, la
calibrazione del sync A/V è molto facile e, verosimilmente, sarà
già stata impostata. Se l’encoder AC3 è esterno, come tra breve
sarà inevitabile, nel caso in cui si vogliano trasmettere canali
audio 5.1, la cosa è leggermente più complessa.
In entrambi i casi, la strada più accurata per effettuare la
misurazione è di analizzare il flusso di trasporto dei dati (streaming).
È certamente allettante utilizzare un ricevitore consumer (o
anche professionale) e controllare il sync alle sue uscite audio
e video. Sfortunatamente questa procedura è parecchio
inaffidabile e probabilmente è stata la causa dei molti problemi
iniziali di sync della TV digitale.
Anche se esistono software appositi per controllare il sync A/V
(anche per il 5.1) senza avere false indicazioni, ancora non
sappiamo come portare in maniera corretta lo streaming a questi
analizzatori. Il possibile uovo di Colombo è che è disponibile
un ricevitore HDTV su scheda PCI relativamente poco costoso che
trasforma un PC in un ricevitore HDTV. Altra cosa importante è
che questa scheda e il software incluso consentono di salvare lo
streaming sul disco rigido del computer.
Il software di analisi (per esempio SyncCheck della
Interra Digital Video Technology) può importare questo flusso,
de-multiplexarlo, decodificarlo e visualizzarlo, semplicemente
immettendo nell’encoder un segnale di test beep flash
(naturalmente in sync), analizzando poi il flusso per consentire
i necessari aggiustamenti. Si tratta di un modo molto economico
di assicurarsi che l’encoder di emissione della stazione HDTV e
il multiplexer siano correttamente tarati. Una volta allineato
lo streaming per un perfetto sync A/V, utilizzando un ricevitore
DTV si potrà constatare che il segnale trasmesso è
assolutamente corretto.
La moderna tecnologia ci fornisce anche un diverso approccio per
risolvere il problema, questa volta in maniera completamente
automatica.
La Tektronix ha introdotto un sistema (ADVC100) che,
attraverso una sofisticata analisi audio e una sorta di
filigrana (watermark) sul video può individuare e
correggere automaticamente gli errori nel sync A/V. Una sintesi
molto semplice di questo sistema è che esso genera un inviluppo
che rappresenta il segnale audio e poi codifica questo inviluppo
un un watermark inserito nel corrispondente segnale video. Dopo
che i segnali audio e video sono transitati attraverso
l’impianto, unità di registrazione o di distribuzione, il
watermark viene nuovamente decodificato nell’inviluppo del
segnale audio. Questo segnale viene allora comparato con il
segnale audio vero e proprio. Se il sync A/V non è corretto,
viene automaticamente introdotto un ritardo audio variabile per
correggere il problema.
Anche se il watermark potrebbe essere inserito in ogni punto
della catena, è molto meglio che ciò venga fatto all’inizio.
Allo stesso modo è meglio che la correzione venga fatta il più
lontano possibile, lungo il percorso del segnale. L’ideale è che
la cosa avvenga subito prima della codifica finale prima
dell’emissione.
Il watermark è stato progettato in modo da poter sostenere tutte
le normali operazioni video, inclusa la compressione MPEG, è può
adattarsi a differenti data rates.
Questo sistema è molto sofisticato e
può comportarsi abbastanza bene, tuttavia ci sono alcune
considerazioni negative da tenere bene a mente. Una di esse è
che la correzione può essere fatta solo in una direzione, vale a
dire ritardando l’audio per adattarsi al video. Per fortuna
questa è la direzione migliore e corregge i problemi (che sono i
più evidenti) dell’audio in anticipo. Un altro problema, per la
verità non molto rilevante, è che il watermark occupa una
porzione di banda. In un sistema con un data rate relativamente
alto ciò non è rilevante, ma sistemi che possiedono livelli
massimi di rate molto rigidi potrebbero non essere in grado di
riservare abbastanza banda da far sì che il sistema sia
efficace. Tuttavia, anche considerando come sensibili entrambi i
problemi, i benefici superano abbondantemente gli svantaggi.
Il complesso di questa discussione sul sync A/V può essere
riassunto in due parti principali: la misura e la
correzione. L’obiettivo prefissato dovrebbe sempre essere
il raggiungimento di un perfetto sync A/V, cioè 0 mS. Anche se
questo si ottiene raramente, dovrebbe sempre rappresentare
l’obiettivo finale. La strada che porta a tale obbiettivo è
lastricata di misure e correzioni. Il corretto sync A/V dovrebbe
essere controllato e corretto a ogni tappa del percorso del
segnale. Non bisogna cadere nella trappola mortale di contare
troppo sull’efficacia di un controllo e relativa correzione a
livello di encoder di trasmissione o di multiplexer per
risolvere problemi di timing generati dall’impianto. Che siano
manuali o automatici, gli strumenti esistono, ed è assolutamente
possibile agire bene e con rapidità per risolvere
definitivamente il problema.
Un altro aspetto al quale bisogna fare molta attenzione
coinvolge alcuni switcher video, e il problema sembra non
avere una soluzione semplice. In effetti dovrebbe essere
introdotto nel percorso del’audio un ritardo fisso, pari alla
somma di tutti i ritardi dovuti alle apparecchiature video per
effetti (DVE), e lo switcher dovrebbe mantenere questo ritardo
complessivo nel percorso del video indipendentemente da quante
DVE siano attive in un determinato momento. Sfortunatamente non
tutti gli switcher possono fare ciò. Il risultato è che
bisognerebbe anticipare o ritardare l’audio in maniera
silenziosa a seconda di quali effetti sono attivi in un
determinato momento. Attualmente non c’è modo di fare questo in
una maniera che non sia artigianale e macchinosa. Parti
dell’audio verranno certamente perse o temporalmente allungate (stretched),
e in entrambi i casi il suono non sarà buono durante le
transizioni. Due soluzioni sono possibili: una è progettare un
processore audio molto sofisticato che permetta variazioni di
ritardo silenziose (in entrambe le direzioni), mentre l’altra è
mantenere costante il ritardo del video. Poiché la prima
soluzione è estremamente complessa, specialmente perché esistono
moltissimi differenti switchers che utilizzano molti differenti
protocolli di comando, sembra dunque logico seguire senza alcun
dubbio la seconda strada.