giovedì 19 Settembre 2024

Gli algoritmi di compressione

Lo standard che prevede un campionamento a 44.1 KHz e quantizzazione a 16 bit, tipico dei CD, chiamato anche PCM (Pulse Code Modulation), al pari di tutti i formati non compressi, rappresenta una copia molto fedele del segnale audio di partenza ma ha lo svantaggio di essere molto grande. In pratica, esso occupa una elevata quantità di memoria per essere immagazzinato e lavorato. Per fare un esempio, un brano musicale stereo in formato Wave (*.wav), uno dei formati che utilizzano questa codifica, occuperebbe, per una durata di 5 minuti, circa 53 MB (megabyte) di spazio-memoria. Questa grandezza si ottiene moltiplicando 44100 (la frequenza di campionamento) per 2 (il numero dei canali) per 16 (il numero dei bit per ogni secondo) per 300 (la durata del brano in secondi). A questo punto sarà necessario dividere il risultato per 8 per ottenere la dimensione del file audio così ottenuto (ricordiamo, a questo proposito, che un Byte è composto di 8 bit). Oltre al puro e semplice problema di spazio occupato dal file, un’ulteriore questione è data dal bit rate (in pratica dalla velocità) che un sistema di trasmissione basato sul PCM lineare dovrebbe mantenere. Per potere infatti trasportare a distanza un qualsiasi flusso di dati è necessario introdurre, accanto ai bit che rappresentano l’informazione vera e propria (in questo caso un brano audio), tutta una serie di bit che trasportano le informazioni di servizio (canale sinistro o destro, frequenza di campionamento, allineamento temporale, informazioni per la sincronizzazione) e di correzione degli errori. In questo modo si ottiene un bit rate che si avvicina ai 3Mbit/s e ciò sarebbe difficilmente gestibile, anche in ambito strettamente professionale. Gli algoritmi di compressione dei segnali audio nascono proprio per ridurre tutti questi parametri, mantenendo contemporaneamente una qualità del segnale accettabile. Naturalmente il prezzo da pagare è rappresentato, oltre che da un inevitabile decadimento della qualità finale, anche dall’introduzione di un certo ritardo nella trasmissione del segnale. Questo parametro nasce dal fatto che l’algoritmo di compressione effettua delle operazioni matematiche sul segnale di partenza, e quindi impiega un certo periodo di tempo più o meno lungo nella sua elaborazione. Se questo parametro è completamente trascurabile in operazioni di archiviazione o simili, non lo è quando la gestione dell’audio deve avvenire in tempo reale e rappresenta un fattore determinante con cui fare i conti, tra l’altro, quando si ha a che fare con informazioni audio legate alle immagini. Un algoritmo di compressione compie, nel dominio digitale, ciò che uno stenografo fa durante il suo lavoro di scrittura rapida: abbrevia le informazioni consentendo un risparmio di tempo e di spazio occupato ma consente, allo stesso tempo, una corretta interpretazione e ricostruzione “a posteriori” dello scritto originale. A seconda del loro utilizzo, si possono distinguere tecniche di memorizzazione compressa e tecniche di trasmissione compressa (ovvero le tecniche usate nei modem per aumentare, a parità di costo, l’efficienza della trasmissione). Tuttavia la vera distinzione da fare è tra compressione lossless (ossia priva di perdite) e compressione con perdita di informazione. Il primo tipo di compressione, che deve permettere la ricostituzione senza errori dei dati originali, si basa essenzialmente sull’eliminazione delle ridondanze. Questa codifica è indispensabile per memorizzare o trasmettere programmi, testi e ogni tipo di informazione che non può essere alterata senza danni (in genere qualunque tipo di informazione digitale già all’origine). Nel secondo caso, invece, si accetta di perdere qualche informazione in cambio del vantaggio di non avere limiti al tasso di compressione. Questa codifica si presta bene ad essere usata per i dati di natura analogica (suoni ed immagini) che per loro natura sono soggetti già all’origine ad una inevitabile perdita di informazione (causata dal rumore ambientale, dalla risoluzione dei trasduttori o altro). I formati audio compressi, introdotti per risolvere il problema del trasporto di materiale musicale, utilizzano algoritmi che si basano su considerazioni psicoacustiche che aiutano a individuare e sopprimere nel materiale registrato le informazioni non udibili. Come in tutti gli ambienti in cui si trattano files digitali, così anche nell’ambito audio vi sono moltissimi formati e molti modi di trattarli. Cerchiamo di dare in questa sede una rapida sintesi di quelli più diffusi.
Formati non compressi
Tra i formati non compressi possiamo senz’altro enumerare il formato AIFF. Si tratta di un formato audio per computer introdotto dalla Apple. I dati sono scritti senza ridondanza e senza compressione ma con informazioni accessorie sufficienti per conoscere il numero dei canali, la frequenza di campionamento, il numero di bit per campione, ecc. Il già citato formato WAV è simile all’AIFF ma più diffuso in ambiente Windows. È possibile passare dal formato WAV al formato AIFF e viceversa senza perdita di informazione, ed è facile progettare programmi software che leggono questi formati e li rielaborano. I formati WAV e AIFF possono essere trasferiti su CD-ROM così come sono, ed in questo caso potranno essere riletti senza perdite da un lettore CD per computer ma non riprodotti su un lettore CD audio. In alternativa, questi formati possono essere masterizzati in formato CD audio, generando un prodotto che funziona sui lettori audio, ma che per essere usato su un PC richiede una operazione di ripping, ossia di estrazione del contenuto in un formato memorizzabile su hard disk.
Formati compressi
I formati compressi permettono, come detto, un più agevole trasporto e immagazzinamento del materiale musicale a spese di un degrado, più o meno evidente, della qualità dello stesso. Il loro funzionamento si basa su considerazioni psicoacustiche: vengono rimosse le informazioni considerate irrilevanti lasciando intatte quelle necessarie alla ricostruzione del messaggio musicale. Naturalmente il concetto di rilevanza è alquanto opinabile e, nella pratica, si ha una vasta gamma di possibili risultati, la cui qualità è inversamente proporzionale all’entità della compressione, ed è bene dire subito che la cosiddetta qualità CD dei file compressi è sicuramente una favola. Formati compressi sono stati usati nella DCC (la cassetta digitale Philips e Technics) e nel MINIDISC Sony, mentre il formato più noto (soprattutto per i suoi legami con Internet e, purtroppo, con la pirateria musicale) è il formato MP3 (abbreviazione di MPEG-1 layer 3). MPEG sta per Moving Pictures Experts Group, ovvero il gruppo di esperti di un sottocomitato ISO/IEC che ha formulato diversi standard per la compressione audio e video. Lo standard MP3, studiato in particolare nei laboratori Fraunhofer, prevede un certo numero di tecniche di codifica mono e stereo con bit rate che vanno tra i 32 e i 320 Kbit/sec. Una volta codificato, un file MP3 può essere memorizzato nell’hard disk o anche suonato da programmi software appositi. Il file è indipendente dalla piattaforma, e i dati possono essere trasferiti sui lettori portatili (che li memorizzano su memoria non volatile), oppure masterizzati su CD-ROM e letti su un altro computer o su appositi lettori. Il formato MP3 permette anche di includere nel file dei tag (marcatori) con informazioni sull’autore, sull’esecutore, sul genere del brano in questione e sull’album dal quale il brano musicale proviene (se di musica si tratta). Queste informazioni facilitano non poco la gestione di grosse quantità di files MP3.
Un altro formato compresso è il WMA (Windows Media Audio) introdotto dalla Microsoft per la piattaforma Windows.
Altre codifiche molto diffuse sono la MPEG-2, usata nel DVD, la MPEG-4, usata nei file video più moderni, mentre la versione audio del formato MPEG-4 è la famiglia dei formati AAC (Advanced Audio Coding).