
- El comitè MPEG (Moving Pictures Experts Group) va començar a prendre forma l’any 1988, quan l’Organització Internacional de l’Estandardització i l’Organització Electrotècnica Internacional (ISO/IEC JTC1) van encarregar a Leonardo Chairiglione i Hiroshi Yasuda l’estandardització de l’àudio i el vídeo per a discos compactes (CD). Durant els anys següents, experts de tot el món en les àrees de vídeo, àudio i sistemes s’hi van afegir arribant a 200 participants l’any 1992.
- Cap a finals de l’any 1990 ja hi havia un esborrany del projecte que demostrava que es podia generar un flux de dades amb àudio de qualitat CD (16 bits mostra i mostreig a 44,1 kHz) i vídeo qualitat LDTV (VHS) d’1,5 Mbps. Era el naixement de l’MPEG-1, que s’utilitzaria en aplicacions de CD-i (CD interactiu). És precisament la capa 3 (layer 3 en anglès) d’àudio de la norma MPEG-1 la que ha donat lloc al polèmic MP3. Després d’alguns experiments, es va veure que les definicions fetes per l’MPEG-1 també podien servir per a unes taxes de bit més elevades. És aquí on neix l’MPEG-2. Ara calia definir una nova sintaxi per tal que una radiodifusió de vídeo fos viable. I no només vídeo, sinó que també era necessària una nova normativa per tal que l’àudio tingués la qualitat requerida per una emissió de TV digital. Ja no n’hi havia prou amb l’estèreo. La nova normativa havia de suportar so multicanal.
- Més tard, es va pensar
en la inclusió de l’alta definició. L’MPEG-3 naixia l’any
1991. Poc després, però, aquesta fase desapareixeria perquè
es va demostrar que si s’augmentava el bit rate del senyal de vídeo
de l’MPEG-2 s’arribava al mateix resultat.
- Val a dir que l’MPEG-2 no defineix un sistema específic de compressió ni els detalls del codificador, sinó que especifica els formats en què es presentaran les dades al descodificador i un conjunt de regles per interpretar aquestes dades. Per tant, els fabricants poden fer codificadors de diferents prestacions i el consumidor tindrà la certesa que el seu descodificador és totalment compatible amb senyals MPEG-2.
- Un cop fet aquest aclariment, es pot començar a parlar amb propietat de la compressió d’imatges. La compressió d’imatges es basa en tres tipus de redundància existents en el senyal de vídeo: temporal, espacial i estadística. Un esquema de la compressió és el que apareix a la figura 3.1.
Figura 3.1. Les tres fases de compressió
de vídeo
- La redundància temporal es basa en el fet que un mateix píxel es repeteix temporalment en una seqüència d’imatges. L’espacial defineix que un píxel i els seus veïns guarden molta similitud entre ells. La redundància estadística consisteix a determinar quins valors de bits es repeteixen més en una seqüència de bits. D’aquests tres tipus de compressió, els dos primers són compressions amb pèrdues, és a dir, que no recuperem exactament el senyal original sinó que n’obtenim una aproximació, el factor de compressió és inversament proporcional a la qualitat que vulguem. Pel que fa a la redundància estadística, es tracta d’una compressió sense pèrdues, és a dir, el senyal descodificat és exactament igual a l’original.
3.2.1.1.- Redundància temporal
- L’eliminació de la redundància temporal és el procés que comprimirà més la imatge. Com s’ha dit, utilitzarà mostres de la imatge anterior i/o posterior i, mitjançant tècniques predictives, podrem deduir de manera aproximada quina és la situació dels píxels en la imatge actual. La tècnica més emprada per fer la compressió és l’anomenada DPCM. S’ha cregut adient explicar cada bloc per separat, per tal de tenir una visió senzilla de cada pas de compressió. Al final d’aquest capítol es mostrarà un possible esquema d’un sistema de compressió MPEG-2. L’esquema del codificador DPCM el podem trobar a la figura 3.2. És adient també ajudar-nos del descodificador DPCM (figura 3.3) per entendre el procés.
Figura 3.2. Codificador DPCM
Figura 3.3. Descodificador DPCM
- Com es pot apreciar, en el
codificador de la figura 3.2 tenim dos blocs ben diferenciats:
- Segons la figura 3.1, el senyal d(n) pot ser tant positiu com negatiu ja que la resta:
pot estar compresa entre –255 i 255 (és a dir, que d(n) és de 9 bits (8+1 bit de signe)). El gràfic de la figura 3.3 ens permet passar d’aquesta quantificació de 9 bits a una de 4 ja que quantificarem un marge de valors en un de sol. Per exemple, si tenim un senyal d(n) de valor 150, u(n) valdrà 15. El descodificador agafarà aquest valor i el convertirà, juntament amb la predicció, al píxel aproximat, que tindrà un valor de 140. La imatge aproximada que arriba al predictor (x titlla ) és la suma de la mostra diferència (amb el seu corresponent error de quantificació) i la predicció de la imatge anterior (x circumflexa ). Expressat matemàticament es veu més clar:

- Els coeficients ai s’agafen de manera coherent amb el pes que li vulguem donar a la mostra n-i (normalment són més importants les mostres més properes en el temps). P és l’ordre de predicció. L’error mínim es pot trobar calculant la potència de l’error. Matemàticament, la potència de l’error és l’esperança de l’error quadrat. Això és:

- Ara fem un incís. L’esperança de dues mostres diferents és la seva correlació, així doncs:

- Si ho expressem en forma matricial arribem a:

- Amb un exemple numèric es veu tot més clar. Suposem un senyal x(n)=Acos(np/2). La seva representació gràfica és la de la figura 3.4. Com es pot apreciar, el període del senyal és 4 (cal recordar que estem en el domini discret).
Figura 3.4. Cosinus discret
- Desenvolupant les equacions podem deduir que:

- La decisió està ara en quin és l’ordre del predictor. Per a un senyal de veu, un ordre d’entre 8 i 12 està prou bé. Per a imatges, d’1 a 3. I per a l’exemple que ens pertoca (senyal sinusoïdal), 2, ja que té 2 zeros en el seu espectre. Per tant, anem a deduir quins són els coeficients de predicció:

- Ara bé, en les codificacions MPEG no s’utilitza la predicció lineal, sinó que es fa servir la predicció interframe amb la tècnica de compensació de moviment. És a dir, obtenim la imatge predita a partir de vectors de moviment. És precisament aquest el punt d’estudi de les millores de les tècniques de compressió. Per tenir una idea clara del que representa un vector de moviment, serveixin com a exemple les imatges de les figures 3.5 i 3.10, on apareixen dues imatges en l’eix temporal i un vector de moviment representatiu. La terminologia que apareix en les imatges serà explicada posteriorment.
Figura 3.5. Vectors de moviment
d’una imatge
- Per què és tan important
la predicció de moviment? Perquè el màxim factor de
compressió recau en aquest punt. Com parlarem més endavant,
hi ha tres tipus d’imatges: I, P i B. Amb la redundància espacial
(en parlarem posteriorment) es creen les imatges I, les quals tenen tota
la informació per descodificar-se. A continuació es mira
la següent imatge per veure com s’assembla a l’anterior i/o posterior.
Ara hi ha tres coses que podem fer:
- Cal anar amb compte perquè
si durant tota la seqüència d’imatges utilitzéssim només
una imatge inicial i, a continuació, només féssim
servir vectors de moviment, el procés es degradaria ràpidament.
Per tant, s’ha d’enviar una imatge I cada cert interval. En MPEG s’ha decidit
que s’envia una imatge I cada 12 grups d’imatges (GOP). Un dels aspectes
que defineix l’MPEG és com s’han d’enviar aquestes imatges i en
quin ordre.
- Després d’aquesta
petita introducció, podem dividir el procés de predicció
en dos blocs. L’estimació de moviment, que té com a objectiu
l’obtenció dels vectors de moviment (que seran enviats al descodificador)
mitjançant la comparació d’x(n) i x(n-1) (o més imatges,
tant posteriors, mitjançant l’ús de buffers, com anteriors),
i la compensació de moviment, que té com a objectiu assignar
els vectors calculats a x titlla (n-1) per obtenir x circumflexa (n). Per
obtenir els vectors de moviment hi ha diferents mètodes:
- El mètode consisteix
a definir una zona de cerca en vertical i horitzontal. El vector es troba
segons la fórmula:
d=mín SDFD (x,d)2
- On d és el vector desplaçament i DFD és la Diferència de Frame Desplaçat que es defineix com:
DFD (x,d)=It(x)-It-1(x,d)
- En teoria, s’hauria de restar píxel a píxel en tot l’interval de cerca (suposem de 16x16). Això no és viable, però. Vegem-ne el perquè. Les restes esmentades fan un total de 162 operacions. El sumatori fa 162 operacions més. També efectuem 162 multiplicacions. La zona de cerca és de 15x15 blocs. Tenim que una imatge de resolució 720x576 es divideix en 45x36 blocs de 16x16. I hi ha 25 imatges per segon. Si fem els càlculs:
3·(16x16)·(15x15)·45·36·25=6998400000 operacions per segon.
- Això és una
barbaritat i és, de fet, el culpable del fet que actualment els
codificadors MPEG siguin tan cars. Hi ha diferents algorismes que redueixen
en un factor 10 el número d’operacions. A continuació s’expliquen
alguns d’aquests algorismes:
Figura 3.6. Mètode 3SS
- El 1r pas consisteix en el càlcul de 9+8=17 punts. Ara mirem si tenim un mínim (que compleixi un llindar establert per nosaltres) i, si el té, aturem l’algoritme. Si no tenim el mínim en aquesta àrea, passem al 2n pas, que és buscar en 3 o, si es tracta d’una cantonada, en 5 punts. Això fa un total de 20 o 22 passos. Ara bé, si cal un tercer pas, es fa un mètode similar al primer (8+8 càlculs), que implica un total de 33 operacions. Aquest mètode és bo per a imatges amb poc moviment, però poc òptim si hi ha moviment.
- En aquest cas s’utilitza una finestra inicial de 5x5 amb 9 punts. Si el mínim està al centre, definim una finestra de 3x3 i parem l’algoritme (17 operacions). Si el mínim no es troba al centre, cerquem 3 o 5 punts (segons si és centre o cantonada). Si encara no estem, repetim el segon pas. Per últim, creem una finestra de 3x3 i parem l’algorisme. En total tenim, en el pitjor cas, 9+5+5+8=27 operacions.
- El funcionament del mètode és el següent. El sistema fa una mitjana de la direcció de tres vectors de moviment propers al bloc del qual es vol trobar el moviment. Un cop feta la mitjana, s’agafa aquella direcció i, a partir d’aquell punt, es calcula quin és el millor vector.- El resultat final, sigui quin sigui el mètode, el podem veure clarament a la figura 3.10. La manera d’enviar els vectors es fa calculant la funció delta, que es defineix com:
- Tamany_res es codifica amb 4 bits i varia de 0 a 8. Només es pot enviar un cop per imatge. Residu_moviment s’envia directament en binari. Normalment el moviment de l’escena no és excessiu i, per tant, es pot fer que tamany_res sigui 0, cosa que fa que |d| sigui el codi de moviment directament.
![]()
Figura 3.10. Estimació de moviment
3.2.1.2.-
Redundància espacial
- El següent punt en la
cadena de compressió de la figura 3.1 és l’eliminació
de la redundància espacial. Això s’aconsegueix mitjançant
tècniques transformades. L’objectiu d’aquestes tècniques
és doble. D’una banda, s’ha d’intentar concentrar l’energia del
senyal en el menor número possible de coeficients, de manera que
el número de bits a transmetre estigui per sota dels de la imatge
sense transformar. Per l’altra banda, s’intenta que els coeficients estiguin
descorrelats, de manera que cada coeficient es pugui quantificar de forma
independent respecte als altres. Així s’aconsegueix que a un coeficient
determinat se li pugui aplicar més o menys quantificació
que als altres. Això permet aplicar una quantificació d’acord
amb la corba de sensibilitat de l’ull. En resum, es busquen dos objectius:
a) Parell transformat. Hem de tenir la possibilitat de passar a un domini transformat a partir de l’altre domini i a la inversa. És a dir, requerim d’una transformada directa i una inversa. En compressió d’imatges s’utilitza la DCT (Discrete Cosine Transform). L’expressió matemàtica de la transformada directa la tenim a l’equació 3.1 i la de la inversa a l’equació 3.2:
![]()
Equació 3.1. DCT directa
![]()
Equació 3.2. DCT inversa
b) Les funcions base han de ser ortogonals. D’aquesta manera es garanteix la incorrelació dels coeficients d’una posició freqüencial determinada.
- La DCT deriva de la DFT
(Discrete Fourier Transform), però l’avantatge de la DCT és
que compacta molt millor l’energia, això implica que es transmeten
menys coeficients. Primer de tot, mirarem quantes operacions són
necessàries per efectuar el càlcul de la DCT. Segons l’equació
3.1, si comptem el número d’operacions per calcular un sol valor,
arribem a la conclusió que calen 2N operacions. Per a N coeficients,
aquest valor és de 2N2. N és el número de mostres
del senyal d’entrada, que, per a un senyal de vídeo de resolució
normal, és 720x576. Per tant, el número d’operacions per
segon és:
2(720·576) 2 ·25= 8599633920000 operacions per segon
- Com es pot veure, tornem a estar davant d’un valor prohibitiu d’operacions, més encara que en el cas de la predicció de moviment. La solució recau en la segmentació de la imatge, és a dir, aplicarem la transformació només a un bloc de píxels determinat. Ara bé, el fet de reduir el bloc en el qual s’aplica la transformació de la imatge fa que la compressió també disminueixi. Normalment s’utilitzen blocs de 8x8 píxels.
- La magnitud de cada coeficient DCT indica la contribució d’una combinació de freqüències espacials horitzontals i verticals del bloc. El coeficient que correspon a un zero de freqüència vertical i horitzontal és l’anomenat coeficient de contínua (DC). A mesura que ens movem per l’eix X, la freqüència horitzontal augmenta. El mateix passa amb l’eix Y, però amb la freqüència vertical.
Figura 3.11. DCT
- A la figura 3.12 podem veure com són els coeficients d’una transformada discreta del cosinus segons variacions freqüencials de la imatge.
Figura 3.12. Exemple de variacions freqüencials de la DCT
- A la figura 3.13 es pot apreciar els coeficients dels píxels en el domini espacial i la seva transformada:
Figura 3.13. Valors DCT d’un bloc
8x8
- Ara bé, la DCT no redueix
directament el número de bits a transmetre. De fet, a partir d’un
bloc 8x8 de píxels quantificats a 8 bits, la DCT produeix un bloc
de 8x8 de coeficients d’11 bits. La reducció en el número
de bits prové de la ponderació d’aquests valors segons la
resposta de l’ull humà. És en aquest punt on apareix la quantificació
(abans d’aquest punt el procés és totalment reversible).
L’ull humà té una resposta en la qual tenen més importància
els coeficients de baixa freqüència que els d’alta. Cada coeficient
de la DCT original és dividit pel seu valor corresponent en la matriu
de quantificació. Com es veurà, aquesta matriu no és
única. Com que la divisió no és exacta produeix les
pèrdues que fan que el procés no sigui reversible. El procés
d’eliminació de decimals és l’arrodoniment. A les següents
matrius (de la figura 3.14 a la 3.17) es pot apreciar tot el procés
explicat anteriorment. Com es pot veure a la figura 3.17, la majoria de
coeficients d’alta freqüència han desaparegut. La manera d’enviar
els coeficients contribueix també a reduir el bit rate. Serà
l’eliminació de la redundància estadística.
Figura 3.14. Coeficients espacials |
Figura 3.15. Coeficients DCT |
Figura 3.16. Matriu de quantificació |
Figura 3.17. Coeficients DCT quantificats |
- Com es pot apreciar a la figura 3.19, apareix un buffer (estructura de dades de tipus cua) que fa de control de flux de dades per tal que tinguem un bit rate constant (CBR) a la sortida. El buffer actua de la següent manera: si el buffer està molt ple vol dir que ja li queda poc per arribar a tenir un overflow (pèrdua no desitjada de dades) i, per tant, farà que els valors de la matriu de quantificació de la figura 3.16 siguin més elevats, provocant així una baixada de la quantitat de dades a transmetre (empitjorant, evidentment, la qualitat). Com ja s’explicarà posteriorment, les imatges I són les que marcaran la qualitat de les imatges. La quantificació d’aquestes serà, per tant, crítica. Un exemple gràfic de tot això es pot observar a la figura 3.18, on es pot veure com puja el bit rate segons el tipus de complexitat de la imatge. Si una imatge està per sota d’aquest bit rate constant, el que es fa és disminuir els coeficients de la matriu de quantificació o bé afegir bits de farciment (stuffing bits).
- Per últim, cal comentar que la matriu de quantificació s’ha d’enviar juntament amb la imatge. Això, a primera vista, sembla que empitjori el bit rate, però en realitat el que fa és codificar uns mateixos blocs (o imatges) amb la mateixa matriu de quantificació, fet que implicarà que només s’hagi d’enviar una vegada cada cop que canviï.
Figura 3.18. Exemples de CBR
3.2.1.3.- Redundància estadística
- La base de l’eliminació de la redundància estadística recau en el fet que hi ha símbols (agrupacions de bits) que es repeteixen constantment. Per tant, la intenció és la d’enviar aquestes seqüències que es repeteixen amb menys bits. Com s’aconsegueix això? Amb l’ús del codi de longitud de segment (Run Lenght Code (RLC)) i amb codis de longitud variable (VLC), com poden ser la codificació aritmètica o la Huffman. Aquestes dues tècniques comprimeixen les imatges en un factor molt menor que els passos anteriors; ara bé, són totalment reversibles. A la figura 3.19 podem veure com s’estructura l’eliminació de la redundància espacial i l’estadística.
Figura 3.19. Redundància
espacial i estadística
a) RLC. Un cop codificats i quantificats els coeficients transformats, s’aplica una exploració de la matriu amb la finalitat d’obtenir un flux binari sèrie amb ordre de menys a més freqüència. Hi ha diverses maneres de fer l’escombrat d’una matriu per tal d’aconseguir un flux binari sèrie. Els que més s’utilitzen són l’escombrat en ziga-zaga i l’escombrat alternat. Els patrons d’aquests escombrats es troben a la figura 3.20.
![]()
Figura 3.20 Escombrats ziga-zaga i alternat- La gràcia del sistema és que, com que la majoria de vegades els coeficients de més alta freqüència són 0, utilitzem una paraula determinada, que s’anomena “fi de bloc” (End Of Bloc), que avisa el descodificador que, a partir d’aquest moment, tots els altres coeficients de la matriu són 0. Continuant amb l’exemple presentat a les figures 3.14, 3.15, 3.16 i 3.17, apliquem l’escombrat ziga-zaga a la matriu ponderada. Això es pot apreciar a la figura 3.21.
![]()
Figura 3.21. Exploració zig-zag- Segons això, la seqüència que s’obté és:
79,0,-2,-1,-1,-1,0,0,-1,0,0,0,0,...
- Si ara eliminem els zeros finals i codifiquem en RLC els altres zeros, la seqüència queda:
79
1,-2
0,-1
0,-1
0,-1
2,-1
EOB- Com es pot veure, codifiquem les dades per parelles. El primer terme indicaria el numero de zeros que hi ha entre la dada anterior i la que apareix en el segon terme. Encara que en aquest cas sembli que augmentem les dades a transmetre, normalment es produirà un estalvi important de dades, ja que la majoria de coeficients seran 0.
b) VLC. La finalitat és assignar més bits als valors menys probables i menys als que ho siguin més. Com a curiositat, cal dir que el codi Morse utilitza aquest sistema. Les lletres que en anglès s’usen més són les que tenen menys longitud.
- Tot aquest procés està basat en la teoria de la informació de Shannon. La quantitat d’informació de cada símbol es pot calcular com:
- D’aquesta equació, el terme Pi indica la probabilitat d’aparició del símbol “i”. La mitjana de bits per símbol de tota la seqüència és l’entropia:
- Un exemple de la compressió VLC, concretament, segons una codificació Huffman, el trobem a la següent taula:
Símbol Pi Ii Paraula Codi S0 0,41 1,3 0 S1 0,2 2,3 100 S2 0,14 2,9 110 S3 0,10 3,3 111 S4 0,08 3,6 1010 S5 0,07 3,9 1011 H=2,3 bits per símbol
- A l’hora d’enviar les imatges s’han de definir jerarquies per tal que es pugui establir un cert ordre dins de la transmissió. La jerarquia de l’enviament d’imatges queda resumida a la figura 3.22:
Figura 3.22. Estructura de les dades
- Com a exemple de com estan relacionades les imatges I, P i B, i del factor de compressió que s’assoleix amb cadascuna, pot servir la figura 3.24.
Figura 3.25. Organització
d’un GOP
- No necessàriament han de seguir aquest ordre ni contenir aquest número d’imatges I, B i P, sinó que poden haver diverses I, per exemple. Un GOP en codificació ha de començar amb una imatge I, però, a l’hora de descodificar-les, poden començar amb una B o I i han d’acabar amb una I o P.- Com que el descodificador ha de saber, abans de descodificar les imatges B, alguna de les I o P que la precedeixen, aquestes s’envien abans en el temps (quan en realitat es representen després). Per tant, el descodificador haurà d’ordenar-les. Aquest procés queda resumit a la figura 3.26.
- Els GOP poden ser oberts o tancats. Els tancats poden ser descodificats independentment sense haver de fer ús d’imatges d’altres GOP. Els oberts, en canvi, sí que requereixen les imatges dels altres GOP. De manera esquemàtica es pot veure el procés a la figura 3.27.
Figura 3.27. GOP obert i GOP tancat
- Hi ha cinc tipus de perfils que indiquen el sistema de compressió a emprar.
- L’MPEG-2 permet 4 formats font per codificar (nivells), que van des d’LDTV fins a HDTV, passant per SDTV i EDTV (16:9 PALplus), cadascun d’ells amb un cert marge de bit rates possibles.- Els parells perfil i nivell determinen punts de conformitat als quals els dissenyadors de descodificadors s’han d’adherir. Ara bé, no totes les combinacions de perfils i nivells són possibles, només les marcades a la figura 3.27 són viables. Cal remarcar que tots els perfils són compatibles cap enrere.
- Els perfils simple i principal són els que estan destinats a vídeo no escalable amb qualitat de bona a alta. El perfil simple, abreujat en anglès com SP (Simple Profile), és el que requereix menys eines de compressió ja que s’utilitza en aplicacions on el retard és crític, com, per exemple, la videoconferència. El perfil principal, abreujat en anglès com MP (Main Profile), està adreçat a aplicacions on el retard de codificació no és gaire crític. Amb un mateix bit rate tenim millor qualitat en l’MP que en el simple. Això es deu al fet que té definides més eines de compressió (predicció bidireccional, per exemple). L’MP, juntament amb el nivell principal (ML), formen l’MP@ML, que s’utilitza actualment en televisió. L’MP també contempla l’emissió d’HDTV (MP@HL). A la següent taula podem apreciar les característiques del perfil principal:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- El format de les imatges és 4:2:0, tant progressiu (SP) com entrellaçat (MP). Aquests formats permeten certa editabilitat en el domini comprimit.- Pel que fa als perfils escalables (l’SNR escalable (Signal to Noise Ratio) i l’espacialment escalable), cal comentar que afegeixen eines que permeten que el vídeo estigui partit en dues o més qualitats diferents (una base i una, o més, de millorades) però amb la mateixa resolució i format. Els senyals poden millorar la relació senyal soroll (SNR) (per exemple, fent que els coeficients de quantificació de la DCT siguin menors), o bé la resolució espacial (passant d’SDTV a HDTV). Això permet que el senyal de menys qualitat pugui arribar a llars on les condicions de transmissió no siguin bones, amb la qual cosa tindrem un senyal robust a interferències però amb menys qualitat. Ara bé, aquests dos perfils són molt complicats de fer i serien molt costosos per al mercat, per la qual cosa la normativa DVB no els contempla.
- El perfil alt està orientat a aplicacions on, a més de requerir escalabilitat espacial i/o temporal, també precisen altres formats de croma.
- Malgrat que la normativa MPEG-2 ja està tancada, s’està treballant per adaptar-la a nous requeriments, com pot ser el vídeo professional d’alta qualitat (4:2:2@ML (Main Profile 4:2:2 studio profile)). Encara que el perfil alt i nivell alt poden permetre aquest tipus de vídeo, econòmicament no és viable perquè, com que s’havia de mantenir la compatibilitat cap enrere, hauria de poder descodificar senyals SNR i espacialment escalables, que són molt costosos. És per això que l’any 1994 es va començar a definir el perfil 4:2:2, que finalment va ser aprovat el gener de l’any 1996. A la figura 3.29 podem veure els nivells d’aquest perfil, així com els seus bit rates, a més dels altres perfils.
- Un altre perfil que es troba sota estudi és el multivista. Aplicacions d’aquest perfil podrien ser l’emissió de pel·lícules en 3D, electromedicina, ...
Figura 3.29. Perfils MPEG-2 i el
nou 4:2:2
- Fins aquest moment hem vist tot el procés de compressió de les imatges per separat. Ara és el moment adequat per veure tot el que s’ha explicat. A la figura 3.30 hi ha el dibuix d’un codificador MPEG-2.
- En el primer bloc (bloc 1) s’hi realitza la compressió interframe, això és l’eliminació de la redundància temporal. El primer procés és el de passar de senyal 4:2:2 sèrie de la recomanació ITU-R 601 (SDI a 270Mbps) a 4:2:0. A partir d’aquest senyal entrem al predictor de moviment, que, juntament amb una imatge de referència (formada per imatges P i I), produirà els vectors de moviment de la imatge. Aquests, juntament amb la imatge de referència, produiran la imatge predita que s’emmagatzema a un buffer. La resta entre el frame 4:2:0 i la imatge predita crea un senyal de més bits que serà transformat en un de menys (compressió en un factor 1:2). Si el valor quadràtic mig dels píxels d’entrada és inferior als de la imatge de predicció, la compressió interframe no s’efectuarà i passarem directament a la intraframe. El predictor de moviment enviarà el tipus de moviment de la imatge predita al descodificador o bé li dirà que és de tipus intraframe.
- El següent pas (bloc 2) és la compressió interframe, és a dir, l’eliminació de la redundància espacial. Com es pot apreciar, primer fem la DCT i, posteriorment, la quantificació dels coeficients de la matriu resultant amb la matriu de ponderació. Els coeficients de la matriu de ponderació són enviats al receptor només quan varien.
- A continuació (bloc 3), efectuem l’eliminació de la redundància estadística. El codificador enviarà al receptor la informació de quin escombrat s’ha fet (ziga-zaga o alternat) de la matriu de coeficients transformats i quantificats, i la informació dels símbols utilitzats pel VLC.
- Per últim (bloc 4), fem
la multiplexació de la seqüència de vídeo comprimida,
els vectors de quantificació i els coeficients de la matriu de quantificació.
Abans que el flux de dades surti per ser adjuntat dins del TS (Transport
Stream (en parlarem posteriorment)), hem de passar-lo per un buffer amb
la finalitat de tenir un bit rate constant. Com s’ha explicat, si el buffer
està ple donarà uns valors més elevats a la matriu
de ponderació. Si està buit, o bé la pondera amb uns
valors més petits o bé hi afegeix dits de farciment. El buffer
també controla el tipus d’imatge que s’ha de produir. És
una altra opció per si el buffer està buit i volem augmentar
la qualitat de la imatge sense haver d’afegir bits de farciment.
3.2.1.6.- Descodificador MPEG-2
- A la figura 3.31 es pot apreciar un descodificador de vídeo codificat en MPEG-2 MP.
Figura 3.31. Descodificador MPEG-2 MP de vídeo
- Els bits que arriben al bloc 1 són els que provenen de la desmultiplexació del transport stream. Aquests passen a un buffer per tal de donar un bit rate constant al descodificador. A continuació trobem un desmultiplexor i un descodificador d’entropia. El desmultiplexor serà l’encarregat de separar les dades de vídeo del que serien dades per a la descompressió (vectors de moviment, tipus d’imatge i la seva compressió i matriu de quantificació). A continuació, les dades passen pel descodificador VLC i RLC.
- Al següent bloc (bloc 2) es realitza la desquantificació i la DCT inversa.
- En el tercer bloc es realitza la compensació de moviment agafant com a imatge de referència la de sortida (en un inici hi ha error, però el sistema convergeix a la solució correcta). El sistema té emmagatzemades les imatges anteriors i posteriors per tal de poder realitzar l’estimació de les imatge B i P a partir d’imatges I o P.
- Per arribar a saber la quantitat de compressió que s’assoleix amb aquests mètodes de compressió, la taula següent ens pot ajudar:

- Fins ara només hem parlat de compressió de vídeo, però a part de les imatges, requerim del so per transmetre un esdeveniment. Ara bé, com que digitalitzem l’àudio, aquest ocupa un ample de banda molt important ja que el bit rate que produïm és molt elevat. Per exemple, suposem que volem digitalitzar un senyal d’àudio de dos canals (esquerre i dret), cadascun mostrejat a 44,1kHz i quantificat a 16 bits/mostra (qualitat CD). Això ens dóna un flux de dades de 44,1k*16*2=1411200 bps. Això és una barbaritat per a l’escàs ample de banda de què disposem, sobretot quan hem arribat a comprimir tant les imatges. Així doncs, es fa necessària la compressió si volem enviar un àudio de qualitat (la millora de qualitat és una de les raons de ser de la TV digital). I més encara si volem arribar a disposar del “cinema a casa”, ja que aleshores ja no són 2 canals d’àudio, sinó que en són 5 (esquerre, dret, 2 d’ambient i un central). L’estàndard MPEG ha desenvolupat diversos sistemes de compressió d’àudio. El comitè DVB va decidir utilitzar les normatives ISO/IEC 11172-3 (MPEG-1 àudio) i ISO/IEC 13818-3 (MPEG-2 àudio).
- L’estàndard MPEG es va realitzar mitjançant l’aportació d’universitats i empreses de tot el món. Per a la codificació de l’àudio es van rebre 14 propostes. Com a conseqüència d’això, i causa de les moltes similituds entre els algorismes, les propostes es van reunir en quatre grups. Els 14 organismes que van presentar les propostes van treballar junts en cadascun dels grups per tal d’ajuntar els punts forts de cada grup i crear un algoritme definitiu de compressió d’àudio.
- Els 4 algorismes resultants van ser posats a prova mitjançant tests de bit rate i qualitat associada, retard de codificació, complexitat del descodificador i robustesa als errors. Dels 4 algoritmes, es va triar el MUSICAM, que va servir com a base de l’estàndard MPEG àudio. A mesura que s’anava definint l’estàndard, s’hi van anar afegint millores. Finalment, la normativa MPEG-1 àudio sortia a la llum el 1993 i definia un estàndard de codificació d’àudio monofònic i estereofònic.
- Com que la Unió Internacional de les Telecomunicacions va començar a crear una normativa per a la difusió de vídeo digital, es va creure adient definir 3 capes dins del mateix MPEG-1 àudio. Les tres tenen una qualitat similar. El que les diferencia és la complexitat del descodificador. Per a la capa 1 (Layer 1), la complexitat no és gaire. La capa 2 ja té una mica més de complexitat i és la que es va considerar que s’utilitzaria en emissió de vídeo. Per a microenllaços es va definir una tercera capa (layer 3). Aquesta és la base de l’estàndard anomenat popularment MP3 (no s’ha de confondre amb MPEG-3). Tot això es va recollir a la recomanació ITU-R BS.1115, que és la que s’aplica directament al senyal DVB.
- Amb el temps, l’MPEG-1 va afegir la capacitat d’àudio de diversos canals creant la normativa MPEG-2 àudio, que es va definir el 1995. Evidentment és compatible cap enrere. Més tard, l’any 1997, l’MPEG-2 va millorar les seves prestacions creant una compatibilitat amb el Dolby Pro Logic.
- La compressió de l’àudio es fa mitjançant la resposta psicoacústica de l’oïda humana. Estem parlant de l’emmascarament, que és l’efecte pel qual un to que és molt proper a un altre en freqüència, però molt més petit en nivell d’intensitat, no se sent. El to de menys intensitat està, doncs, emmascarat per l’altre. Apareix una zona d’emmascarament de senyals al voltant del to de més intensitat. La figura 3.32 es fa ressò d’aquest efecte:
Figura 3.32. Efecte d’emmascarament
- Ara bé, això funciona amb tot tipus de senyals d’àudio (no només amb tons), ja sigui música, parla, soroll, ... Cada so té una corba de llindar d’emmascarament que produeix que qualsevol so sota d’aquest llindar no s’escolti. Per tant, estem davant d’un sistema totalment dinàmic ja que el so va canviant al llarg del temps. A més a més, aquest sistema també pot emmascarar el soroll produït en la quantificació.
- Com es pot apreciar a la figura 3.33, on apareix un compressor d’àudio molt simplificat, el senyal d’entrada passa a través d’un model psicoacústic que determina el llindar d’audició de cada banda espectral. Aquesta informació va a parar a un posicionador de bits.
- En paral·lel a aquesta operació, el senyal passa a través d’un filtre on tot l’espectre auditiu (de 18 Hz a 22 kHz, aproximadament) és dividit en 32 subbandes. Cadascuna d’aquestes subbandes serà quantificada i codificada segons la resposta del model psicoacústic calculat.
- Posteriorment, el senyal és empaquetat, juntament amb informació sobre l’àudio transportat (quina capa utilitza, per exemple), freqüència de mostreig de l’àudio, preèmfasi utilitzat, ...
Figura 3.33. Codificador d’àudio
- La finalitat dels descodificadors d’àudio, com ja passava amb els senyals de vídeo, és que tinguin una complexitat baixa per tal que siguin econòmicament viables per al gran públic. D’aquesta manera, el disseny dels codificadors i dels descodificadors es pot fer per separat i les millores en el camp de la compressió que es puguin introduir als codificadors seran perfectament compatibles amb els descodificadors.
- A la figura 3.34 hi ha un exemple de descodificador d’àudio. A partir de l’àudio empaquetat, li fem la quantificació inversa i el passem per una inversa del filtre de subbanda obtenint l’àudio descodificat.
Figura 3.34. Descodificador d’àudio
- Com més gran és en número la capa, són més elevats la complexitat del codificador, la compressió, la sensibilitat a errors i el retard que s’obtenen. Les taxes de bit que s’aconsegueixen són de 32 a 192 kbps per a àudio monofònic i de 64 a 384 kbps per a àudio estereofònic. El consorci DVB ha adoptat la utilització de les capes 1 i 2 per a la codificació del so estereofònic, a més de suportar les tres freqüències de mostreig que ofereix MPEG-1 (32,44.1 i 48 kHz).
- Com ja s’ha comentat, es fa necessària la implantació de so multicanal per tal d’aconseguir una sensació envolvent de l’àudio. La normativa es recull a la recomanació ITU-R 775. La configuració de l’àudio és la ja anomenada 5.1 (altrament dita 3/2).
- L’MPEG-2 va adaptar la normativa ITU-R 775. L’aplicació d’aquest sistema correspon als 5 canals d’àudio esmentats, un de baixa freqüència (subwoofer) més 7 de comentaris. Evidentment, el sistema és compatible cap enrere, per tant, un descodificador MPEG-2 àudio ha de ser capaç de descodificar un senyal MPEG-1 àudio. Val a dir que també es contempla l’emissió d’àudio multilingüe, això és, la versió original i versions doblades. A grans trets, la figura 3.35 mostra un codificador i un descodificador MPEG-2.
Figura 3.35. Codificador i descodificador d’àudio multicanal
- El codificador funciona de la següent manera. Els 5 canals d’àudio s’ajunten per formar un senyal estèreo normal més 3 d’informació extra (centre, surround esquerra i surround dret) que són dipositats, juntament amb la informació de subwoofer (LFE), com a dades auxiliars de l’MPEG-1 i que seran ignorades en els descodificadors MPEG-1. Un descodificador MPEG-2 rebrà tota la informació i separarà els canals d’àudio estereofònics dels de dades auxiliars recuperant, així, la codificació original 5.1
- Per a so multicanal, DVB ha adoptat únicament la capa 2 de l’MPEG-2.
- MPEG-1, a més, presenta compatibilitat amb la codificació Dolby Pro-Logic. Això es deu al fet que la informació del canal central està sumada en fase als senyals esquerre i dret. La informació de surround es presenta com una suma fora de fase amb els senyals esquerre i dret. Perquè això sigui possible, el codificador ha de preservar la fase i amplitud dels senyals esquerre i drete respecte de l’altre. La codificació MPEG ho assegura limitant qualsevol codificació per sobre de 8kHz ja que la informació de surround no passa dels 7kHz.
- La compatibilitat està assegurada en so estereofònic i so multicanal 5.1. La figura 3.36 se’n fa ressò.
Figura 3.36. Compatibilitat Pro-Logic
- Els receptors DVB que es comercialitzen no tenen, però, sortida multicanal 5.1 (només tenen àudio esquerre i dret). Els descodificadors hauran de tenir una sortida per a l’àudio multicanal MPEG-2. S’ha definit una interfície estàndard de sortida d’àudio MPEG-2 codificat (sortida digital). Aquesta interfície s’anomena IEC 61937, està basada en la IEC 60958 i s’utilitza en transmissió d’àudio codificat en PCM. Reemplaçant les mostres PCM per paraules de 16 bits i indicant que aquestes dades no són mostres PCM convertibles a analògic, s’obté un canal de dades de 1536 kbps (a una freqüència de mostreig de 48 kHz), que és més que suficient per transmetre els bits codificats. L’àudio es transmet a ràfegues. La distància entre ràfegues es correspon a la longitud d’un frame d’MPEG àudio (1152 mostres PCM). Cada ràfega té una capçalera que n’indica la longitud.
- L’àudio MPEG suporta
dues opcions de transmissió multilingüe del so. Aquestes són:
- Actualment ha aparegut una
nova normativa: L’MPEG-2 AAC, que proporciona so multicanal d’alta qualitat
a 64 kbps. Té la capacitat de 48 canals d’àudio principals,
16 canals LFE (Low Frequency Effects), 16 canals multillengua i 16 streams
de dades. Fins a 16 programes es poden descriure, cadascun amb qualsevol
número d’àudio i dades dels descrits. Hi ha tres perfils:
el principal, el de baixa complexitat i el de mostreig escalable. Els perfils
principal i de baixa complexitat s’han provat a 320 kbps i 5 canals i s’ha
demostrat que tenen millor qualitat que els altres algorismes codificats
a 640 kbps.
Tornar a
l'índex general
Passar al
següent capítol: Sistemes MPEG-2 i DVB-SI
Per qualsevol comentari, escriu
un e-mail a:
Xavier Puig i Farré Última Actualització: 11-11-01 |