MPEG-2是「運動圖像和相關音頻資訊的通用編碼」的標準[1]。它用了有損視頻壓縮和有損音頻數據壓縮方法的組合,允許使用當前可用的儲存媒體和傳輸頻寬儲存和傳輸電影。雖然MPEG-2的效率不如H.264/AVC和H.265/HEVC等新標準,但與現有硬件和軟件的向下相容性意味着它仍在廣泛使用,例如在無線數碼電視廣播和DVD-Video中。
第1部分的MPEG - 2解決互相結合的一個或多個基本碼流的視頻和音頻,以及其他數據為一個或多個位元流,其他數據適合儲存或傳輸。 具體來說有兩種形式:程式流和傳輸流。
程式流是類似於 MPEG - 1系統的多重。它的結果從一個或多個Packetised Elementary Streams(PES)的結合,其中有一個共同的時間基準。 而程式流是專門使用在相對無錯誤的環境和適當的應用,這有可能干涉到軟件處理。程式流封包可能會成為易變且相對長的長度。
傳輸流結合一個或多個PES,使具有一個或多個獨立時基(time bases )的PES成為一個流。從一個程式中 基本流(Elementary streams )共用一個共同的時基。 傳輸流是專為使用在有可能發生錯誤的環境,如儲存或傳輸損耗或嘈雜的媒體。 傳輸流的封包有188位元組。
第2部分的MPEG - 2建立在強大的壓縮視頻功能的MPEG - 1水準,提供範圍廣泛的編碼工具。 這些提供不同的功能。 在1994年11月時,MPEG - 2視頻最終認可時。使用現有的編碼工具的MPEG - 2視頻,而具有處理的圖片有顏色解像度4:2:2和較高的位元率( bitrate)的能力。.在經過一組進行了對照試驗證實了 MPEG - 2比MPEG視頻更好,而且在許多情況下時,在位元率或演播室應用的標準或規格有更好的發展。 4:2:2模式已在1996年1月最終批准,現在是MPEG - 2視頻一個不可或缺的部分。而Multiview Profile 是一個使用現有的MPEG - 2視頻編碼工具,它可以進行編碼視頻序列在兩個鏡頭拍攝的同一場景而他們微小角度之間,在1996年7月最終批准。
MPEG-2技術也應用在了HDTV傳輸系統和藍光光碟中。
MPEG-2的第三部分定義了音頻壓縮標準。用指定的編碼表示,可以用來壓縮音頻序列-包括單聲道和立體聲。該部分改進了MPEG-1的音頻壓縮,支援兩通道以上的音頻。MPEG-2音頻壓縮部分也保持了向下相容的特點。
MPEG的第四和第五部分- 對應於第四部分和第五部分的MPEG - 1。 第四部分指定如何測試驗證碼流和解碼器是否符合要求所指明的第1,第2和第3的MPEG - 1標準。這些測試可以驗證廠家的編碼器和他們的客戶,是否有有效的位元流產生。 第五部分在技術上沒有一個標準,具有一個技術報告,提出了一個完整的軟件實施前三部分的MPEG - 1標準。
MPEG-2的第七部分定義了不能向下相容的音頻壓縮。該部分提供了更強的音頻功能。通常我們所說的MPEG-2AAC指的就是這一部分。
MPEG-2的第八部分,原計劃進行編碼的視頻時,輸入樣本為10位。 在進行這部分工作之後,因為一些因素而停止開發。
MPEG-2的第十部分是一致性測試的一部分。
標準技術細節
一個MPEG-2系統流一般包括兩個基本元素:
- 視頻數據 + 時間戳
- 音頻數據 + 時間戳
以下為MPEG-2中用到的重要壓縮技巧:
視像資料的一個特性是空間冗餘。一般來說,在同一張畫面上必有一些共通特性,也許是色彩上的,也許是幾何上的,或是其它特徵值得到的。所謂的空間冗餘去除,就是要辨識出畫面中重要的元素,並移除重複且較無影響的元素的動作。MPEG-2用到色彩取樣,離散餘弦變換等冗餘去除手法。
視像資料的另一個特性是時間上的冗餘。一般播放的視像,其實只是一連串連續的圖像序列,然而因為人類視覺的視覺暫留現象,所以會有連貫影像的錯覺。而此種視像因為畫面間時間間隔甚小,因此相臨的畫面幾無差異,大多只是圖像內容的位置變化。因為有此現象產生,所以我們可以利用除去在時間軸上畫面與畫面的相似性造成的冗餘來進行壓縮。MPEG-2用的動態補償即為此類手法,在做動態補償之前,首先將畫面分為16x16的大區塊(Macro-block,MB),然後找尋其在參考畫面(Reference Picture)中近似的大區塊所在位置,並將由目標大區塊到參考大區塊間位置的坐標差記錄成動態向量(Motion Vector)。參考畫面在該畫面之前,稱為向前預測(Forward Prediction);參考畫面在該畫面之後,稱為向後預測(Backward Prediction);而參考畫面在該畫面前後都有,稱為雙向預測(Bi-directionally Prediction)。而整個找尋動態向量的過程稱為動態估計(Motion Estimation),常見的有區塊匹配法(Block Match Method)及遞迴法(Recursive Method)。
視頻編碼概述
MPEG-2圖像壓縮的原理是利用了圖像中的兩種特性:空間相關性和時間相關性。這兩種相關性使得圖像中存在大量的冗餘資訊。如果我們能將這些冗餘資訊去除,只保留少量非相關資訊進行傳輸,就可以大大節省傳輸頻帶。而接收機利用這些非相關資訊,按照一定的解碼演算法,可以在保證一定的圖像質素的前提下恢復原始圖像。
MPEG-2視頻通常包含多個GOP(Group Of Pictures),每一個GOP包含多個幀(frame)。幀的幀類(frame type)通常包括I-幀(I-frame)、P-幀(P-frame)和B-幀(B-frame)。其中I-幀採用幀內編碼,P-幀採用前向估計,B-幀採用雙向估計。
I幀圖像採用幀內編碼方式,僅使用本身的畫面資料進行空間的冗餘去除,並沒有參考其他畫面的資料,我們稱為Intra模式大區塊(Intra Mode Macro-block)。在I幀圖像中,所有的大區塊皆為Intra模式大區塊。I幀圖像可以做為視像資料流中的索引點,也是提供隨機存取能力的主要來源。I畫面通常在視像序列或畫面群組的第一張,解碼時I畫面可獨立解碼,並做為P及B畫面的參考影像的來源。由於不須參考其他畫面,因此無法得到消除時間上冗餘的好處,因此壓縮率較差。
P幀和B幀圖像採用幀間編碼方式,即同時利用了空間和時間上的相關性。P幀圖像會使用參考畫面(Reference Picture),這些參考畫面可為該幀前面最近的I幀或P幀。編碼時,在P幀中的大區塊,若能在參考畫面上找到相對應的大區塊,則用動態補償方式做預測編碼(Predictive Coding);若找不到,則以Intra模式做編碼。由於加入消除時間上冗餘的技術,因此其編碼效率較高。B幀圖像採用雙向時間預測,會使用到前面及後面兩個方向參考畫面的資料。如同P幀一樣,可以大大提高壓縮倍數。值得注意的是,由於B幀圖像採用了未來幀作為參考,因此MPEG-2編碼碼流中圖像幀的傳輸順序和顯示順序是不同的。 B幀擁有最高的編碼效率,然畫質最差,故本身不再做為其他預測編碼用。
MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數據,MPEG-2用句法規定了一個層次性結構。它分為六層,從上至下依次為:視頻序列層(Sequence),圖像組層(GOP: Group of Picture),圖像層(Picture),像條層(Slice),大區塊層(Macro Block)和像塊層(Block)。可以看到,除大區塊層和像塊層外,上面四層中都有相應的起始碼(Start Code,SC),可用於因誤碼或其它原因收發兩端失步時,解碼器重新捕捉同步。因此一次失步將至少遺失一個像條的數據。
一般來說輸入視頻格式是25(CCIR標準)或者29.97(FCC)幀/秒。
MPEG-2支援隔行掃描和逐行掃描。在逐行掃描模式下,編碼的基本單元是幀。在隔行掃描模式下,基本編碼可以是幀,也可以是場(field)。
原始輸入圖像首先被轉換到YCbCr色彩空間。其中Y是亮度,Cb和Cr是兩個色度通道。對於每一通道,首先採用塊分割,然後形成「大區塊」(macroblocks),大區塊構成了編碼的基本單元。每一個大區塊再分割成8x8的小塊。色度通道分割成小塊的數目取決於初始參數設置。例如,在常用的4:2:0格式下,每個色度大區塊只採樣出一個小塊,所以三個通道大區塊能夠分割成的小塊數目是4+1+1=6個。
對於I-幀,整幅圖像直接進入編碼過程。對於P-幀和B-幀,首先做運動補償。通常來說,由於相鄰幀之間的相關性很強,大區塊可以在前幀和後幀中對應相近的位置找到相似的區域匹配的比較好,這個偏移量作為運動向量被記錄下來,運動估計重構的區域的誤差被送到編碼器中編碼。
對於每一個8×8小塊,離散餘弦變換把圖像從空間域轉換到頻域。得到的變換係數被量化並重新組織排列順序,從而增加長零的可能性。之後做遊程編碼(run-length code)。最後作哈夫曼編碼(Huffman Encoding)。
I幀編碼是為了減少空間域冗餘,P幀和B幀是為了減少時間域冗餘。
GOP是由固定模式的一系列I幀、P幀、B幀組成。常用的結構由15個幀組成,具有以下形式IBBPBBPBBPBBPBB。GOP中各個幀的比例的選取和頻寬、圖像的質素要求有一定關係。例如因為B幀的壓縮時間可能是I幀的三倍,所以對於計算能力不強的某些即時系統,可能需要減少B幀的比例。
MPEG-2輸出的位元流可以是勻速或者變速的。最大位元速率,例如在DVD應用上,可達10.4 Mbit/s。如果要使用固定位元速率,量化尺度就需要不斷的調節以產生勻速的位元流。但是,提高量化尺度可能帶來可視的失真效果。比如馬賽克現象。
音頻編碼
MPEG-2的音頻編碼包括:
MPEG-2在DVD上的應用
DVD中採用了MPEG-2標準並引入如下技術參數限制:
- 解像度
- 縱橫比
- 4:3
- 16:9
- 幀率(幀播放速度)
- 59.94場/秒,23.976幀/秒,29.97幀/秒(NTSC)
- 50場/秒,25幀/秒(PAL)
- 視頻+音頻位元速率
- 平均最大緩衝區9.8 Mbit/s
- 峰值15 Mbit/s
- 最小值300 Kbit/s
- YUV 4:2:0
- 字幕支援
- 內嵌字幕支援(NTSC only)
- 音頻
- LPCM編碼:48kHz或96kHz;16或24-bit;最多可達6聲道
- MPEG Layer 2(MP2):48 kHz,可達5.1聲道
- 杜比數碼-Dolby Digital(DD,也稱為AC-3):48 kHz,32-448 kbit/s,可達5.1聲道
- 數碼家庭影院系統-Digital Theater Systems(DTS):754 kbit/s或1510 kbit/s
- NTSC格式DVD必須包含至少一道LPCM或Dolby Digital
- PAL格式DVD必須包含至少一道MPEG Layer 2、LPCM或者Dolby Digital
- GOP結構
- 必須為GOP提供序列的頭資訊
- GOP最大可含幀數目:18(NTSC)/15(PAL)
MPEG-2在DVB下應用
DVB-MPEG相關技術參數:
- 標清電視(SDTV)必須符合以下一種解像度:
- 720×480像素,24/1.001,24,30/1.001或30幀/秒
- 640×480像素,24/1.001,24,30/1.001或30幀/秒
- 544×480像素,24/1.001,24,30/1.001或30幀/秒
- 480×480像素,24/1.001,24,30/1.001或30幀/秒
- 352×480像素,24/1.001,24,30/1.001或30幀/秒
- 352×240像素,24/1.001,24,30/1.001或30幀/秒
- 720×576像素,25幀/秒
- 544×576像素,25幀/秒
- 480×576像素,25幀/秒
- 352×576像素,25幀/秒
- 352×288像素,25幀/秒
- 高清電視(HDTV)必須符合以下一種解像度:
- 720×576×50幀/秒逐行掃描(576p50)
- 1280×720×25或50幀/秒逐行掃描(720p50)
- 1440或1920×1080×25幀/秒逐行掃描(1080p25 = 電影模式)
- 1440或1920×1080×25幀/秒隔行掃描(1080i50)
MPEG-2和ATSC
- 必須符合以下一種解像度:
註:1080i按1920×1080像素編碼,但是最後8行在顯示時拋棄。
MPEG-2標準文件號碼
- ISO/IEC 13818-1:系統-描述視頻和音頻的同步和多路技術
- ISO/IEC 13818-2:視頻-視頻壓縮
- ISO/IEC 13818-3:音頻-音頻壓縮,包括多通道的MP3擴充。
- ISO/IEC 13818-4:測試規範
- ISO/IEC 13818-5:仿真軟件
- ISO/IEC 13818-6:DSM-CC(Digital Storage Media Command and Control)擴充
- ISO/IEC 13818-7:Advanced Audio Coding(AAC)
- ISO/IEC 13818-9:即時介面擴充
- ISO/IEC 13818-10:DSM-CC規範
- ISO/IEC 13818-11: IPMP on MPEG-2 systems
專利持有者
參見
參考資料
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.