JVT(Joint Video Team,視頻聯合工作組)于 2001 年 12 月在泰國 Pattaya 成立。它由 ITU-T和 ISO 兩個國際標準化組織的有關視頻編碼的專家聯合組成。JVT 的工作目標是制定一個新的視頻編碼標準,以實現視頻的高壓縮比、高圖像質量、良好的網絡適應性等目標。目前 JVT 的工作已被 ITU-T 接納,新的視頻壓縮編碼標準稱為 H.264 標準,該標準也被 ISO 接納,稱為 AVC(Advanced Video Coding)標準,是 MPEG-4 的第 10 部分。
H.264 標準可分為三檔:
基本檔次(其簡單版本,應用面廣);
主要檔次(采用了多項提高圖像質量和增加壓縮比的技術措施,可用于 SDTV、HDTV 和 DVD 等);
擴展檔次(可用于各種網絡的視頻流傳輸)。
H.264 不僅比 H.263 和 MPEG-4 節約了 50%的碼率,而且對網絡傳輸具有更好的支持功能。它引入了面向 IP 包的編碼機制,有利于網絡中的分組傳輸,支持網絡中視頻的流媒體傳輸。H.264 具有較強的抗誤碼特性,可適應丟包率高、干擾嚴重的無線信道中的視頻傳輸。H.264 支持不同網絡資源下的分級編碼傳輸,從而獲得平穩的圖像質量。H.264 能適應于不同網絡中的視頻傳輸,網絡親和性好。
一、H.264 視頻壓縮系統
H.264 標準壓縮系統由視頻編碼層(VCL)和網絡提取層(Network Abstraction Layer,NAL)兩部分組成。VCL 中包括 VCL 編碼器與 VCL 解碼器,主要功能是視頻數據壓縮編碼和解碼,它包括運動補償、變換編碼、熵編碼等壓縮單元。NAL 則用于為 VCL 提供一個與網絡無關的統一接口,它負責對視頻數據進行封裝打包后使其在網絡中傳送,它采用統一的數據格式,包括單個字節的包頭信息、多個字節的視頻數據與組幀、邏輯信道信令、定時信息、序列結束信號等。包頭中包含存儲標志和類型標志。存儲標志用于指示當前數據不屬于被參考的幀。類型標志用于指示圖像數據的類型。VCL 可以傳輸按當前的網絡情況調整的編碼參數。
二、H.264 的特點
H.264 和 H.261、H.263 一樣,也是采用 DCT 變換編碼加 DPCM 的差分編碼,即混合編碼結構。同時,H.264 在混合編碼的框架下引入了新的編碼方式,提高了編碼效率,更貼近實際應用。H.264 沒有繁瑣的選項,而是力求簡潔的“回歸基本”,它具有比 H.263++更好的壓縮性能,又具有適應多種信道的能力。H.264 的應用目標廣泛,可滿足各種不同速率、不同場合的視頻應用,具有較好的抗誤碼和抗丟包的處理能力。H.264 的基本系統無需使用版權,具有開放的性質,能很好地適應 IP 和無線網絡的使用,這對目前因特網傳輸多媒體信息、移動網中傳輸寬帶信息等都具有重要意義。盡管 H.264 編碼基本結構與 H.261、H.263 是類似的,但它在很多環節做了改進,現列舉如下。
1.多種更好的運動估計
高精度估計在 H.263 中采用了半像素估計,在 H.264 中則進一步采用 1/4 像素甚至 1/8 像素的運動估計。即真正的運動矢量的位移可能是以 1/4 甚至 1/8 像素為基本單位的。顯然,運動矢量位移的精度越高,則幀間剩余誤差越小,傳輸碼率越低,即壓縮比越高。
在 H.264 中采用了 6 階 FIR 濾波器的內插獲得 1/2 像素位置的值。當 1/2 像素值獲得后, 1/4 像素值可通過線性內插獲得,對于 4:1:1 的視頻格式,亮度信號的 1/4 像素精度對應于色度部分的 1/8 像素的運動矢量,因此需要對色度信號進行 1/8 像素的內插運算。理論上,如果將運動補償的精度增加一倍(例如從整像素精度提高到 1/2 像素精度),可有0.5bit/Sample 的編碼增益,但實際驗證發現在運動矢量精度超過 1/8 像素后,系統基本上就沒有明顯增益了,因此,在 H.264 中,只采用了 1/4 像素精度的運動矢量模式,而不是采用 1/8 像素的精度。
多宏塊劃分模式估計。在 H.264 的預測模式中,一個宏塊(MB)可劃分成 7 種不同模式的尺寸,這種多模式的靈活、細微的宏塊劃分,更切合圖像中的實際運動物體的形狀,于是,在每個宏塊中可包含有 1、2、4、8 或 16 個運動矢量。
多參數幀估計。在 H.264 中,可采用多個參數幀的運動估計,即在編碼器的緩存中存有多個剛剛編碼好的參數幀,編碼器從其中選擇一個給出更好的編碼效果的作為參數幀,并指出是哪個幀被用于預測,這樣就可獲得比只用上一個剛編碼好的幀作為預測幀的更好的編碼效果。
2.小尺寸 4*4 的整數變換
視頻壓縮編碼中以往的常用單位為 8*8 塊。在 H.264 中卻采用小尺寸的 4*4 塊,由于變換塊的尺寸變小了,運動物體的劃分就更為精確。這種情況下,圖像變換過程中的計算量小了,而且在運動物體邊緣的銜接誤差也大為減少。
當圖像中有較大面積的平滑區域時,為了不產生因小尺寸變換帶來的塊間灰度差異,H.264 可對幀內宏塊亮度數據的 16 個 4*4 塊的 DCT 系數進行第二次 4*4 塊的變換,對色度數據的 4 個 4*4 塊的 DC 系數(每個小塊一個,共 4 個 DC 系數)進行 2?2 塊的變換。H.263 不僅使圖像變換塊尺寸變小,而且這個變換是整數操作,而不是實數運算,即編碼器和解碼器的變換和反變換的精度相同,沒有“反變換誤差”。
3.更精確的幀內預測
在 H.264 中,每個 4?4 塊中的每個像素都可用 17 個最接近先前已編碼的像素的不同加權和來進行幀內預測。
4.統一的 VLC
H.264 中關于熵編碼有兩種方法。
統一的 VLC(即 UVLC:Universal VLC)。UVLC 使用一個相同的碼表進行編碼,而解碼器很容易識別碼字的前綴,UVLC 在發生比特錯誤時能快速獲得重同步。內容自適應二進制算術編碼(CABAC:Context Adaptive Binary Arithmetic Coding)。其編碼性能比 UVLC 稍好,但復雜度較高。
三、性能優勢
H.264 與 MPEG-4、H.263++編碼性能對比采用了以下 6 個測試速率:32kbit/s、10F/s 和 QCIF;64kbit/s、15F/s 和 QCIF;128kbit/s、15F/s 和 CIF;256kbit/s、15F/s 和 QCIF;512kbit/s、30F/s和 CIF;1024kbit/s、30F/s 和 CIF。測試結果標明,H.264 具有比 MPEG 和 H.263++更優秀的 PSNR性能。H.264 的 PSNR 比 MPEG-4 平均要高 2dB,比 H.263++平均要高 3dB。
四、新的快速運動估值算法
新的快速運動估值算法 UMHexagonS(中國專利)是一種運算量相對于 H.264 中原有的快速全搜索算法可節約 90%以上的新算法,全名叫“非對稱十字型多層次六邊形格點搜索算法”(Unsymmetrical-Cross Muti-Hexagon Search)”,這是一種整像素運動估值算法。由于它在高碼率大運動圖像序列編碼時,在保持較好率失真性能的條件下,運算量十分低,已被 H.264 標準正式采納。ITU 和 ISO 合作發展的 H.264(MPEG-4 Part 10)有可能被廣播、通信和存儲媒體(CD DVD)接受成為統一的標準,最有可能成為寬帶交互新媒體的標準。我國的信源編碼標準尚未制定,密切關注H.264 的發展,制定我國的信源編碼標準的工作正在加緊進行。H264 標準使運動圖像壓縮技術上升到了一個更高的階段,在較低帶寬上提供高質量的圖像傳輸是H.264 的應用亮點。H.264 的推廣應用對視頻終端、網守、網關、MCU 等系統的要求較高,將有力地推動視頻會議軟、硬件設備在各個方面的不斷完善。