Nén video số theo tiêu chuẩn MPEG-2

Một phần của tài liệu Hệ thống truyền hình số mặt đất (DVB-T) và một số giải pháp nâng cao chất lượng hệ thống (Trang 26)

Ảnh I (Intra-Picture): là ảnh được mã hoá riêng, sử dụng kỹ thuật nén trong ảnh, nhằm giảm bớt thông tin dư thừa trong miền không gian. Nén trong ảnh sử dụng cả hai quá trình có tổn hao và không có tổn hao để giảm bớt dữ liệu trong ảnh. Quá trình này không sử dụng thông tin của ảnh trước và sau ảnh đang xét. Quá trình thực hiện nén

ảnh I là loại bỏ các thông tin dư thừa trong ảnh. Chủng chứa tất cả các thông tin cần thiết để tái tạo lại ảnh sau giải mã. Vì mang đầy đủ các thông tin cho quá trình tái tạo lại ảnh nên tỉ lệ nén đạt được rất thấp.

Hình 2.2: Quá trình giảm dữ liệu thực hiện với ảnh I

• Tạo block và macro block

ở khối đầu, cả ảnh được chia thành các tổ hợp khối riêng biệt (macroblock).

Macroblock bao gồm 4 khối (block) các mẫu (samples). Mỗi block có kích thước 8x 8

= 64 mẫu. Cấu trúc của macroblock phụ thuộc vào phương thức quét ảnh. Nếu quét liên tục thì các block bao gồm các mẫu từ các dòng liên tục. Ngược lại trong trường hợp quét xen kẽ, trong một block chỉ có các mẫu của một nửa ảnh.

• Biến đổi cosin rời rạc DCT

Giai đoạn 2 là quá trình biến đổi độc lập từng block bằng thuật toán DCT. Quá trình DCT xử ỉý giá trị các khối dữ liệu các pixel thành các khối hệ số trong miền tần số. Quá trình biến đổi DCT thuận cho quá trình mã hoá được xác định như sau:

F (u ,v )= C(u)1C(v) ỷ ỷ f(j,k )C o s(2i ; ' >UK.C os(2k; ' )v,t »•«)

4 jT oicto 16 16

áp dụng cho quá trình giải mã: biến đổi ngược

f ( j . k ) = i ỉ S C ( u ) C ( v ) F UjVC o s í ỉ i ^ . C o s í ? ! ^ (2.7) u=0v=0

-16-

F(u,v) - các hệ số của khối DCT 8x8

0 < u < 7 ,0 < V < 7

nếu u, V = 0 C(u), C(v) :

1 nếu u, V = 1, 2, 3.. ,7

Đối với hệ số thứ nhất u, V = 0 và được gọi là hệ số một chiều DC:

1 7 7

F ( 0 , 0 ) = ± x £ f ( j , k ) j=0 k=0

(2.8)

Hệ số DC có giá trị lổn, biểu diễn giá trị trung bình của khối 8x8 pixel, trong khi các hệ số AC có giá trị rất nhỏ thể hiện năng lượng tập trung ít ở các thành phần tần số cao theo chiều ngang và đứng. Hình 2.3 biểu diễn 3 chiều khối pixel gốc và các khối hệ sô' DCT.

Quá trình DCT không làm giảm tốc độ dữ liệu, từ 64 mẫu ta nhận được 64 hệ số.

Trong khối các mẫu f(j,k), giá trị các mẫu riêng được biểu diễn bằng các phân bố giống nhau về xác suất, có nghĩa là trong phạm vi một block về mặt thống kê các mẫu có giá trị gần giống nhau. Ngược lại trong khối các hệ số, phân bố xác suất các hệ số là khác nhau. Tín hiệu video biểu diễn bởi các mẫu f(j,k) được biểu diễn về mặt phổ tần tín hiệu theo các hệ số F(u,v).

F(u,v) ! % n í w * Jt C hiểu đọc cú» hĩnh in h îii^unging CÙ í htnh ini) chiéu đọc a- Các khối mẫu b- Các hệ số DCT

H ình 2.3 : Các khối mẩu và các hê SỐDCT Lượng tử hoá ị Quantizer )

Bước tiếp theo trong quá trình mã hoá ảnh loại I là lượng tử hoá các hệ số F(u,v). Các hệ số tương ứng với tần số thấp có các giá trị lớn hơn, và như vậy nó chứa phần năng lượng chính của tín hiệu, do đó phải lượng tử hoá với độ chính xác cao. Ngược lại, đối với các hệ số tương ứng với tần số cao và có các giá trị nhỏ, thì có thể biểu diễn lại bằng tập giá trị nhỏ hơn hẳn các giá trị cho phép hay !à lượng tử hoá ít mức hơn (thô hơn).

Lượng tử hoá được thực hiện bằng việc chia hệ số F(u,v) cho a(u,v) trong đó a(u,v) là bảng lượng tử hóa. Các hệ số có tần sô' thấp được chia cho các số nhỏ, ngược lại các hệ số tần số cao được chia cho các số lớn. Kết quả ta nhận được bảng F’(u,v) mới, trong đó phần lớn các hệ số có tần số cao sẽ bằng 0.

Trong quá trình này có xảy ra mất thông tin (không khôi phục lại được). Sau khi nhân các hệ số lượng tử hoá F’(u, v) với a(u, v) và biến đổi DCT ngược sẽ không nhận được block sơ cấp các mẫu f(j, k). Tuy nhiên nếu chọn được các giá trị a(u,v) thích hợp thì mắt người không phân biệt được giữa ảnh gốc và ảnh đã được mã hoá.

Quá trình lượng tử hoá các hệ số DCT là khâu nhạy cảm nhất trong hệ thống nén, nó tác động trực tiếp đến chất lượng hình ảnh khôi phục. Do độ nhạy của mắt người, quá trình lượng tử hoá thích nghi được áp dụng để giảm thiểu thông tin cần mã hoá, thực hiện bằng cách dùng bảng trọng số lượng tử xác định theo 3 thông số: tần số, thông số nhớ đệm, thông số về độ nhạy cảm của mắt nguời.

Quá trình thiết kế lựa chọn hệ số phụ thuộc vào môi trường ứng dụng như: độ trễ inã hoá thấp, mức độ phức tạp và giá thành thiết bị. Tiêu chuẩn MPEG đưa ra bảng trọng số lượng tử a(u,v) mặc định áp dụng cho ảnh I, p, B ( bảng 2.1).

Bàng 2.1. Ma trận lượng tử mặc định áp dụng cho ảnh 1,P,B Nén trong ảnh aj(u,v) 8 16 19 22 26 27 29 34 16 16 22 24 27 29 34 37 19 22 26 27 29 34 34 38 22 22 26 27 29 34 37 40 22 26 27 29 32 35 40 48 26 27 29 32 35 40 48 58 26 27 29 34 38 46 56 69 27 29 35 38 46 56 69 83 Nén liên ảnh aPB(u,v) 16 17 18 19 21 23 25 27 17 18 18 21 23 25 27 29 18 19 20 22 24 26 28 31 19 20 22 24 26 28 30 33 20 22 24 26 28 30 32 35 21 23 25 27 29 32 35 38 23 25 27 29 31 34 38 42 25 27 29 31 34 38 42 47 • Quét các hệ số DCT

Các hệ số DCT được lượng tử hóa, sau đó thực hiện quét zigzag hoặc quét lần lượt thay đổi. Cách quét lần lượt thay đổi (alternate) biến đổi mức pixel đến pixel theo chiều đứng của các ảnh gốc, cho kết quả giải tương quan tốt hơn . Hình 2.4 là hai cách quét các hệ số DCT.

Trong tiêu chuẩn nén MPEG-2: quét Zigzag được áp dụng cho hình ảnh quét liên tục ( ảnh frame). Kiểu quét lần lượt thay đổi ịalternate) được áp dụng cho các Block của hình ảnh quét xen kẽ ( ảnh Field).

ĐAI H Ọ C Q u ố c Gia ri, TRUNG TÁM THÔNG TIN THI' Vit

-18-

(a) Quét zigzag (b) Quét lần lượt thay đổi

Hình 2.4: Hai cách quét các hệ sốDCT

• Mã hoá độ dài chạy RLC và mã hóa độ dài thay đổi VLC

Giai đoạn cuối cùng mã hoá ảnh loại I là mã hoá entropy các hệ số đã được lượng tử hoá F’(u, v). Các hệ số DCT đã lượng tử hóa được mã hoá RLC và VLC. Trong quá trình mã hoá entropy, thực hiện việc nén sô' liệu qua các hệ số lượng tử.

Số mức lượng tử các hệ số F(u,v) quyết định mức nén. Sử dụng số mức càng ít, thì hệ số 0 càng nhiều và mức nén các entropi càng cao.

Bằng cách này ta nhận được ảnh có khác hơn so với ảnh gốc. Sự khác nhau này không làm ảnh hưởng nhiều đến chất lượng hình ảnh do khả năng nhận biết hạn chế của mắt. Quá trình giảm mức lượng tử sẽ đẫn đến hạn chế lượng thông tin ảnh được truyền, nhưng nếu giảm mức này quá lớn sẽ gây ra méo, có thể thấy được cấu trúc các block mà biểu hiện là ảnh bị phân chia thành nhiều ô.

Quá trình giải mã ảnh loại I dựa trên cơ sở thực hiện thuật toán ngược vói quá trình đã nói ở trên, sử dụng phép biến đổi DCT ngược.

• Bộ đệm (Buffer)

Từ mã VLC được tạo với tốc độ thay đổi, phụ thuộc vào mức độ phức tạp của ảnh, và được ghi vào bộ nhớ đệm. Dòng dữ liệu được đọc ra từ bộ nhớ đệm với tốc độ không đổi. Cơ chế điều khiển bộ nhớ đệm là đảm bảo bộ nhớ không dưới ngưỡng

(underflow) hoặc không tràn (overflow) bằng cách thay đổi hệ số thang độ (scanning factor) dùng cho bảng trọng số. Nếu bộ nhớ sắp đầy, thì sẽ lượng tử hóa thô hơn để tạo

ít bit hơn bằng cách tăng hệ số thang độ của bộ lượng tử, do vậy điều hoà được dòng bit đi vào bộ đệm.

2.2.2.2. Nén ảnh loại p (nén liên ảnh)

Các ảnh loại P(Predicted-Pỉcture)'. Là các ảnh dự đoán được mã hoá từ ảnh I hoặc ảnh p trước đó nhờ sử dụng các thuật toán dự đoán bù chuyển động (nén liên ảnh ).

Phương pháp dự đoán và bù chuyển động được sử dụng chính thông tin đang có để dự đoán trạng thái của thông tin tiếp theo của hình ảnh. Kết quả thu được lỗi dự đoán

hoặc phần thông tin khác biệt giữa thông tin hiện thời và thông tin dự đoán, và truyền sự khác biệt này. Như vậy chỉ cần truyền lượng thông tin nhỏ hơn (lỗi dự đoán) vì hình ảnh đã được truyền trước đó. Thiết bị giải mã chỉ cần xử lý cộng phần khác biệt đó và phần đã có để xử lý giải mã hình ảnh.

Nén ảnh p cho hệ sô nén cao hơn ảnh I và có thể sử dụng làm một ảnh so sánh cho việc bù chuyển động cho các ảnh p và B khác. Hình 2.5 mô tả nguyên lý đánh giá chuyển động và bù chuyển động cho ảnh loại p.

Hình 2.5: Đánh giá chuyển động

Quá trình dự đoán là tối ưu nếu kết quả sai sô' dự đoán là 0. Nhưng trong thực tế hình ảnh động là khó dự đoán trước, nhất là các hình ảnh động có độ phức tạp lớn, quá trình dự đoán lại bị hạn chế thời gian do đó không dự đoán được toàn bộ phần thông tin khác biệt. Khi đó, thiết bị nén sử dụng kỹ thuật bù chuyển động. Nếu tách được các chi tiết chuyển dịch giữa 2 hình (frame) kề nhau và dùng một vector chuyển động chỉ thị toạ độ các khối đã nén trong frame trước sẽ lặp lại trong frame đang xét tại tọa độ mới. Thông tin vectơ chuyển động và độ chênh lệch các hệ số DCT được truyền đồng thời đến bộ giải mã. Vị trí block được biểu diễn bằng vector biểu diễn sự dịch block này so với vị trí macroblock trong ảnh loại p. Vector này được gọi là vector chuyén động. Thuật toán trên lặp lại đối với tất cả các macroblock trong ảnh loại p. Kết quả ta nhận được các vector chuyển động cho mỗi macroblock, trên cơ sở đó có thể nhận được dự báo của ảnh đang xét, và như vậy thiết bị giải mã có thể giải mã như áp dụng ở quá trình dự đoán.

Để dự đoán chính xác thì cần so sánh từng pixel (phần tử nhỏ nhất của ảnh) của 2 ảnh liên tiếp. Nhưng nếu thực hiện như vậy thì ta lại phải truyền một số lượng đồ sộ các vector chuyén động. Nếu so từng vùng lớn thì chất lượng hình ảnh thấp. MPEG đã chọn vùng dự đoán bù chuyển động là 16x16 pixel (1 Macroblock).

Hình 2.6: ước lượng chuvển động và bù chuyển động dự đoán ảnh p

Mã hoá ảnh loại p dựa trên việc truyền các vector chuyển động và các mẫu ảnh chênh lệch. Trong hầu hết các trường hợp, phương pháp này cho phép nén số liệu với tỷ lệ nén lớn hơn phương pháp mã hoá ảnh loại I.

2.2.2.3. Nén ảnh B

Các ảnh B là ảnh dự đoán hai chiều (Bi-directionaì predicted picture) được mã hoá sử dụng phép nội suy giữa các ảnh I và ảnh p ở trước và sau đó (nén liên ảnh). Ảnh B không được sử dụng để mã hoá các ảnh tiếp theo. Các ảnh B cho tỉ lệ nén cao nhất.

Phương pháp mã hoá ảnh loại B cũng giống như phương pháp mã hoá ảnh p. Tuy nhiên điểm khác nhau là ở chỗ đối với mỗi macroblock ảnh loại B sẽ tìm các macroblock giống nhau của các pixel trong 2 ảnh trước và sau. Mỗi macroblock ta nhận được 2 vector chuyển động. Trong trường hợp này, ta sẽ có dự báo ảnh tốt hơn, và do đó mức độ nén sô' liệu sẽ cao hơn so với trường hợp các ảnh loại p.

Để tạo được ảnh loại B, bộ giải mã phải xác định nội đung của hai ảnh xác định chuẩn của nó (nội dung ảnh trước và ảnh sau) nên sẽ làm thay đổi thứ tự truyền các ảnh. Bộ mã hoá đầu tiên phải truyền cả hai ảnh chuẩn, sau đó mới truyền đến ảnh loại B. Vì thế bộ giải mã phải dùng bộ nhớ (để lưu trữ các ảnh chuẩn), ảnh B được mã hoá với số lượng bit ít hơn so với ảnh p, giải quyết tốt hơn cho quá trình dự đoán, cho ảnh khôi phục có SNR ( signal to noise ratio) tốt hơn. Tuy nhiên mã hoá và giải mã ảnh B phức tạp hơn, cần nhiều bộ nhớ và thời gian cho mã hoá, giải mã hơn cho ảnh p.

Đối với các macroblock (MB) nén liên ảnh, sai sô' dự đoán sẽ được biến đổi DCT, lượng tử hoá bằng cách chia cho ma trận lượng tử với hệ số thang độ lượng tử thích hợp. Sau đó các hệ số được quét để mã hoá RLC và VLC. Véc tơ chuyển động sẽ được mã hoá dự đoán DPCM, so với vectơ chuyển động của MB trước đó, rồi được truyền như một thông tin thứ cấp.

Điều khiển tốc độ bit

Hình 2.7: Sơ đổ khối quá trình mã hoá MPEG

2.2.3. Các đặc tính và mức (Profiles & Levels) Chuẩn nén MPEG-2 có 4 level và 5 Profile.

Khái niệm Level trong chuẩn nén MPEG-2 cho ta biết độ phân giải của ảnh, Profile là khái niệm cho biết cấp chất lượng bộ công cụ nén (thể hiên tỷ lệ lấy mẫu các tín hiệu video thành phần và tốc độ bit dữ liệu ). Trong thực tế ứng dụng, các nhà chế tạo đã chọn sẵn một số thoả hiệp giữa các mức Level và các Profile cho người sử dụng. Điểm khác nhau chính của các Level và các Profile trong chuẩn MPEG-2 với các thông số cấu trúc lấy mẫu, độ phân giải, tốc độ bit cực đại và các ảnh mã hoá được mô tả trong bảng 2.2.

Giữa các Profile có sự tương thích cao dần, nghĩa là các bộ giải mã của các Profile cấp cao hơn có khả năng giải mã tất cả các Profile ở cấp đó và các cấp thấp hơn. Kết hợp giữa các Profile và các Level ta có các tốc độ bit với độ phân giải khác nhau, và một sự kết hợp quan trọng nhất giữa Profile và Level đó là Main Profile và Main Level. MPEG-2MP@ML đã được sử dụng trong các ứng dụng phát sóng truyền hình số với chuẩn lấy mẫu 4:2:0 và độ phân giải 720x480@30Hz hay 720x576@25Hz , ảnh mã hoá là các ảnh I, B và p.

Bảng 2.2: Các Profile và Level MPEG-2 HIGH 4:2:0 1920x1152 80 Mb/s I.P.B HIGH- 1440 4 : 2 : 0 1440x1152 60 Mb/s I.P.B MAIN A * . fV "720 X 576 •>.'.■*’■7^1 s ;■ (VI h/* jî • '■:y ' Si L O W 4: 2: 0 352 X 288 4 Mb/s l,P,B LEVELS

PRO FILE SIMPLE MAIN 4:2:2

PR O FIL E 4:2:0,4:2:2 1920x1152 100 Mb/s I,P,B 4 : 2 : 0 1440x1152 60 Mb/s 1,P,B 4:2:0,4:2:2 1440x1152 80 Mb/s I,P,B 4 : 2 : 0 720 X 576 15 Mb/s I .P .B 4:2:0,4:2:2 720 X 576 20 Mb/s I , P , B 4: 2 :0 352 X 288 4 Mb/s I.P.B SNR SPATIAL HIGH

Tuỳ theo sự thoả hiệp giữa tốc độ bit và chất lượng ảnh đã được truyền đi, tô'c độ bit của dòng truyền tải nói chung sẽ đạt được giữa 4Mbps (cho chất lượng tương đương với PAL hay NTSC) và lOMbps (cho chất lượng hình ảnh tương đương studio theo khuyến nghị ITU-Re. 601).

2.2.4. Nén Audio

Tiêu chuẩn nén audio MPEG-1 (ISO/IEC 11172-3) thường được biết dưới tên MUSICAM gồm 3 lớp mã hóa I, II, III tương ứng với hiệu quả nén và độ phức tạp tăng dần, được ứng đụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong Phát thanh- Truyền hình. Tiêu chuẩn nén audio MPEG-2 (ISO/IEC 13818-3) là bước phát triển mở rộng dựa trên cơ sở MPEG-1. Phương thức nén Dolby AC3 ứng đụng trong HDTV số cũng là biến thể từ Audio MPEG-2. Đối với lĩnh vực truyền hình tiêu chuẩn MPEG-2 có ưu điểm nổi bật là đảm bảo khả năng đồng bộ giữa audio và video sau khi phân kênh và giải nén. Đặc tính kỹ thuật của audio MPEG-1 và MPEG-2 được tóm tắt trong bảng 2.3.

Bảng 2.3 : Đặc tính kỹ thuật của audio MPEG-ỉ và MPEG-2

Đặc tính MPEG-1 MPEG-2

Độ phân giải 16 bit 16 bit - 24 bit

Tần số lấy mẫu 48 44,1 32 (Khz) 48 44,1 32 24 22,05 16 Khz Tốc độ bit Tự do và có thể lên đến

448 Kbps

Tự do và có thể lên đến 256 Kbps Số lượng kênh Lên đến 2 kênh với các

mode: mono, stereo, dual

Một phần của tài liệu Hệ thống truyền hình số mặt đất (DVB-T) và một số giải pháp nâng cao chất lượng hệ thống (Trang 26)