Sơ đồ khối hệ thống nén ảnh sử dụng công nghệ “mã hoá chuyển đổi” như
sau: Các tín hiệu chói Y và màu (CR, CB) được đưa vào bộ định dạng khối
(block). Một Macroblock gồm hai khối Y và hai khối tín hiệu màu CR, CB . Đầu ra bộ định dạng khối, các mẫu điểm sẽ được sắp xếp thành các khối 8 × 8. Bốn khối (hai khối Y và hai khối màu CR, CB) tạo nên một khối Macroblock (MB). Các MB sẽ được sử lý tương tự , mã hoá độc lập với nhau. Các MB điểm ảnh được chuyển đổi sang vùng tần số cao bằng bộ chuyển đổi cosin rời rạc DCT.
Khối hệ số DCT được lượng tử hoá và mã hoá theo mã RLC và VLC. Bộ lương tử hoá sẽ chịu sự tác động của 4 yếu tố sau:
Trọng số của bảng HVS.
Sự phân loại năng lượng khối.
Tín hiệu điều khiển chiếm cứ bộ nhớ.
Khối ID.
Để cho bước lượng tử phù hợp với từng hệ số DCT. Block ID (Identification block) là các khối điểm cho phép tín hiệu chói và màu được lượng tử hoá độc lập với nhau… Do tốc độ dòng bit mã hoá thay đổi nên cần phải sử dụng bộ nhớ đệm để giữ cố định tốc độ dòng bit đầu ra.
Hình 3.7: Nén ảnh theo công nghệ Transform Coding. Khối 8x8 các điẻm chói 98 92 95 80 75 82 68 50 97 91 94 79 74 81 67 49 96 89 92 77 72 79 65 47 93 87 90 75 70 77 63 45 91 85 88 73 68 75 31 43 89 83 86 71 66 73 59 41 87 81 84 69 64 71 57 39 85 79 82 67 62 69 56 37 591 106 -18 28 -34 14 18 3 35 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 40 10 -2 2 -1 0 0 0 3 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 25 0. 10 0. 3 2. 2 0. 2 7. -1 EOB 1110 11001 1011 1010 01 11 11111000 01 01 01 11111001 0 1010 Các hệ số biến đổi DCT
Khối DCT được lượng
tử RLC VLC
Tạo định dạng khối và cấu trúc
khối
DCT Lượng
tử hóa zic-zắcQuét RLC VLC Bộ đệm
Bảng trọng số Bảng huffman DCT Mã DPCM hệ số DC Điều khiểnđệm Xác định khối Phân lớp năng lượngkhối Dòng tín hiệu nén Y CR CB
VLC RLC Quét zigzac ngược Giải lượng
tử hoá IDCT Giải định dạng Block và Macroblock Bảng mã Huffman Bảng trọng số HVS Giải mã DPCM hệ số DC
Hình 3.8: Giải mã DCT
3.3. Sự kết hợp các công nghệ nén.
Nếu sử dụng một cách tách biệt, không có công nghệ nén nào có khả năng tạo một quá trình nén có dòng bit ra tốc độ thấp mà vẫn đảm bảo chất lượng ảnh đạt yêu cầu. Bởi vậy mọi cách thức hiện nay đều là sự kết hợp chuẩn xác giữa các công nghệ nén. Sự kết hợp nay sau đó được chuẩn hoá trở thành các tiêu chuẩn nén: JPEG, JBIG, MPEG.
Có thể hiểu một cách đơn giản, kết hợp các công nghệ nén là tạo ra một quá trình nén nhiều bậc nhằm đạt được hiệu suất nén cao.
Tiêu chuẩn nén phổ biến hiện nay là MPEG, sử dụng kết hợp hai công nghệ nén: “điều xung mã vi sai” DPCM và “mã hóa chuyển đổi” (tranform coding).
Sự kết hợp này còn được gọi là “DPCM/DCT cân bằng” (Hybrid DPCM/DCT).
Sơ đồ khối quá trình nén như sau:
Σ1 Biến đổi DCT
Lượng
tử hoá Mã hoáVLC Ghép kênh
Giải lượng tử hoá Biến đổi DCT ngược Σ2 Trê cố định Ước lượng chuyển động Bù chuyển động VLC Khung Video vào Khung sai số dự báo Khung dự báo Vectơ chuyển động _ + +
Hình 3.9: Mã hoá DCT dự báo có bù chuyển động (Bộ mã hoá MPEG-2).
Đây chính là sơ đồ khối bộ mã hoá MPEG-2.
Quá trình nén như sau:
• Ảnh truyền đi được định dạng thành các khối 8 × 8 điểm ảnh. Các khối
này sẽ được xử lý độc lập với nhau.
• Trước tiên sử dụng công nghệ DPCM liên ảnh (interframe DPCM) có
bù chuyển động.
Như đã trình bày, trong công nghệ này thực hiện các quá trình sau:
- Sử dụng kỹ thuật tạo dự báo liên ảnh (interprediction) có bù chuyển động để tạo được khung dự báo rất tương đồng với khung hiện hành. - Tạo sai số dự báo là hiệu giữa khung hiện hành và khung dự báo có
bù chuyển động của nó. Khung sai số dự báo (predection error frame) có lượng thông tin rất thấp.
• Khung sai số dự báo sẽ được chuyển sang miền tần số bằng phép biến
đổi cosin rời rạc và tiếp tục được nén bằng công nghệ mã hoá chuyển đổi “transform coding” đã xét trong mục 2.2 và truyền sang phía thu.
• Vectơ chuyển động kết quả của quá trình ước lượng chuyển động sẽ
được ghép kênh với thông tin gửi bên thu phục vụ cho quá trình tạo dự báo cho bù chuyển động ở bên thu khi khôi phục ảnh .
• Bộ cộng ∑1 : Lấy tín hiệu giữa khung dự báo và khung hiện hành để
tạo khung sai số dự báo.
• Do quá trình ước lượng và bù chuyển động cũng như tạo dự báo cho
khung (n+1) cần sử dụng khung (n) và chính bản thân khung (n+1). Nên sai số dự báo của khung n đã chuyển đổi DCT và lượng tử hoá sẽ được khôi phục lại bằng dải lượng tử và chuyển đổi DCT ngược rồi cộng với dự báo khung n bằng bộ cộng ∑2 .
Kết quả khung n được phục hồi cùng khung n+1 đưa từ đầu Video vào được đưa tới bộ ước lượng chuyển động để so sánh, tính toán vecto chuyển động tạo khung dự báo n+1 .
• Toàn bộ phần nằm trong khối gạch rời chính là bộ dự báo (predictor) của công nghệ DPCM.
Bộ đệm dữ liệu đầu ra nhằm điều chỉnh tốc độ bit ra ổn định dù có sự biến thiên của tốc độ.
CHƯƠNG IV: NÉN VIDEO THEO TIÊU CHUẨN MPEG.
Các công nghệ nén ảnh “Điều xung mã vi sai - DPCM”, “Mã hó chuyển đổi – Transform Coding” và một số công nghệ nén khác được kết hợp với nhau nhằm tạo một cách thức nén ảnh có hiệu suất cao, chất lượng ảnh khôi phục tốt.
Sự kết hợp này được tiêu chuẩn hoá trong các tiêu chuẩn nén sử dụng hiện nay: JPEG, JBIG, MPEG.
4.1. Khái quát về các tiêu chuẩn nén.
Tại sao cần phải có các tiêu chuẩn nén?
Các tổ chức quốc tế đã tốn hàng triệu USD để phát triển các tiêu chuẩn nén. Như vậy, có thể thấy các tiêu chuẩn nén là cần thiết.
Hiểu một cách đơn giản, tiêu chuẩn nén cũng như ngôn ngữ chính thống của một đất nước. Quốc gia đó có nhiều dân tộc với nhiều ngôn ngữ khác nhau. Nhưng để thuận lợi cho giao tiếp, cần một ngôn ngữ chính thống trên toàn lãnh thổ. Như vậy, chìa khoá ở đây là sự dễ dàng trong giao tiếp. Chúng ta cần các tiêu chuẩn nén để thuận tiện trao đổi giữa các hệ thống khác nhau.
Vậy tại sao cần có nhiều tiêu chuẩn nén.
Câu trả lời thật đơn giản: Chúng ta cần có nhiều ứng dụng đòi hỏi nhiều tiêu chuẩn khác nhau. Không có bất cứ một tiêu chuẩn nén nào có thể đáp ứng được tất cả các yêu cầu ứng dụng đó.
Các tiêu chuẩn nén gồm hai mức: Mức quốc gia và mức quốc tế.
• Ở mức quốc gia có: ANSI (American National Standard Institute)
AIIM (Associantion of Image and Information) tại Canada có nhiều tổ chức tiêu chuẩn của Canada.
• Ở mức quốc tể có: ISO (Inernational Standards Organization)
IEC (International Electrotecchnical Commission) ITU (Iternational Teleccommunication Union) Và một số tổ chức khác.
Các tiêu chuẩn nén với ứng dụng của chúng được khái quát trong bảng sau đây:
Bảng khái quát các tiêu chuẩn nén.
Chuẩn Phạm vi ứng dụng CCITT T.4 CCITT T.6 JPEG JBIG CCITT H.261 MPEG - 1 MPEG - 2 MPEG - 4 Fax, ảnh dữ liệu. Fax, ảnh dữ liệu ảnh. Fax, ảnh dữ liệu. điện thoại hình. ảnh, lưu trữ dữ liệu số (DSM). ảnh, HDTV, DSM.
Truyền thanh thông thường, quảng bá, cảm nhận từ xa
Trong số đó, sử dụng phổ biến và có phạm vi ứng dụng rộng rãi là MPEG (Moving Picture Experts Group).
• Chuẩn nén MPEG: MPEG là một chuỗi các chuẩn bao gồm: MPEG -1,
MPEG -2 và MPEG -4 là sự phát triển và mở rộng từ MPEG -1.
- MPEG -1 còn được gọi là tiêu chuẩn ISO/IEC 11172 là tiêu chuẩn nén audio và video với tốc độ khoảng 1.5 Mb/s.
- MPEG -2 nén tín hiệu video và audio với một dải tốc độ bit từ 1.5 tới 60Mb/s.
Tiêu chuẩn này còn được gọi là chuẩn quốc tế ISO/IEC 13818, là chuẩn nén ảnh động và âm thanh. Nó cung cấp một dải các ứng dụng như: lưu trữ dữ liệu số, truyền hình quảng bá và truyền thông.
- MPEG -4 là sự kết hợp cung cấp cho rất nhiều ứng dụng truyền thông, truy cập , điều khiển dữ liệu âm thanh số như: Điện thoại hình, thiết bị đầu cuối đa phương tiện (muntimedia), thư điện tử và cảm nhận từ xa. MPEG -4 cho khả năng truy cập rộng rãi và hiệu suất nén rất cao.
4.2. Nén video theo MPEG -1.
Tiêu chuẩn MPEG -1 gồm 4 phần: phần 1: hệ thống (ISO/IEC 11172-1). Phần 2: Nén video (ISO/IEC11172-2). Phần 3: Nén audio (ISO/IEC 11172-3)
Phần 4: Kiểm tra (ISO/IEC 11172-4)
MPEG -1 nghiên cứu cách thức ghép nối một hoặc vài dòng dữ liệu chứa thông tin thời gian để hình thành nên một dòng dữ liệu. Nó cung cấp qui tắc cú pháp đồng bộ hoá quá trình phát lại cho một dải ứng dụng video rộng.
MPEG -1 coi ảnh chuyển động như dạng thức dữ liệu máy tính (gồm các điểm ảnh). Cũng như các loại dữ liệu máy tính (ảnh và văn bản), ảnh video chuyển động có khả năng truyền và cảm nhận nằng máy tính và mạng truyền thông. Chúng cũng có thể được lưu trữ trong các thiết bị lưu trữ số liệu như đĩa CD, đĩa winchester và ổ quang.
MPEG -1 cung cấp cả các ứng dụng đối xứng và không đối xứng:
- Trong ứng dụng không đối xứng và không đối xứng, ảnh được nén một lần, sau đó giải nén nhiều lần để truy cập thông tin, ví dụ trò chơi games.
- Trong ứng dụng đối xứng , quá trình nén và giải nén phải cân bằng
nhau. Ví dụ: điện thoại hình, thư điện tử.
Để đạt được hiệu suất nén cao mà vẫn giữ tốt chất lượng ảnh phục hồi, chuẩn MPEG -1 sử dụng cả công nghệ nén trong ảnh (Intraframe) và liên ảnh (Interframe) để loại bỏ được sự dư thừa không gian và thời gian.
Do MPEG -1 được phát triển cho lưu trữ dữ liệu số nên đòi hỏi có sự truy cập ngẫu nhiên (Random access). Cách thức mã hoá tốt nhất cho truy cập ngẫu nhiên là mã hoá Intraframe đơn thuần. Song do sự dư thừa thông tin về thời gian chưa được loại bỏ nên hiệu suất nén rất thấp. Do vậy trong tiêu chuẩn nén MPEG -1, có sự cân bằng giữa nén trong ảnh (Intraframe) và nén liên ảnh (Interframe) băng cách sử dụng các công nghệ sau đây:
- Bù chuyển động. - dự báo.
- Nội suy.
- Biến đổi cosin rời rạc. - Lượng tử hoá.
- Mã hoá có độ dài thay đổi (Huffman-VLC).
Tức là có sự kết hợp hai công nghệ DPCM và tranform Coding. Thuật toán nén MPEG –1 sử dụng bù chuyển động khối để giảm độ dư thừa thời và vectơ chuyển động cho mỗi khối kích thước 16 × 16 điểm ảnh.
Bù chuyển động được sử dụng cho cả dự báo nhân quả và không nhân quả.
• dự báo nhân quả tạo dự báo hiện hành từ ảnh trước đó.
• dự báo không nhân quả tạo dự báôch ảnh hiện hành dựa trên ảnh trong
quá khứ và cả tương lai.
Vòng lặp DPCM được sử dụng để tạo khung sai số dự báo. Sau đó, công nghệ chuyển đổi khung sai số này sang miền tần số để nén các hệ số nhờ lượng tử hoá và mã hoá Huffman trước khi truyền tải hay lưu trữ.
4.2.1. Các thành phần ảnh cơ bản trong chuẩn nén MPEG.
Các tiêu chuẩn MPEG cấu trúc dữ liệu dạng lớp. Bao gồm các thành phần cơ bản sau đây:
• Khối (Block): Là đơn vị cơ bản cho chuyển đổi DCT. Bao gồm 8 × 8
điểm ảnh tín hiệu chói hoặc tín hiệu màu.
• Khối Macro Block: Là nhóm các khối DCT tương ứng với thông tin
của một cửa sổ 16 × 16 điểm ảnh gốc. Có nhiều dạng Macro Block khác nhau phụ thuộc vào cấu trúc lấy mẫu được sử dụng.
Hình4.1:Cấu trúc Macroblock của các dạng lấy mẫu.
Phần đầu đề (Header) của Macroblock chứa thông tin phân loại (Y hay CB, CR) và vactơ bù chuyển động tương ứng.
1234 Y 56 CB 78 CR 1234 Y/G 5678 CB/B 9101112 CR/R 1234 5 CB 6 CR 1234 Y 5 CB 6 CR 4:2:2 Macroblock 4:4:4 Macroblock 4:2:0 Macroblock 4:1:1 Macroblock Y
• Lát (slice): Được cấu thành từ một hay một số MB liên tiếp nhau. Phần header của slice chứa thông tin về vị trí của nó trong ảnh và tham số quét lượng tử (quantized sanling factor). Kích cỡ của slice quyết định bởi mức bảo vệ lỗi cần có trong ứng dụng vì bộ giải mã sẽ bỏ qua slice bị lỗi. Hệ số một chiều DC được định vị tại điểm bắt đầu mỗi slice.
• Ảnh : Lớp ảnh cho bên thu biết về loại mã hoá khung I, P, B. Phần
header mang thứ tự truyền tải của khung để bên thu hiển thị khung theo đúng thứ tự, ngoài ra còn có một số thông tin bổ sung như thông tin đồng bộ, độ phân giải và vectơ chuyển động.
• Nhóm ảnh (group of picture): Gồm cấu trúc các ảnh I,B và P. Mỗi
nhóm bắt đầu bằng ảnh I cung cấp điểm vào ra và tìm kiếm. Phần header chứa 25 bit thời gian và chế độ đièu khiển cho VTR và thông tin thời gian.
Hình 4.2: Các cấu trúc nhóm ảnh trong tiêu chuẩn MPEG.
Chuỗi video ( video sequence): Lớp chuỗi bao gồm phần header, một hoặc một số nhóm ảnh (picture group) và phần kết thúc chuỗi (Sequence End Code).
Thông tin quan trọng nhất của phần header là kích thước (dọc, ngang) của mỗi ảnh, tốc độ bit, tốc độ ảnh và dung lượng đì hỏi bộ đệm dữ liệu bên thu.
Thông tin chuỗi ảnh và phần header của chuỗi là dòng bit đã mã hoá, còn gọi là dòng video cơ bản.
F1 F2 F3 F4 F5 F6 F7 F8 F9 F1 0 I B B P B B P B B I Cấu trúc IBBPBBPBBI Các khung theo tiêu chuẩn CCIR601 Các khung nén I B I I B P I Cấu trúc IB P
Cấu trúc IBP Cấu trúc IP
Khối 8x8 điểm ảnh Khung Mảng 1 2 3 4 5 6 Nhóm ảnh 4 Y CB CR 1 2 5 6
Hình 4.3: Cấu trúc dòng dữ liệu Video MPEG.
Đoạn video thứ n-1 Đoạn video thứ n-1 Đoạn video thứ n-1
GOP #p GOP #p+1 GOP #p+2 GOP #p+3 GOP #p+4
Khung I Khung B Khung P Khung B Khung I
MB MB MB MB MB MB MB MB MB MB MB MB
Thuộc tính MB Y Y Y Y CR CB
Hệ số DCT EOB Khối 8x8 điểm chói
Thông tin đầu đoạn
Thông tin đầu nhóm ảnh
Thông tin đầu khung ảnh
Thông tin đầu mảng Thông tin kết thúc đoạn Vectơ chuyển động MB=Macroblock
Dòng số theo chuẩn CCIR 601
Hình 4.4:Cấu trúc số liệu nén ảnh MPEG
4.2.2. Sự phân loại ảnh MPEG.
Tiêu chuẩn nén MPEG định nghĩa 3 loại ảnh: ảnh I, ảnh B, và ảnh P.
4.2.2.1. Ảnh I: (Intra- Code Picture).
Các ảnh I được mã hoá theo mode intra để có thể giải mã mà không cần sử dụng dữ liệu từ bất cứ một ảnh nào khác. Đặc điểm của phương pháp mã hoá này như sau:
- Chỉ loại bỏ được sự dư thừa không gian.
- Dùng các điểm trong cùng một khung để dự báo. - Không có bù chuyển động.
- Các thông tin được mã hoá rõ ràng, minh bạch nên số lượng bit yêu cầu lớn.
Do được mã hoá Intra, ảnh I bao giờ cũng là ảnh đầu tiên trong một nhóm ảnh hay một chuỗi ảnh. Nó cung cấp thông tin khởi động các ảnh tiếp theo trong nhóm.
4.2.2.2. Ảnh P (Predictive Code Picture).
- Dự báo Inter một chiều.
- Ảnh dự báo được tạo ảnh tham chiếu trước đó (dự báo nhân quả). ảnh tham chiếu này có thể là ảnh I hoặc ảnh P gần nhất.
- Có sử dụng bù chuyển động. Thông tin ước lượng chuyển động của các khối nằm trong vectơ chuyển động (motion vectơ). Vectơ này xác