Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa phương tiện
4.1 Các chuẩn mã hóa tín hiệu thoại
Phần này tập trung chủ yếu vào giới thiệu văn tắt sự hình thành và phát triển các tiêu chuẩn của mã hoá Một kỹ thuật được xem như là phố biến khi và chỉ khi nó là một phần
của tiêu chuẩn Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông
tin liên lạc và cho phép những người quan tâm có thê sử dụng và phát triển sản phẩm và
các dịch vụ dựa trên các cùng một tham chiếu
Một tiêu chuẩn được phát triển bởi một đội ngũ các chuyên gia thông qua một
quãng thời gian dài, với việc thử nghiệm rộng rãi và đánh giá lặp đi lăp lại nhiều lần để
đảm bảo rằng một tập hợp các yêu cầu được đáp ứng Chỉ có các tổ chức với nguồn lực
lớn mới có thể tổ chức và thực hiện được những công việc khó khăn, phức tạp này Thời gian cần thiết để hoàn thành một tiêu chuẩn kể từ khi bắt đầu cho đến kết thúc khoảng 4.5
năm
Điêu này không có nghĩa một tiêu chuân không có lôi hoặc không thê cải tiên
thêm được nữa Trên thực tê một tiêu chuân mới thường xuất hiện như là sự cải tiên của
các chuân đã có trước đó và phù hợp với các ứng dụng trong tương lai
Một sô các tô chức chuân hóa liên quan đên mã hóa tín hiệu thoại được giới thiệu sau đây:
e© Liên minh viễn thơng quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU qTU-T) chịu trách nhiệm xây dựng các chuân liên quan đên mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gôm cả mạng không dây và cô định
e Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Ky (ANSI) TIA thành công trong việc phát triển các tiêu chuẩn cho điện thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian — TDMA và đa truy nhập phân chia theo mã - CDMA
e© _ Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tô chức chính của các nhà sản xuất thiết bị viễn
thong ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất
trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới
Trang 2Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
e Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuân của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự
® Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR
Bảng 4.l dưới đây mô tả van tắt các chuân mã hóa thoại:
Các chuân | vym Thuật toán Tốc độ Ung dung | MOS | Delay
Trang 3Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
4.2 Các chuẩn mã hóa âm thanh
4.2.1 Các chuẩn mã hóa âm thanh ISO/MPEG
Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén
âm thanh và hình ảnh Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh và hình ảnh cho các phương tiện lưu trữ số bao gm CD-ROM, DAT, dia quang tir
MO và ỗ cứng máy tính
MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên
nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-I1,
MPEG-2 và MPEG-4 MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC
JTC1 SC29 WG11
ISO _ : International Organization for Standardization IEC _ : International Electro-technical Commission JTC1 : Joint Technical Committee 1
SC29 : Sub-committee 29
WG11: Work Group 11 (moving picture with audio)
MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II va Layer III theo
mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít) của bộ mã hóa Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa
là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tat cả các Layer thấp hơn N
Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã Tất cả các Layer sử dụng cùng câu trúc Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận
thức hay chuyên đôi mã hóa băng phụ theo nhận thức Bộ mã hóa phân tích thành phân phố của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận
để xác định mức nhiễu có thể nghe thấy Trong giai đoạn lượng tử hóa và mã hóa, bộ mã
hóa sẽ cô gắng để chỉ rõ số bít đữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng
che lấp Bộ giải mã đơn giản hơn, nhiệm vụ chính là tông hợp tín hiệu âm thanh từ các thành phần phố được mã hóa
Tất cả các Layer:
e Ding chung cau tric bé loc dai- filerband
e Ding chung théng tin cua phan dau- header information trong dòng dữ liệu e Déucé kha nang nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cau tric
dòng bít với các phần nhạy với lỗi bite (“header”, “bit location”, “scale factor”, “side information”) và các phân ít nhạy hơn (dữ liệu về các thành phan pho “data of spectral components”)
Trang 4Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
e Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng đữ liệu âm
thanh
e C6 thé str dung tan s6 lay mau 14 32,44.1 hodc 48 kHz e© _ Cho phép hoạt động với các dòng bít giống nhau
Danh sách các chuẩn MPEG:
- MPEG-I1(S 11172,10,92): Mã hóa các ảnh chuyên động và âm thanh kèm theo các phương tiện lưu trữ số với tốc độ đến khoảng 1.5 Mbit/s
e Ba phan dau được chuẩn hóa từ năm 1992
e IS-11172-1 (“Hệ thống”) mô tả đồng bộ và ghép kênh của các tín hiệu video và âm thanh
® [IS-II172-2 (“Video”) mơ tả nén các tín hiệu video, chú trọng vào các tín hiệu progressive scan video, chủ yếu cho các ứng dụng “Video on CD”
e IS-11172-3 (“Âm thanh”) mô tả hệ mã hóa âm thanh chung, với các thành viên tương thích theo kiểu cấu trúc thứ tự (Layer I, II, II)
e IS-11172-4 mô tả các quá trình xác định các thông số của dòng dữ liệu được mã hóa và quá trình dải mã và cho sự thích ứng với yêu cầu thử nghiệm theo yêu câu đặt ra trong các phần khác
® DTR-11172-5 báo cáo kỹ thuật về phần mềm ứng dụng của ba phan MPEG -1,
-MPEG-2 (IS 13818, 11-97): dic diém chung của mã hóa hình ảnh chuyên động và âm thanh theo, chú trọng đến chuẩn video chung, các phần âm thanh mở rong
-MPEG-2 AAC: nén một tín hiệu âm thanh kênh 5.1 vào trong một tốc độ tối thiêu
là 320 Kbps Định dạng 5.1 đề cập đến năm kênh tín hiệu âm thanh cùng với tác dụng của một kênh tăng cường tân số thấp có băng thông giảm
-MPEG-4 (CD — 14496, 11-97): mã hóa các đỗi tượng nghe nhìn, chú trọng đến
các nội dung linh hoạt và mở rộng- là cơ sở cho các chương trình nghe nhìn tương hỗ 4.2.2 Doby AC-3
Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyền hình chất lượng cao HDTV ở nước Mỹ AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luéng bit 384 Kbps Giai doan dau tiên của bộ giải mã hoá AC-3 là lay 512 mau đầu vào và áp dụng biến đổi MDCT Đề tiết kiệm dải động, thì sau đó nó chia các thành phân tần số đầu ra thành các hàm loga và hàm mũ Các giá trị này sau đó được lượng tử hoá được kết hợp với các
kênh khác và được đóng thành các khung để truyền di
Trang 5Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số Tiêu đề đầy đủ của nó là định dạng truyễn nối tiếp cho hai kênh â âm thanh số tuyến tính tương ứng Theo thuật ngữ đơn giản mà có nghĩa nó là âm thanh nối và không nén AES-3 là một sự phát triển chung của Hiệp hội kỹ sư âm thanh - AES (Audio Enginecring Society) và Liên minh phát sóng quảng bá châu Au - EBU (European Broadcasting Union) Tieu chuẩn này dựa trên cân bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đến 100 mét Ba tốc độ
lây mẫu được hỗ trợ là 32, 44.1 và 48 KHz
4.3 Các chuẩn nén ảnh JPEG 4.3.1 Chuẩn JPEG
JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982 Năm 1986, JPEG chinh
thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU Đến năm 1994, JPEG
được khăng định với tiêu chuẩn ISO 10918-1
JPEG là định dạng nén ảnh có tốn thất Tiêu chuẩn này có có thê được ứng dụng
tone nhiều lĩnh vực: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera Nó còn có các định dạng mở rộng khác như jpg, jpeg, jpe, jfif va jif Ky thuat nay có ó thể đạt được hệ số nén hơn tám mươi lần so với ảnh gốc Tuy nhiên, hệ sô nén càng cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ khơng đạt hồn toàn như hình ảnh gốc
Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu Tuy nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá
tốt và ít tính toán hơn so với nén MPEG Nén JPEG có thể thực hiện bởi bốn mode mã hóa: mã hóa tuần tự, mã hóa lũy tiến, mã hóa không tôn thất và mã hóa phân cấp Mã hóa không tốn thất không sử dụng cho video động bởi vì tỉ lệ nén của nó không đủ cao Khai triển DCT duoc chọn là kĩ thuật then chốt trong JPEG vì nó cho ảnh nén chất lượng tốt nhất tại số bit thấp nhất và giải thuật chuyển đổi nhanh, dễ dàng thực hiện bằng phan cung
Định dạng nén JPEG được sử dụng trong tất cả máy ảnh kỹ thuật số có kích thước
rất nhỏ nên thường chụp được nhiều ảnh trên một thẻ nhớ, JPEG dễ hiển thị trên man hình, ảnh có thể chuyển nhanh qua thư điện tử (dung lượng từ 300KB đến 700KB), ảnh
JPEG chất lượng cao có dung lượng khoảng vài MB hay lớn hơn
Nén theo chuẩn JPEG là một tiến trình nhiều bước Trước hết là bước qui tắc hóa (regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế Ảnh màu được chuyên sang dạng YUV hoac CIELAB, trong do thông tin về độ chói (luminance) được tách rời với thông tin về độ màu (chrominance) Một yếu tố được tính tới là mắt người ta nhạy cảm với những thay đổi nhỏ về độ sáng hơn là những thay đổi về màu sắc, đặc biệt ở đầu xanh của phơ Ngồi ra cách làm này còn khai thác thực tế là ảnh thường có nhiều
vùng lớn tại đó các điểm kế nhau rất giống nhau về kênh màu
Trang 6Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Bước tiếp theo là lây mẫu cho các kênh màu (gọi là “downsampling” hoặc “chroma subsampling”) Đây là l trong 2 công đoạn làm mất thông tín và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của JPEG Lay mau (subsampling) nghĩa là loại bỏ có hệ thống các thông tín màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước Nếu bạn thực hiện cứ hai hàng loại bỏ một hàng
và hai cột loại bỏ một cột, bạn giảm được dữ liệu màu đi 75% Khi tời ảnh, trị của các
điểm loại bỏ trước đó được ngoại suy từ những gì còn lại
Bước tiếp theo, ảnh gốc được chia thành các khôi anh (block) nhỏ kích thước 8x8
không chông chéo lên nhau Tiếp theo, gia tri cua mỗi điểm ảnh ở mỗi khỗi khối ảnh sẽ được trừ đi 128 Lý do là do giá trị các điểm ảnh có giá trị từ 0 đến 255 (được mã hố bởi 8 bít khơng dấu), áp dụng biến đối DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến
+1023 (có thê được mã hoá bởi 11 bít có dau) Nhung hệ số DC lại có giải giá trị từ 0 đến
2040 (được ma hoa boi 11 bit khong dau) va can cach xu ly khac 6 phân cứng hoặc phân mềm so với các hệ số AC Chính vì thế việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi
biến đổi DCT cả các hệ số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu
diễn
Với mỗi khối ảnh hai chiều kích thước 8x8, áp dụng: biến đôi DCT dé tao ra mang hai chiều các hệ số biến đối Hệ số có tương ung voi tân số không gian thấp nhất nhưng lại có giá trị lớn nhất được gọi là hệ sô DC (một chiêu), nó tỉ lệ với độ chói trung bình của cả khối ảnh 8x8 Các hệ số còn lại gọi là các hệ số AC (xoay chiều) Theo lý thuyết, biến đối DCT không đem lại sự mat mát thông tin ảnh, mà đơn giản nó chỉ chuyên thông tin ảnh sang miễn không gian mới thuật lợi hơn cho mã hoá ở bước tiếp theo
Mang hai chiều các hệ số biến đối được lượng tử hoá sử dụng bộ lượng tử hóa tỉ lệ đồng nhất Nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc lập Quá trình lượng tử hoá là dựa trên sinh lý của hệ thống mắt người: cảm nhận hình ảnh có độ nhậy kém
hơn ở các hệ số tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp Vì thế các hệ số được chọn sao cho thực hiện lượng tử hố thơ đối với các hệ số tần số cao và lượng tử hoá tinh đối với các hệ số có tần số thấp Bảng lượng tử hoá được lây tỉ lệ để tạo ra các
mức nén thay đỗi tuỳ theo tốc độ bít và chất lượng ảnh Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặc biệt là ở tần số cao Quá trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính gây ra sự tốn hao nhưng lại là nhân tố chính đem lại hiệu suất nén
Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng 0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình Zigzag tạo thành mảng một chiều Cách sắp xếp này cho phép giảm thiêu năng lượng tôn hao trung bình và tạo ra day cac gia trị bang 0 liên tiếp Kiểu quét Z1gzag này cũng nhằm đặt các hệ số có tần số thập lên trước các hệ số có tần số cao Các hệ số này sẽ được mã hóa dựa trên bảng mã Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất
Trang 7Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
sai - DPCM Bước cuối cùng của quá trình nén là sử dụng mã hoa entropy chang han ma hoa Huffman cho cac AC va DC (sau khi đã mã hoá DPCM) đê tăng thêm hiệu quả nén cũng như giảm thiêu lỗi
Ở phía giải nén, luồng bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tu Mang hai chiêu các hệ số DCT kết quả sẽ được biên đôi IDCT rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con kích thước 8x8 Chú ý là bảng lượng tử hoá và mã hoá entropy ở cả phía nén và giải nén là đồng nhất Hai thành phần hiệu màu cũng được mã
hoá tương tự như thành phân chói ngoại trừ khác biệt là chúng được lây mẫu xuống hệ số 2 hoặc 4 ở cả chiều ngang và dọc trước khi biến đổi DCT Ở phía giải nén , thành phan màu sẽ được nội suy độ chói (Y) và hiệu mâu (U, V) thành R, G và B
Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:
Ảnh gỗc Chuyên thứ tự Giá trị điểm Biển đổi Lượng tử hoá
———| quét manh sang me anh try di 128 h` 2D-DCT x8 > tile cac block 8x8 Ma hoa DPCM cáchệsũDU |q_ 4+—————N _ Mahoa entropy
Dữ liệu ảnh dạng File Quét các hệ số
Trang 8Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh CHải lượng tử S DPCM hệ số DC Di liệu anh — nhận được hoặc can ———x+ Giaiméa entra con > Giải lượng từ từ đạng lưu trữ ay hoa Giải quét Zigzag cac hé số AC
Ảnh khỏi phục Chuyển đổi các Cũng giả trị Biển đủi 2D-
+ ——| lchúi 5xö thành moidiém anh Ff IDCT 8x8 thứ tự quét thêm 128 mảnh Hình 4.2: Sơ đồ quá trình giải nén theo chuẩn JPEG 4.3.2 Chuẩn JPEG-2000
Chuan JPEG ban dau da thu được sự đón nhận rộng rãi và hiện tại có mặt ở khắp
nơi thông qua các ứng dụng của máy tính: nó là khuôn dạng chính cho các ảnh chụp trong web toàn cầu và được sử dụng rộng rãi trong lưu trữ hình ảnh Hơn nữa, ảnh sô hóa ngày càng phố biến với người dùng và yêu cầu chất lượng ngày càng tăng lên, vì vậy các vẫn đề xử lý ảnh cũng tăng theo Nén hình ảnh không chỉ là làm giảm dung lượng lưu trữ và các yêu cầu băng thông, mà còn cho để nguyên phớp tách, ghép dé sáp xêp xử lý và đáp ứng các mục tiêu trên các ứng dụng và thiết bị cụ thể Ngoài ra, yêu cầu về hiệu suất nén tốt hơn với tỷ số nén cao đã dẫn tới sự phát triên chuẩn JPEG-2000
Hệ thông nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn han các chuẩn công nghệ JPEG truyện thông, cho dù JPEG-2000 không phải là một chuân mới hoàn toàn mà được phát triên từ các tiêu chuân đã có
Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các miền quan tâm, các thành phân và hơn nữa, tất cả chúng được đưa vào một dòng bit nén đơn Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cân thiết cho bất kỳ một
thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuân JPEG-2000 Tính tương thích này là một trong những ưu điểm nỗi trội mà các kỹ thuật xử lý JPEG truyền thống gặp rất
nhiều khó khăn
Trang 9Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
trong thê hiện biến đối hình ảnh Sơ đồ khối của quá trình nén và giải nén theo chuẩn JPEG-2000 mô tả ở hình 4.3 dưới đây: — — - Ảnh sau khi
Ảnh gốc Í %ữ lý trước Biến đôi Bien doi ma hoa biến đỏi thuän liên thuần riêng Mã hoá + L j \_thanh phan J thành phân / ` ) (a)
Anh mãhoác Giải mã hoá Giai lương từ hoá ngwoc riêng Bien do: ngược liên Bien doi Xử lý sau |£ành khỏi phục biến đổi hy)
" thành phần thành phần — (b)
Hình 4.3: Sơ đồ quá trình nén và giải nén theo chuẩn JPEG-2000
Bước 1: Xử lý trước biến đổi
Do sử dụng biến đổi Wavelet, JPEG2000 cân có đữ liệu ảnh đầu vào ở dạng đối
xứng qua 0 Xử lý trước biến đối chính là giai đoạn đảm bảo đữ liệu đưa vào nén ảnh có dạng trên Ở phía giải mã, giai đoạn xử lý sau biến đôi sẽ trả lại giá trị gốc ban đầu cho
dỡ liệu ảnh
Bước 2: Biến đối liên thành phần
Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh JPEG-2000
sử dụng hai loại biến đổi liên thành phân là biến đôi màu thuận nghịch (Reversible Color
Transform - RCT) va bién d6i mau khong thuan nghich (Irreversible Color Transform -
ICT) trong đó biến đôi thuận nghịch làm việc với các giá trị nguyên, còn biến đôi không
thuận nghịch làm việc với các giá trị thực ICT và RCT chuyên dữ liệu ảnh từ không gian màu RGB sang YCrCb RCT được áp dụng trong cả hai dạng thức nén có tôn thất và không tôn thất, còn ICT chỉ á áp dụng cho nén có tôn thất Việc áp dụng các biến đôi này trước khi nén ảnh không năm ngoài mục đích làm tăng hiệu quả nén Các thành phân Cr,
Cb có ảnh hưởng tất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y có ảnh hưởng tất lớn tới ảnh
Bước 3: Biến đổi riêng thành phan
Biến đối riêng thành phần được áp dụng trong JPEG-2000 chính là biến đổi Wavelet
Bước 4: Lượng tử hoá - Giải lượng tử hoá
Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá Quá trình lượng tử
hoá cho phép đạt tỷ lệ nén cao hon bằng cách thể hiện các giá trị biến đối với độ chính xác tương ứng cân thiết với mức chỉ tiết của ảnh cần nén Các hệ số biến đối sẽ được
Trang 10Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
lượng tử hoá theo phép lượng tử hố vơ hướng Các hàm lượng tử hoá khác nhau sẽ được áp dụng cho các băng con khác nhau và được thực theo biêu thức:
L | AX, V J⁄
TA sem Ù '(X.] } (4.1)
với 4 là bước lượng tử, U(+, y) là giá trị bang con dau vao; V(x, y) 1a giá trị sau lượng tử hoá Trong dạng biến đổi nguyên, đặt bước lượng tử bằng 1.Với dạng biến đôi thực thì bước lượng tử sẽ được chọn tương ứng cho từng băng con riêng rẽ Bước lượng tử của
mỗi băng do đó phải có ở trong dòng bít truyền đi để phía thu có thể giải lượng tử cho
ảnh Công thức giải lượng tử hoá là:
/(x.vì=)
Ulx.y)}= [PF (x.]Ì+?sgnÏ |x w lịA (4.2)
r là một tham số xác định dấu và làm tròn, các giá tri U(x, y); V(x, y) tuong img 1a cdc gid trị khôi phục và giá trị lượng tử hoá nhận được JPEG-2000 không cho trước r tuy nhiên
thường chọn z = 1/2
Bước 5: Mã hoá
JPEG-2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng nhiều
phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi Wavelet khác nhau để có thé thu được chất lượng ảnh tương ung với ứng dụng cần xử lý Điều này giúp cho JPEG- 2000 mém dẻo hơn nhiều so với JPEG Việc áp dụng các phương pháp mã hoá khác nhau cũng được mở rộng sang lĩnh vực nén ảnh động bằng biến đôi Wavelet Trong thực tế các phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đôi Wavelet cũng như JPEG-2000 thì có hai phương pháp được coi là cơ sở và được áp dụng nhiều nhất: phương pháp SPIHT và phuong phap EZW (Embedded Zerotree Wavelet Encoder)
JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kê so với JPEG Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất
là 2 lần so với JPEG Với tỷ số nén cao, chất lượng của hình ảnh giảm ít hơn Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu cầu lưu trữ trong quá
trình mã hóa và giải mã Một tác động khác của điều này là những hình ảnh có thê tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị
4.4 Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21 4.4.1 Tông quan về MPEG
_ MPEG (Moving Picture Expert Group) dugc ra doi vao nam 1988 nhằm mục đích
chuân hoá cho nén tín hiệu âm thanh và video Nén tín hiệu video theo chuân MPEG là
Trang 11Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
MPEG khong phai là một công cụ nén đơn lẻ mà ưu điểm của nén ảnh dùng MPEG chính là ở chô MPEG có một tập hợp các cơng cụ mã hố chuân, chúng có thê
được kêt hợp với nhau một cách linh động đê phục vụ cho một loạt các ứng dụng khác
nhau
Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiên xử lý
(Preprocessing), đoán trước sự chuyển động của cdc frame ở bộ mã hoá (temporal prediction), bù chuyên động ở bộ giải mã (motion compensation) và mã lượng tử hoá (quatisation coding) Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thơng tin khó mã hố nhưng không quan trọng cho sự cảm thụ của mắt người Kỹ thuật đoán chuyên động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ có nhiều khả năng giống với các Írame đứng ngay phía trước và ngay phía sau nó Các bộ mã hoá sẽ tiến hành quét lần lượt từng phân nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biét vị trí và hướng chuyên động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hién tai (motion compesated residual) va cac khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đối từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền
thêm một cách đêu đặn vào các vị trí trống trong ảnh được khôi phục
Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian
(spatial coding) và thời gian (temporal coding) Trong MPEG, việc loại bỏ dư thừa về
thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau
giữa các ảnh liên tiếp (Inter-frame techniques) Chúng ta có thể sử dụng tính chất này để tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó (“predicted”) Do vậy ở phía bộ mã hoá, ta chỉ cần gửi những bức ảnh có thay đổi so với những ảnh trước, sau đó ta lại dùng phương pháp nén vê không gian để loại bỏ sự dư thừa về không gian trong chính bức ảnh sai khác này Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques) JPEG chỉ áp dụng phương pháp nén theo không gian vì nó được thiết kế để xử lý và truyền các ảnh tĩnh Tuy nhiên nén tín hiệu theo phương pháp của JPEG cũng có thê được dùng để nén các bức ảnh một cách độc lập trong dãy tín hiệu video ứng dụng
này thường được gọi là JPEG động (Motlon JPEG) Trong một chu kỳ gửi một dãy các bức ảnh theo kiểu JPEG động, ảnh đầu tiên được nén nhờ sự loại bỏ độ dư thừa về không gian, sau đó các ảnh tiếp theo được nén nhờ sự loại bỏ độ dư thừa về thời gian (nén liên ảnh) Quá trình được lặp đi lặp lại cho một dãy các bức ảnh trong tín hiệu video
Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối anh 8x8
picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong cùng một bức ảnh Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc
tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa
Trang 12Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
các bức anh (Motion compesated prediction between frames) Trong nhiều sơ đồ nén MPEG, nguoi ta thường kêt hợp cả việc tiên đoán bù chuyên động theo thời gian và phép biên đôi thông tin theo không gian đê đạt hiệu quả nén cao (Hybrid DPCM/DCT coding of video)
Hâầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lây mẫu bố xung (Subsampling) và lượng tu hoa (Quantization) trudc khi ma hoa Lay mẫu bổ xung nhằm mục đích để làm giảm kích thước bức ảnh đầu vào theo cả theo chiều ngang và chiêu dọc, như vậy sẽ giảm số lượng các điểm ảnh trước mã hoá Cũng nên nhớ rằng trong một số trường hợp người ta còn lây mẫu bô xung theo thời gian để làm giảm số lượng các bức ảnh trong dãy
ảnh trước khi mã hoá Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư
thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ Thường thường, chúng ta có thé phân biệt sự thay đổi về độ sáng của ảnh (changes in Brightness) tốt hơn so với sự thay đối về màu (Chromaticity changes) Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành
chia bức ảnh thành các thành phần Y (độ chói) và U, V (các thành phân hiệu mẫu) Các tín hiệu video thành phan nay sé duoc lay mau (samples) va s6 hod (digitised) dé tao nén các điểm ảnh rời rạc theo tỷ lệ 4:2:2 và 4:2:0
Kỹ thuật tiên đoán bù chuyên động được sử dụng như là một trong những công cụ mạnh để làm giảm sự dư thừa về không gian giữa các bức ảnh Khái niệm về bù chuyên động là dựa trên sự phán đoán hướng chuyền động của các bức ảnh tức là các ảnh thành phân trong dãy video sẽ được thay thế gần đúng Kỹ thuật tiên đoán bù chuyên động giữa các bức ảnh được xem như là biện pháp đề hạn chế bớt các thông số của chuyền động bởi việc dùng các vector chuyên động để mô tả sự dịch chuyển của các điểm ảnh Kết quả
tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức
ảnh đã mã hoá được truyền phía trước của nó Cả hai thông số, sai số chuyển động (biên độ) và các vectors chuyên động (hướng chuyền động) đều được truyền tới phía bên nhận Tuy nhiên do có môi quan hệ tương quan chặt chẽ giữa các điểm ảnh về không gian (rùng về không gian), một vector chuyên động có thê được dùng cho một khối các điểm ảnh gồm các pixels lân cận nhau (MPEG -1 và MPEG -2 dùng các khối 16 x16 pixels)
4.4.2 Cầu trúc dòng bít
Đề tạo khả năng chống lỗi khi truyền tín hiệu qua kênh có nhiễu, bộ ước đoán phải
được xác lập lại (reset) thường xuyên và mỗi ảnh nén trong khung hay nén ước đoán
được phân đoạn thành nhiều lát nhỏ (slice) cho việc tái đồng bộ tại bộ giải mã phía thu
Cấu trúc dòng MPEG gồm 6 lớp: lớp dãy ảnh (sequence), lớp nhóm ảnh (GOP), lớp ảnh
(pictrue), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối (Block) Mỗi lớp này hỗ
trợ một chức năng nhất định: một là chức năng xử lý tín hiệu (DCT, bù chuyển động) hai
là chức năng logic (tái đồng bộ, điểm truy xuất ngẫu nhiên) Quá trình tạo ra dòng bit MPEG là ghép kênh: kết hợp các dòng dữ liệu vào, dòng dữ liệu ra, điều chỉnh đồng bộ
Trang 13Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
1 Khối: Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương
pháp nén DCT
2 Tổ hợp cấu trúc khối (macroblock): một câu trúc khối là một nhóm các khối tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh Câu trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo câu trúc mẫu được sử dụng Thông tin đầu tiên trong cấu trúc khối mang dạng của nó (là câu trúc khối Y hay Cr, Cb) và các vector bù chuyên động tương ứng
3 Mảng (Slice): mảng bao gồm một vài cau trúc khôi kề nhau Kích thước lớn
nhất của mảng có thé bao gom toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một cau truc khối Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số cân bằng lượng tử
4 Ảnh (Picture): lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải mã có thê sắp xếp các ảnh lại theo một thứ tự đúng Trong thông tin đầu của ảnh còn chứa các thông tin về đồng bộ, độ phân giải và phạm vi của vector chuyển động Trong MPEG, có 3 loại ảnh khác nhau được dùng đề mã hoá cho các khối ảnh:
e Kiéu anh ‘Intra’ (T-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về
không gian mà không có yếu tố thời gian tham gia vào quá trình I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã
e© Ảnh “Predictive' (P-pictures) có thê sử dụng các ảnh I hoặc P ngay sát phía trước
nó để bù chuyên động và chính nó cũng có thể được dùng để tham khảo cho việc
tiên đoán các ảnh khác tiếp theo Mỗi khối ảnh trong P-picture có thể hoặc được
mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (Intra-coded)
Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pIctures được tăng lên một cách đáng kê so với ]-pictures
e Anh ‘Bidirectionally-Predictive’ pictures hay B- Pictures cé thé str dung cdc anh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyên động và do vậy cho kết quả nén cao nhất Mỗi khối trong B-pictures có thê được tiên đoán theo chiều ngược,
xuôi, cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược từ một bức ảnh phía sau nó, bộ mã hoá sẽ tiễn hành sắp xếp lại các bức ảnh từ thứ tự
xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyện Do vậy từ đầu ra của bộ mã hoá, B- -pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp nhau được truyên
5 Nhóm ảnh (GOP): Cac anh I, P, B-pictures thuong xuất hiện theo một thứ tự lặp
đi lặp lại một cách tuân hoàn, do đó ta có khái niệm vê nhóm các bức ảnh GOP (Group of
Trang 14Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Pictures) Đối với chuẩn nén MPEG, chất lượng ảnh không những phụ thuộc vào tỷ lệ nén trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh GOP Nhóm ảnh là khái niệm cơ bản của MPESG, nó là đơn vị mang thông tin độc lập của MPEG GOP bắt
buộc phải bắt đầu bằng một ảnh I cho phép xác định điểm bắt đầu để tìm kiếm và biên tập (thông tin đầu gồm 25 bit chứa mã định thời và điều khiển) và tiếp sau nó là một loại
các ảnh P và B
Một ví dụ của GOP ở dạng ảnh tự nhiên xuất hiện theo thứ tự như sau:
B, Bz I; By Bs B7 Bg Po Bio Buy Piz
Thứ tự xuất hiện của chúng trên đường truyền bị thay đổi do sự sắp xếp lại của bộ mã hoá như sau:
I; Bị Bo Ps Ba Bs Po By Bs Pi Bio Bu
Cau tric của một GOP có thé được mô tả bởi hai tham số: N 1A s6 cdc anh trong
GOP va Xí là khoảng cách giữa các ảnh P-pIctures Nhóm GÓP này được miêu tả như NV = 12 vàM =3
6 Doan (chương trình) video: đoạn video bao gồm thông tin đầu, một số nhóm
ảnh và thông tin kết thúc đoạn Thông tin đầu của đoạn video chứa đựng kích thước mỗi chiêu của ảnh, kích thước của điểm ảnh, tốc độ bit của đòng video số, tân số ảnh và bộ đệm tối thiểu cần có Đoạn video và thông tin đầu tạo thành một dòng bit được mã hóa
goi la dong co ban (Elementary Stream) 2222 Khối điểm Y Cr Cb anh 8x8 (Block) Marcroblock i _ a Mang (Slice) Khung (Frame) S
Nhóm anh (Group Of Pitues) Hình 4.4: Cấu trúc dòng bit MPEG
NT
Trang 15
Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Thông tin Thông tin kết Dòng cơ số
đầu đoạn thúc đoạn
Đoạn video thứ n- Í Đoạn video thứ n Đoạn video thứ n+Ï Thông tin dau nhom anh GOP#p | | GOP#p:l GOP#p+2 || GOP#p+3 GOPip+4 Thông tin đầu khung ảnh Khung | Khung B Khung P Khung B Khung | Thông tin đầu mảng MB | MB | MB | MB | MB | MB | MB | MB | MB | MB | MB | MB | MB MB = Macroblock Vector chuyen vlylylyleœlc Thuộc tính MB động k Hệ số DCT | EOB | | | Khdi 8x8 điểm chói | | Hình 4.5: Kiến trúc dòng dữ liệu MPEG 4.4.3 Nguyên lý hoạt động
Hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại thời điểm
đang xét Quá trình nén theo chuan MPEG là sự kết hợp giữa nén trong ảnh và nén liên
ảnh Tín hieu đầu vào có dạng 4:2:2 hoặc 4:2:0 được nén liên ảnh nhằm tạo ra ảnh khác biệt ở đầu ra bộ cộng Ảnh khác biệt này sau đó được nén trong ảnh qua các bước: biến
Trang 16Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
đối DCT, lượng tử hóa, mã hóa Cuối cùng ảnh này được trộn cùng với vector chuyên
động đưa đên bộ khuyêch đại đệm sẽ thu được ảnh đã nén Ta xét ví dụ bộ nén theo
phương pháp trên, dùng ảnh [ và P trong câu trúc GOP (Hình 4.6)
Ảnh thứ nhất trong nhóm phải được mã hóa như ảnh loại I Trong trường hợp này,
sau khi lây mẫu lần đầu, tín hiệu video được truyền đến khối biến đôi DCT cho các MB
riêng, sau đó bộ lượng tử và mã hóa entropy Tín hiệu ra từ bộ lượng tử hóa được đưa
đến bộ lượng tử hóa ngược và biến d6i DCT ngược, sau đó được lưu vào bộ nhớ ảnh
Trong trường hợp mã hóa ảnh loại P, mạch nén chuyên động làm việc Trên cơ sở
so sánh ảnh đang xét và ảnh trong bộ nhớ, sẽ xác định được các vector chuyển động, sau đó dự báo ảnh Sự chênh lệch giữa ảnh đang xét và dự báo ảnh của nó được biến đổi
DCT, lượng tử hóa và mã hóa entropy Cũng như trong trường hợp các ảnh loại I, tín hiệu ra từ bộ lượng tử hóa được giải lượng tử hóa và biến đôi DCT ngược rồi cộng với ảnh dự báo đang xét và lưu vào bộ nhớ
Tốc độ bit của tín hiệu video được nén không có định, phụ thuộc vào nội dung ảnh đang xét Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác định tốc độ
cho dung lượng kênh truyền Do đó, tại đầu ra bộ mã hóa phải có bộ nhớ đệm đủ lớn Bộ
mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm Khi số liệu trong bộ nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biễn đổi DCT ngược được lượng tử hóa ít chính xác hơn Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm chứa số liệu quá ít, thì việc lượng tử hóa các hệ số sẽ tăng lên
Điều khiến tốc độ bit Bảng lượng tử
Video |a:2-2 " DCT Lượng |Mãhóal |Trện| _ |Khuyếch| Video nến
4:2:0 tử hóa "| entropy : *Ì đại đệm Anh dv Anh so doan sanh » ry r Vector chuyén déng _| Xác định vector chuyển động
a Điêu khiển nhớm anh
Hình 4.6: Bộ mã hóa MPEG tiêu biểu
Trang 17Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Quá trình giải mã: Theo lý thuyết, quá trình giải mã là ngược lại với quá
trình mã hóa và được minh họa trên hình 4.7 Tái lập trậttự | Ra Vào | VLD | „| Giải lượng tử »| DCT @ >| khung ảnh | Ỳ A Bộ mã hoá Hệ số DCT | ước đoán
| Các vectơ chuyển động -| Ước đoán | Lưu trữ khung _ chuyển động ảnh tham khảo
Hình 4.7: Bộ giải mã MPEG tiêu biểu
Chuỗi tín hiệu vào được giải mã entropy tại VLD (Variable-Length Decoder)
Sau đó tách số liệu ảnh (hệ số biến đôi DCT) ra khỏi các vector chuyên động Số liệu sẽ
được giải lượng tử hóa và biến đôi DCT ngược Trong trường hợp ảnh loại I bắt đầu ở
mỗi nhóm ảnh trong chuỗi, sẽ nhận được ảnh đầu ra hoàn chỉnh bằng cách trên Nó được
lưu trong bộ nhớ ảnh và được sử dụng để giải mã các ảnh tiếp theo
Trong trường hợp ảnh loại P sẽ thực hiện giải lượng tử và biễn đôi DCT ngược với việc sử dụng các vector chuyên động và ảnh lưu vào bộ nhớ ảnh Trên cơ sở đó xác định được dự báo ản đang xét Ta nhận được ảnh ra sau khi cộng dự báo ảnh và kết quả
biến đôi DCT ngược Ảnh này cũng được lưu vào bộ nhớ đê có thê sử dụng như là chuẩn khi giải mã các ảnh tiếp theo
4.4.4 Các chuẩn nén MPEG
4.4.4.1 MPEG-1
Chuẩn đâu tiên được đưa ra bởi MPEG, có tên gọi phô biễn là MPEG-1, được thiết
kê đê cung câp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM Chuan MPEG-1 bao gém 3 phan Phan 1 dé cập tới các van dé hệ thông (bao gồm cả ghép kênh video và audio đã mã hóa), phân 2 đề cập tới video nén và phân 3 là về audio nén Phân 2 (video) được phát triển với mục đích hỗ trợ việc mã hóa có hiệu quả video cho các ứng dụng phát lại trên CD và tạo ra chất lượng video tương đương hoặc tốt
hơn băng video VHS vê tốc độ bit CD (khoảng 1,2 Mbps đôi với video) Khi mà hau hét
các ứng dụng của người tiêu dùng đòi hỏi chỉ cần giải mã và phát lại, không bao gồm mã hóa thì nảy sinh yêu cầu phải tối thiểu hóa sự phức tạp trong giải mã Do đó, quá trình
Trang 18Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
giải mã của MPEG-1 có thể xem là đơn giản hơn so với mã hóa (không giống như JPEG, bộ mã hóa và giải mã có mức độ phức tạp tương tự nhau)
Cac dac tinh cia MPEG-1
Tín hiệu video đầu vào tới một bd ma héa video MPEG-1 c6é khuén dang 18 4:2:0 (Y:Cr:Cb) với độ phân giải không gian thông thường là 352x288 hoặc 352x240 pixels Mỗi khung video được xử lý theo từng khối của một macroblock, tương ứng với một vùng 16x16 pixel trong khung hiên thị Vùng này được tạo ra từ 16x16 mẫu độ sáng, 8x8
mẫu Cr và 8x8 mẫu Cb (vì Cr và Cb phải bằng một nửa độ phân giải ngang và dọc của
thành phần độ sáng) Một macroblock bao gồm 6 khối 8x8: 4 khối độ sáng (Y), một khối
Cr và một khối Cb
Mỗi khung video được mã hóa để tạo ra một bức ảnh mã hóa Có 3 loại chính: các ảnh L, các ảnh P và các ảnh B (Chuân này còn xác định thêm một loại ảnh là ảnh D
nhưng loại này hiêm khi sử dụng trong các ứng dụng thực tê)
Ảnh loại I: khơng có dự đốn bù chuyển động Ảnh loại I được sử dụng để làm tham
khảo cho những ảnh dự đoán xa hơn
Ảnh loại P: sử dụng dự đoán bù chuyên động từ một ảnh tham khảo (ảnh P hoặc ảnh I có trước ảnh P hiện tại) Do đó một ảnh loại P được dự đoán sử dụng dự đoán chuyên tiêp và bản thân một ảnh P có thê được sử dụng làm tham khảo cho các ảnh dự đoán xa hơn
Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc anh I trước và sau ảnh B hiện tại Hai vectơ chuyển động được tạo ra cho mỗi
macroblock trong một ảnh B: một chỉ tới một vùng thích hợp trong ảnh tham khảo trước đó (một vectơ chuyên tiếp) và một chỉ tới một vùng thích hợp trong ảnh tham khảo tương lai (vectơ hôi tiếp) Một macroblock dự đoán bù chuyên động có thê được thực hiện theo 3 cách: dự đoán chuyên tiếp sử dụng vecto chuyên tiếp, dự đoán hồi tiếp sử dụng vecto hồi tiếp hoặc dự đoán hai chiều (trong đó sự tham khảo dự đoán được thực hiện bằng cách lây trung bình các tham khảo dự đoán chuyển tiếp và hoi tiếp) Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán (chuyên tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trong macroblock sai phân Bản thân các ảnh loại B không
được sử dụng như các tham khảo dự đoán cho bất kỳ khung dự đoán xa hơn nào
Chuan MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,
chuẩn này mô tả cú pháp mã hóa và một bộ giải mã “tham khảo' giả thuyết Trong thực tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chứa những chức năng nhất định
4.4.4.2 MPEG-2
Trang 19Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
đặc tính chủ yếu đã được yêu câu đối với nguyên lý mã hóa video Nó phải hỗ trợ hiệu
quả các kích thước khung lớn hơn (thường là 720x576 hay 720x480 pixel cho độ phân
giải của ITU-R 601) và mã hóa video kết hợp Với những độ phân giải chất lượng truyền
hình, video kết hợp tạo ra hình ảnh video mịn hơn MPEG-2 đã ra đời nhằm đáp ứng những yêu câu này
MPEG-2 bao gồm 3 phần chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) và Systems (định nghĩa, những phân chỉ tiệt hơn MPEG-I1, ghép kênh và truyện luông audio/visual mã hóa) Những điêm nâng cao được thêm vào bởi MPEG-2 bao gom:
Mã hóa hiệu quả video với chất lượng truyễn hình: Ứng dụng quan trọng nhất của MPEG-2 là truyện hình sô quảng bá Các chức năng chính của MPEG-2 được đánh giá là có hiệu quả trong mã hóa những độ phân giải truyên hình ở tôc độ bịt trong khoảng từ 3-5 Mbps
Hỗ trợ mã hóa video két hop: MPEG-2 video có một vài đặc tính hỗ trợ mã hóa
một cách linh hoạt video kết hợp Hai trường tạo ra một khung kết hợp hoàn chỉnh có thê được mã hóa như những hình ảnh riêng biệt, mỗi trường sẽ được mã hóa thành một ảnh I, P hoặc B Các ảnh trường P và B có thê được dự đoán từ một trường trong khung khác hoặc từ trường khác trong khung hiện tại
Kha nang phan cap: Những chế độ tiên tiến của JPEG được mô tả trước đó là các dạng mã hóa phan cap Mot luong bit ma hoa phan cap bao gôm một lớp cơ sở và một hoặc nhiêu lớp tăng cường Lớp cơ sở có thê được giải mã đê tạo ra chuỗi video có thê
nhận diện mà có chât lượng nhìn bị hạn chê, và một chuôi chât lượng cao hơn có thê
được tạo ra bởi việc giải mã lớp cơ sở cộng với những lớp tăng cường, với mỗi lớp tăng cường thêm vào sẽ nâng cao chât lượng của chuôi giải mã MPEG-2 hỗ trợ 4 chê độ phân câp:
> Phân cấp theo không gian > Phân cấp theo thời gian
> Phan cap SNR
> Phân vùng dữ liệu
Profile và level: Hầu hết các ứng dụng đều chỉ yêu cầu một tập nhỏ giới hạn các chức năng trên diện rộng hỗ trợ bởi MPEG-2 Đê khuyên khích khả năng liên kêt đôi với các ứng dụng “chủ yêu' bât kỳ (ví dụ truyên hình sô), chuân này bao gôm một tập các
profile và level đê nghị, môi tập định nghĩa một tập con nhật định các chức năng cua
MPEG-2 Môi profile xác định một tập các khả năng và những khả năng quan trọng Còn môi level sẽ xác định các độ phân giải không gian và thời gian
Chuân MPEG-2 cũng định nghĩa những kết hợp nhất định đề nghị cho các profile và
level Main profile/low level (chỉ sử dụng mã hóa khung) thực chât là MPEG-1 Main
profile/main level phu hợp với truyện hình sô quảng bá và đây là sự kệt hợp profile/level được sử dụng rộng rãi nhât Main profile/high level phù hợp với truyện hình độ nét cao (HDTV)
Trang 20Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
4.4.4.3 MPEG-4
Các chuẩn MPEG-I và MPEG-2 xử lý các khung video hoàn chỉnh, mỗi khung được mã hóa như một đơn vị Tiêng lẻ Chuân MPEG-4 được phát triên với mục đích mở
rộng khả năng của những chuân trước đó theo một sô hướng
Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-I và MPEG-2 có hiệu quả chấp
nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps Tuy nhiên, nhiêu ứng dụng nối bật (đặc biệt là các ứng dụng dựa trên Internet) yêu câu tốc độ bit truyền rất thập hơn nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp
Hỗ trợ mã hóa dựa trên đối tượng: Có thể nói hầu hết sự thay đôi nguyên tắc trong chuẩn MPEG-4 đều hướng đến mã hóa dựa trên đối tượng hay dựa trên nội dung, trong đó một cảnh video có thê được xử lý như một tập các đối tượng nền và đối tượng
cận cảnh hơn là chỉ như một chuỗi các khung hình chữ nhật Loại mã hóa này mở ra một dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một cảnh, dùng lại các thành phan canh, ghép lai (cac vat thể từ một số nguồn được kết hợp trong một cảnh) và độ tương tác cao Khái niệm cơ sở sử dụng trong MPEG-4 Visual là
VO (Video Object) Một cảnh video (VS) (một chuỗi các khung video) được tạo thành từ một số các VO MPEG-4 cung cấp các công cụ cho phép mỗi VO được mã hóa một cách độc lập, mở ra một nhiều khả năng mới Dưới dạng VO, một “khungˆ tương đương với một mặt phẳng đối tượng video (VOP — Video Object Plane) Một cảnh hoàn chỉnh có thê
được mã hóa như một VOP đơn hình chữ nhật và điều này tương đương với một bức ảnh
dưới dạng MPEG-I và 2
Mã hóa dựa trên bộ công cụ: MPEG-I1 có độ linh động rất hạn chế, MPEG-2 đưa
ra khái niệm về “bộ công cụ” gôm các profile và level mà có thê kết hợp theo nhiều cách cho các ứng dụng khác nhau MPEG-4 mở rộng đặc điểm này thành một tập hợp các công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một khung chuẩn hóa cho phép các công cụ mới được thêm vào “bộ công cụ'
Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thê
được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các công cụ cũng tiếp tục tăng lên
4.4.4.4 MPEG-7
Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để
mô tả nhiêu loại thông tin đa phương tiện với các codec chuân, cũng như những cơ sở dữ liệu khác và thậm chí cả thông tin nghe-nhìn tương tự Các bộ mô tả cùng với các cơ chê mô tả sẽ được kêt hợp với bản thân nội dung đê tạo ra một phương pháp tìm kiêm tài liệu nhanh và có hiệu quả của người dùng
Trang 21Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
Một sự kiện nghe nhìn xác định có thê được mô tả với nhiều tập hợp đặc tính khác
nhau nếu những ứng dụng của chúng là khác nhau Để mô tả những sự kiện về thị giác,
đầu tiên chúng được mô tả bởi độ trừu tượng thấp như hình dạng, kích thước, bố cục,
màu sắc, sự chuyên động và các vị trí của chúng trong khung hình ảnh Độ trừu tượng cao hơn là sự mô tả mối quan hệ thuộc về ngữ nghĩa giữa những sự trừu tượng mức thấp
hơn ở trên Tất cả những mô tả đều được mã hóa theo một cách mà chúng có thé duoc tìm kiếm một cách hiệu quả nhất
Cùng với việc mô tả nội dung, có thê cần thêm một số loại thông tin khác về dữ liệu
đa phương tiện, ví dụ:
e Dang: vi du nhu co chế mã hóa được sử dụng (như JPEG, MPEG-2, ), hoặc kích thước toàn bộ dữ liệu
° Những điều kiện để truy cập tài liệu: có thể bao gồm thông tin về bản quyên,
giá,
® Sự phân loại: sự phần loại nội dung vào một số loại được định nghĩa trước
e_ Liên kết đến dữ liệu liên quan khác: thông tin này sẽ giúp người dùng tăng được
tôc độ của hoạt động tìm kiêm
e_ Bối cảnh: đỗi với một số sự kiện được ghi lại, một điều quan trọng là biết được sự kiện đặc biệt của quá trình ghi lại đó (ví dụ, World Cup 2002, trận chung kêt diên
ra giữa Brazil và Đức) Phạm vỉ ứng dụng
Các phân tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng Hiện nay MPEG-7 cũng tạo ra mạng lưới có khả năng tìm kiêm nội dung đa phương tiện như khả năng tìm kiêm văn bản Điêu này có thê áp dụng cho việc thu được nội dung lớn cũng như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhăm mục
đích mua săm Thông tin sử dụng cho việc khôi phục nội dung có thê được sử dụng bởi các thực thê, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân
Tat ca cdc vùng ứng dụng tạo ra việc sử dụng đa phương tiện đều có thể thu được lợi ích từ MPEG-7 Một sô miên có thê tìm thây sự hữu ích của MPEG-7 như:
“ Kiến trúc, di sản thực và thiết kế nội thất (ví dụ như tìm kiếm các ý tưởng) " Lựa chọn đa phương tiện quảng bá (ví dụ các kênh radio và TV)
" Dịch vụ văn hóa (các bảo tàng lịch sử, phòng trưng bày nghệ thuật, )
"Các thư viện số (danh mục hình ảnh, từ điển âm nhạc, danh mục hình ảnh sinh dược, phim, video va radio thu được)
" Thương mại điện tử (ví dụ quảng cáo cá nhân, các danh mục trực tuyến, danh mục
các cửa hàng điện tử)
“ Giáo dục (nơi chứa các khóa học đa phương tiện, tìm kiếm đa phương tiện dữ liệu hồ trợ)
Trang 22Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
= Giai tri tai nha (vi dụ các hệ thông cho quản lý các bộ sưu tập đa phương tiện cá
nhân, bao gôm cả sự thao tác đôi với nội dung như tạo video tại nhà, tìm kiêm trò
chơi)
“Các dịch vụ pháp y (nhận dạng các đặc điểm cá nhân, pháp lý)
" Nghê báo (tìm kiêm lời nói của một nhà chính trị nào đó thông qua tên, giọng nói hoặc khuôn mặt của người đó)
" Các dịch vụ danh bạ đa phương tiện (ví dụ các trang vàng, các hệ thống thông tin du lịch, thông tin địa lý)
= Bién tap đa phương tiện (ví dụ các dịch vụ thông tin điện tử cá nhân)
= Kha nang phán đoán từ xa (ví dụ như nghiên cứu bản đồ, nghiên cứu mối quan hệ của sinh vật sống với môi trường, quản lý nguôn tài nguyên thiên nhiên)
“ Mua sắm (ví dụ tìm kiếm những mẫu quân áo mà bạn yêu thích)
= Gidm sat (ví dụ điều khiến giao thông, vận tải trên biến, những thử nghiệm không
mang tính phá hoại trong môi trường đôi địch) 4.4.4.5 MPEG-21
Ngày nay công nghệ đa phương tiện đã trở nên tiên tiến đến mức có thê truy cập vào
một lượng rất lớn thông tin và các dịch vụ từ bất kỳ đâu và bất kỳ lúc nào thông qua các
mạng và thiết bị đầu cuối phố biến Tuy nhiên, không có một bức tranh hoàn chỉnh nào cho việc làm thế nào để những nhóm người khác nhau có thê tương tác một cách tốt nhất với nhau trên một cơ sở hạ tầng phức tạp Những ví dụ về những nhóm người này như những người cung cấp nội dung, tài chính, truyền thông, máy tính và các bộ phận điện tử của người sử dụng và các khách hàng Việc phát triển một khung đa phương tiện chung
sẽ làm cho sự liên kết giữa những bộ phận này trở nên thuận tiện và hỗ trợ sự hoạt động
và tích hợp hiệu quả hơn cho những mô hình, nguyên tắc, lợi nhuận và các khuôn dạng nội dung Đây là nhiệm vụ của dự án về khung đa phương tiện dưới cái tên MPEG-21
MPEG-21 là một chuẩn được mong đợi với mục tiêu mô tả một “bức tranh lớn" cho việc làm thế nào để các phần tử khác nhau có thê xây dựng một cơ sở hạ tầng cho VIỆC phân phối và sử dụng nội dung đa phương tiện — đang tồn tại hoặc đang được phát triển — có thể làm việc cùng nhau
Trang 23Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh
4.5 Các chuẩn nén Video H26x của ITU
Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật
điện tử quốc tế (ISO/IEC) là hai tô chức phát triển các tiêu chuẩn mã hoá Video Những
khuyến nghị của ITU được thiết kế dành cho các ứng dụng truyền thông Video thời gian thực như Video Conferencing hay điện thoại truyền hình
Các chuẩn mã hóa video MPEG của ISO nhằm vào việc lưu trữ và phân phối video
cho lĩnh vực giải trí và cô gắng đạt được các yêu cầu của người cung cấp cũng như người tiêu dùng trong ‘ “nên công nghiệp phương tiện" Trong khi do ITU quan tam nhiều hơn tới công nghiệp viễn thông, và do đó các chuẩn mã hóa video của tô chức này (H.261, H.263, H.264) hướng tới truyền thông thời gian thực, điệm-điểm và đa điểm
Chuẩn mã hóa video đầu tiên của ITU-T, H.261, duoc phat trién trong suốt cuối thập ký 80 và đâu thập kỷ 90 của thế kỷ 20 với sự chú ý về ứng dụng và kênh truyền dẫn đặc biệt Ứng dụng là hội nghị truyền hình (truyền thông hai chiều qua một “đường nối” video) và kênh truyền là ISDN
H.261 đã khá thành công và tiếp tục được sử dụng trong nhiều ứng dụng hội nghị truyền hình mang tính di sản Những cải tiễn trong hiệu suất xử lý, các công nghệ mã hóa video và sự nội lên của các modem tương tự và mạng IP như các kênh truyền đã dẫn tới sự phát triển tiếp theo của nó, H.263, vào giữa thập ký 90 của thế ky 20
Bằng việc tạo ra những cải tiến so với H.261, H.263 cung cấp hiệu suất nén tốt hơn nhiều cũng như độ linh động cao hơn Chuẩn H.263 ban đâu (phiên bản 1) có 4 chế độ
tùy chọn Các chế độ này được xem là khá hữu dụng và phiên bản 2 (H.263+) thêm vào 12 chế độ tùy chọn nữa Phiên bản gần đây nhất (có thê là phiên bản cuối) (v3) chứa tổng cộng 19 chế độ, mỗi chế độ cung cấp một hiệu suất nén được cải thiện, phục hồi lỗi và/hoặc độ linh động
Phát triển mới nhất của nhóm chuyên môn ITU-T 1a chuan H.264 H.264 là dự án kết hợp gần đây nhất giữa ITU-T VCEG và ISO/IEC MPEG Đây là một chuẩn mới sử dụng một số đặc tính tốt nhất của H.263 và nhằm cải thiện hiệu suất nén lên khoảng 50%
ở các tốc độ bit thấp Ngoài ra, H.264, được thông qua như là một phần của chuẩn MPEG-4, thường được gọi là MPEG-4 AVC (Advanced Video Coding) hoặc MPEG-4 part 10 H.264 giảm yêu cầu băng thông trong khi chất lượng ảnh tương đương MPEG-2 và MPEG-4 Công nghệ này giúp cho tăng cường khả năng nén không gian và nén thời gian, cho hình ảnh truyền rất nhanh trên mạng LAN, Internet Với những ưu việt của mình, H.264 đang được ứng dụng rất rộng rãi
4.6 Kết luận chương 4
Trong chương này chúng ta sẽ xem xét các chuẩn mã hóa thoại, âm thanh, các chuẩn nén hình ảnh JPEP và video MPEG/H26x Những chuẩn này đã và đang được ứng dụng phô biến cho truyền thông đa phương tiện trên mạng viễn thông, mạng truyên hình và Internet