Giáo trình xử lý âm thanh và hình ảnh các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa phương tiện tài liệu, ebook, giáo trình

Một sô các tô chức chuân hóa liên quan đên mã hóa tín hiệu thoại được giới thiệu sau đây: e© Liên minh viễn thông quốc tế ITU: Phân ban chuẩn hóa viễn thông của ITU qTU-T chịu trách nhi

Trang 1

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong

truyền thông đa phương tiện 4.1 Các chuẩn mã hóa tín hiệu thoại

Phần này tập trung chủ yếu vào giới thiệu văn tắt sự hình thành và phát triển các tiêu chuẩn của mã hoá Một kỹ thuật được xem như là phố biến khi và chỉ khi nó là một phần

của tiêu chuẩn Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông

tin liên lạc và cho phép những người quan tâm có thê sử dụng và phát triển sản phẩm và

các dịch vụ dựa trên các cùng một tham chiếu

Một tiêu chuẩn được phát triển bởi một đội ngũ các chuyên gia thông qua một

quãng thời gian dài, với việc thử nghiệm rộng rãi và đánh giá lặp đi lăp lại nhiều lần để

đảm bảo rằng một tập hợp các yêu cầu được đáp ứng Chỉ có các tổ chức với nguồn lực

lớn mới có thể tổ chức và thực hiện được những công việc khó khăn, phức tạp này Thời gian cần thiết để hoàn thành một tiêu chuẩn kể từ khi bắt đầu cho đến kết thúc khoảng 4.5

năm

Điêu này không có nghĩa một tiêu chuân không có lôi hoặc không thê cải tiên

thêm được nữa Trên thực tê một tiêu chuân mới thường xuất hiện như là sự cải tiên của

các chuân đã có trước đó và phù hợp với các ứng dụng trong tương lai

Một sô các tô chức chuân hóa liên quan đên mã hóa tín hiệu thoại được giới thiệu sau đây:

e© Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU qTU-T) chịu trách nhiệm xây dựng các chuân liên quan đên mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gôm cả mạng không dây và cô định

e Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Ky (ANSI) TIA thành công trong việc phát triển các tiêu chuẩn cho điện thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian — TDMA và đa truy nhập phân chia theo mã - CDMA

e© _ Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tô chức chính của các nhà sản xuất thiết bị viễn

thong ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất

trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới

121

Trang 2

e Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuân của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự

® Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR

Bảng 4.l dưới đây mô tả van tắt các chuân mã hóa thoại:

Các chuân | vym Thuật toán Tốc độ Ung dung | MOS | Delay

Trang 3

4.2 Các chuẩn mã hóa âm thanh

4.2.1 Các chuẩn mã hóa âm thanh ISO/MPEG

Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén

âm thanh và hình ảnh Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh và hình ảnh cho các phương tiện lưu trữ số bao gm CD-ROM, DAT, dia quang tir

MO và ỗ cứng máy tính

MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên

nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-I1,

MPEG-2 và MPEG-4 MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC

JTC1 SC29 WG11

ISO _ : International Organization for Standardization

IEC _ : International Electro-technical Commission

JTC1 : Joint Technical Committee 1

SC29 : Sub-committee 29

WG11: Work Group 11 (moving picture with audio)

MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa

ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II va Layer III theo

mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít) của bộ mã hóa Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa

là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tat cả các Layer thấp hơn N

Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã Tất cả các Layer

sử dụng cùng câu trúc Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận

thức hay chuyên đôi mã hóa băng phụ theo nhận thức Bộ mã hóa phân tích thành phân phố của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận

để xác định mức nhiễu có thể nghe thấy Trong giai đoạn lượng tử hóa và mã hóa, bộ mã

hóa sẽ cô gắng để chỉ rõ số bít đữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng

che lấp Bộ giải mã đơn giản hơn, nhiệm vụ chính là tông hợp tín hiệu âm thanh từ các thành phần phố được mã hóa

Tất cả các Layer:

e Ding chung cau tric bé loc dai- filerband

e Ding chung théng tin cua phan dau- header information trong dòng dữ liệu

e Déucé kha nang nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cau tric dòng bít với các phần nhạy với lỗi bite (“header”, “bit location”, “scale factor”, “side information”) và các phân ít nhạy hơn (dữ liệu về các thành phan pho “data of spectral components”)

123

Trang 4

e Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng đữ liệu âm

thanh

e C6 thé str dung tan s6 lay mau 14 32,44.1 hodc 48 kHz

e© _ Cho phép hoạt động với các dòng bít giống nhau

Danh sách các chuẩn MPEG:

- MPEG-I1(S 11172,10,92): Mã hóa các ảnh chuyên động và âm thanh kèm theo các phương tiện lưu trữ số với tốc độ đến khoảng 1.5 Mbit/s

e Ba phan dau được chuẩn hóa từ năm 1992

e IS-11172-1 (“Hệ thống”) mô tả đồng bộ và ghép kênh của các tín hiệu video và âm thanh

® [IS-II172-2 (“Video”) mô tả nén các tín hiệu video, chú trọng vào các tín hiệu progressive scan video, chủ yếu cho các ứng dụng “Video on CD”

e IS-11172-3 (“Âm thanh”) mô tả hệ mã hóa âm thanh chung, với các thành viên tương thích theo kiểu cấu trúc thứ tự (Layer I, II, II)

e IS-11172-4 mô tả các quá trình xác định các thông số của dòng dữ liệu được mã hóa và quá trình dải mã và cho sự thích ứng với yêu cầu thử nghiệm theo yêu câu đặt ra trong các phần khác

® DTR-11172-5 báo cáo kỹ thuật về phần mềm ứng dụng của ba phan MPEG -1,

-MPEG-2 (IS 13818, 11-97): dic diém chung của mã hóa hình ảnh chuyên động

và âm thanh theo, chú trọng đến chuẩn video chung, các phần âm thanh mở rong

-MPEG-2 AAC: nén một tín hiệu âm thanh kênh 5.1 vào trong một tốc độ tối thiêu

là 320 Kbps Định dạng 5.1 đề cập đến năm kênh tín hiệu âm thanh cùng với tác dụng của một kênh tăng cường tân số thấp có băng thông giảm

-MPEG-4 (CD — 14496, 11-97): mã hóa các đỗi tượng nghe nhìn, chú trọng đến

các nội dung linh hoạt và mở rộng- là cơ sở cho các chương trình nghe nhìn tương hỗ

kênh khác và được đóng thành các khung để truyền di

4.2.3 AES-3 (Audio Engineering Society-3)

Trang 5

Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số Tiêu đề đầy đủ của nó là định dạng truyễn nối tiếp cho hai kênh â âm thanh số tuyến tính tương ứng Theo thuật ngữ đơn giản mà có nghĩa nó là âm thanh nối và không nén AES-3 là một sự phát triển chung của Hiệp hội kỹ sư âm thanh - AES (Audio Enginecring Society) và Liên minh phát sóng quảng bá châu Au - EBU (European Broadcasting Union) Tieu chuẩn này dựa trên cân bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đến 100 mét Ba tốc độ

lây mẫu được hỗ trợ là 32, 44.1 và 48 KHz

4.3 Các chuẩn nén ảnh JPEG

4.3.1 Chuẩn JPEG

JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982 Năm 1986, JPEG chinh

thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU Đến năm 1994, JPEG

được khăng định với tiêu chuẩn ISO 10918-1

JPEG là định dạng nén ảnh có tốn thất Tiêu chuẩn này có có thê được ứng dụng

tone nhiều lĩnh vực: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera Nó còn có các định dạng mở rộng khác như jpg, jpeg, jpe, jfif va jif Ky thuat nay

có ó thể đạt được hệ số nén hơn tám mươi lần so với ảnh gốc Tuy nhiên, hệ sô nén càng cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ không đạt hoàn toàn như hình ảnh gốc

Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu Tuy nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá

tốt và ít tính toán hơn so với nén MPEG Nén JPEG có thể thực hiện bởi bốn mode mã hóa: mã hóa tuần tự, mã hóa lũy tiến, mã hóa không tôn thất và mã hóa phân cấp Mã hóa không tốn thất không sử dụng cho video động bởi vì tỉ lệ nén của nó không đủ cao Khai triển DCT duoc chọn là kĩ thuật then chốt trong JPEG vì nó cho ảnh nén chất lượng tốt nhất tại số bit thấp nhất và giải thuật chuyển đổi nhanh, dễ dàng thực hiện bằng phan cung

Định dạng nén JPEG được sử dụng trong tất cả máy ảnh kỹ thuật số có kích thước

rất nhỏ nên thường chụp được nhiều ảnh trên một thẻ nhớ, JPEG dễ hiển thị trên man hình, ảnh có thể chuyển nhanh qua thư điện tử (dung lượng từ 300KB đến 700KB), ảnh

JPEG chất lượng cao có dung lượng khoảng vài MB hay lớn hơn

Nén theo chuẩn JPEG là một tiến trình nhiều bước Trước hết là bước qui tắc hóa (regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế Ảnh màu được chuyên sang dạng YUV hoac CIELAB, trong do thông tin về độ chói (luminance) được tách rời với thông tin về độ màu (chrominance) Một yếu tố được tính tới là mắt người ta nhạy cảm với những thay đổi nhỏ về độ sáng hơn là những thay đổi về màu sắc, đặc biệt

ở đầu xanh của phô Ngoài ra cách làm này còn khai thác thực tế là ảnh thường có nhiều

vùng lớn tại đó các điểm kế nhau rất giống nhau về kênh màu

125

Trang 6

Bước tiếp theo là lây mẫu cho các kênh màu (gọi là “downsampling” hoặc

“chroma subsampling”) Đây là l trong 2 công đoạn làm mất thông tín và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của JPEG Lay mau (subsampling) nghĩa là loại bỏ có hệ thống các thông tín màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước Nếu bạn thực hiện cứ hai hàng loại bỏ một hàng

và hai cột loại bỏ một cột, bạn giảm được dữ liệu màu đi 75% Khi tời ảnh, trị của các

điểm loại bỏ trước đó được ngoại suy từ những gì còn lại

Bước tiếp theo, ảnh gốc được chia thành các khôi anh (block) nhỏ kích thước 8x8

không chông chéo lên nhau Tiếp theo, gia tri cua mỗi điểm ảnh ở mỗi khỗi khối ảnh sẽ được trừ đi 128 Lý do là do giá trị các điểm ảnh có giá trị từ 0 đến 255 (được mã hoá bởi

8 bít không dấu), áp dụng biến đối DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến

+1023 (có thê được mã hoá bởi 11 bít có dau) Nhung hệ số DC lại có giải giá trị từ 0 đến

2040 (được ma hoa boi 11 bit khong dau) va can cach xu ly khac 6 phân cứng hoặc phân mềm so với các hệ số AC Chính vì thế việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi

biến đổi DCT cả các hệ số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu

diễn

Với mỗi khối ảnh hai chiều kích thước 8x8, áp dụng: biến đôi DCT dé tao ra mang hai chiều các hệ số biến đối Hệ số có tương ung voi tân số không gian thấp nhất nhưng lại có giá trị lớn nhất được gọi là hệ sô DC (một chiêu), nó tỉ lệ với độ chói trung bình của cả khối ảnh 8x8 Các hệ số còn lại gọi là các hệ số AC (xoay chiều) Theo lý thuyết, biến đối DCT không đem lại sự mat mát thông tin ảnh, mà đơn giản nó chỉ chuyên thông tin ảnh sang miễn không gian mới thuật lợi hơn cho mã hoá ở bước tiếp theo

Mang hai chiều các hệ số biến đối được lượng tử hoá sử dụng bộ lượng tử hóa tỉ lệ đồng nhất Nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc lập Quá trình lượng

tử hoá là dựa trên sinh lý của hệ thống mắt người: cảm nhận hình ảnh có độ nhậy kém

hơn ở các hệ số tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp Vì thế các hệ

số được chọn sao cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử hoá tinh đối với các hệ số có tần số thấp Bảng lượng tử hoá được lây tỉ lệ để tạo ra các

mức nén thay đỗi tuỳ theo tốc độ bít và chất lượng ảnh Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặc biệt là ở tần số cao Quá trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính gây ra sự tốn hao nhưng lại là nhân tố chính đem lại hiệu suất nén

Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng 0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình Zigzag tạo thành mảng một chiều Cách sắp xếp này cho phép giảm thiêu năng lượng tôn hao trung bình và tạo ra day cac gia trị bang 0 liên tiếp Kiểu quét Z1gzag này cũng nhằm đặt các hệ số có tần số thập lên trước các hệ số có tần số cao Các hệ số này sẽ được mã hóa dựa trên bảng mã Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất

Đến đây các hệ số được nén trung thực bằng mã hóa độ dài chạy — RLC Tiếp đến, các hệ sô DC được tách khỏi các hệ sô AC và sử dụng kỹ thuật mã hoá điêu xung mã vi

Trang 7

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh sai - DPCM Bước cuối cùng của quá trình nén là sử dụng mã hoa entropy chang han ma hoa Huffman cho cac AC va DC (sau khi đã mã hoá DPCM) đê tăng thêm hiệu quả nén cũng như giảm thiêu lỗi

Ở phía giải nén, luồng bít mã hoá được giải mã entropy, sau đó mảng hai chiều các

hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tu Mang hai chiêu các hệ số DCT kết quả sẽ được biên đôi IDCT rồi cộng mỗi giá trị với 128 để xấp

xỉ tạo thành các khối ảnh con kích thước 8x8 Chú ý là bảng lượng tử hoá và mã hoá entropy ở cả phía nén và giải nén là đồng nhất Hai thành phần hiệu màu cũng được mã

hoá tương tự như thành phân chói ngoại trừ khác biệt là chúng được lây mẫu xuống hệ số

2 hoặc 4 ở cả chiều ngang và dọc trước khi biến đổi DCT Ở phía giải nén , thành phan màu sẽ được nội suy độ chói (Y) và hiệu mâu (U, V) thành R, G và B

Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:

Ảnh gỗc Chuyên thứ tự Giá trị điểm Biển đổi Lượng tử hoá

Trang 8

Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Ảnh khỏi phục Chuyển đổi các Cũng giả trị Biển đủi 2D-

+ ——| lchúi 5xö thành moidiém anh Ff IDCT 8x8

thứ tự quét thêm 128 mảnh

Hình 4.2: Sơ đồ quá trình giải nén theo chuẩn JPEG

4.3.2 Chuẩn JPEG-2000

Chuan JPEG ban dau da thu được sự đón nhận rộng rãi và hiện tại có mặt ở khắp

nơi thông qua các ứng dụng của máy tính: nó là khuôn dạng chính cho các ảnh chụp trong web toàn cầu và được sử dụng rộng rãi trong lưu trữ hình ảnh Hơn nữa, ảnh sô hóa ngày càng phố biến với người dùng và yêu cầu chất lượng ngày càng tăng lên, vì vậy các vẫn đề xử lý ảnh cũng tăng theo Nén hình ảnh không chỉ là làm giảm dung lượng lưu trữ

và các yêu cầu băng thông, mà còn cho để nguyên phớp tách, ghép dé sáp xêp xử lý và đáp ứng các mục tiêu trên các ứng dụng và thiết bị cụ thể Ngoài ra, yêu cầu về hiệu suất nén tốt hơn với tỷ số nén cao đã dẫn tới sự phát triên chuẩn JPEG-2000

Hệ thông nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn han các chuẩn công nghệ JPEG truyện thông, cho dù JPEG-2000 không phải là một chuân mới hoàn toàn mà được phát triên từ các tiêu chuân đã có

Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các miền quan tâm, các thành phân và hơn nữa, tất cả chúng được đưa vào một dòng bit nén đơn Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cân thiết cho bất kỳ một

thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuân JPEG-2000 Tính tương thích này là một trong những ưu điểm nỗi trội mà các kỹ thuật xử lý JPEG truyền thống gặp rất

nhiều khó khăn

Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biển đối cosin rời rạc (DCT — Discrete Cosin Tranform) dùng mã hóa Huffmaan, JPEG-2000

sử dụng kỹ thuật rmã hóa dang song roi rac (DWT — Descrete Wavelet Transform) dung

mã số học Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian

Trang 9

Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

trong thê hiện biến đối hình ảnh Sơ đồ khối của quá trình nén và giải nén theo chuẩn JPEG-2000 mô tả ở hình 4.3 dưới đây:

Ảnh gốc Í %ữ lý trước Biến đôi Bien doi ma hoa

biến đỏi thuän liên thuần riêng Mã hoá +

L j \_thanh phan J thành phân / ` ) (a)

Anh mãhoác Giải mã hoá Giai lương từ hoá ngwoc riêng Bien do: ngược liên Bien doi Xử lý sau |£ành khỏi phục biến đổi hy)

" thành phần thành phần — (b)

Hình 4.3: Sơ đồ quá trình nén và giải nén theo chuẩn JPEG-2000

Bước 1: Xử lý trước biến đổi

Do sử dụng biến đổi Wavelet, JPEG2000 cân có đữ liệu ảnh đầu vào ở dạng đối

xứng qua 0 Xử lý trước biến đối chính là giai đoạn đảm bảo đữ liệu đưa vào nén ảnh có dạng trên Ở phía giải mã, giai đoạn xử lý sau biến đôi sẽ trả lại giá trị gốc ban đầu cho

dỡ liệu ảnh

Bước 2: Biến đối liên thành phần

Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh JPEG-2000

sử dụng hai loại biến đổi liên thành phân là biến đôi màu thuận nghịch (Reversible Color

Transform - RCT) va bién d6i mau khong thuan nghich (Irreversible Color Transform -

ICT) trong đó biến đôi thuận nghịch làm việc với các giá trị nguyên, còn biến đôi không

thuận nghịch làm việc với các giá trị thực ICT và RCT chuyên dữ liệu ảnh từ không gian màu RGB sang YCrCb RCT được áp dụng trong cả hai dạng thức nén có tôn thất và không tôn thất, còn ICT chỉ á áp dụng cho nén có tôn thất Việc áp dụng các biến đôi này trước khi nén ảnh không năm ngoài mục đích làm tăng hiệu quả nén Các thành phân Cr,

Cb có ảnh hưởng tất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y

có ảnh hưởng tất lớn tới ảnh

Bước 3: Biến đổi riêng thành phan

Biến đối riêng thành phần được áp dụng trong JPEG-2000 chính là biến đổi Wavelet

Bước 4: Lượng tử hoá - Giải lượng tử hoá

Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá Quá trình lượng tử

hoá cho phép đạt tỷ lệ nén cao hon bằng cách thể hiện các giá trị biến đối với độ chính xác tương ứng cân thiết với mức chỉ tiết của ảnh cần nén Các hệ số biến đối sẽ được

129

Trang 10

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh lượng tử hoá theo phép lượng tử hoá vô hướng Các hàm lượng tử hoá khác nhau sẽ được

áp dụng cho các băng con khác nhau và được thực theo biêu thức:

L | AX, V J⁄

với 4 là bước lượng tử, U(+, y) là giá trị bang con dau vao; V(x, y) 1a giá trị sau lượng tử hoá Trong dạng biến đổi nguyên, đặt bước lượng tử bằng 1.Với dạng biến đôi thực thì bước lượng tử sẽ được chọn tương ứng cho từng băng con riêng rẽ Bước lượng tử của

mỗi băng do đó phải có ở trong dòng bít truyền đi để phía thu có thể giải lượng tử cho

ảnh Công thức giải lượng tử hoá là:

JPEG-2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng nhiều

phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi Wavelet khác nhau để có thé thu được chất lượng ảnh tương ung với ứng dụng cần xử lý Điều này giúp cho JPEG-

2000 mém dẻo hơn nhiều so với JPEG Việc áp dụng các phương pháp mã hoá khác nhau cũng được mở rộng sang lĩnh vực nén ảnh động bằng biến đôi Wavelet Trong thực tế các phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đôi Wavelet cũng như JPEG-2000 thì có hai phương pháp được coi là cơ sở và được áp dụng nhiều nhất: phương pháp SPIHT và phuong phap EZW (Embedded Zerotree Wavelet Encoder)

JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kê so với JPEG Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất

là 2 lần so với JPEG Với tỷ số nén cao, chất lượng của hình ảnh giảm ít hơn Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu cầu lưu trữ trong quá

trình mã hóa và giải mã Một tác động khác của điều này là những hình ảnh có thê tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị

4.4 Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21

4.4.1 Tông quan về MPEG

_ MPEG (Moving Picture Expert Group) dugc ra doi vao nam 1988 nhằm mục đích

chuân hoá cho nén tín hiệu âm thanh và video Nén tín hiệu video theo chuân MPEG là

phương pháp nén ảnh động không những làm giảm dư thừa không gian (như JPEG) mà con làm giảm dư thừa thời gian giữa các khung ảnh, đây là khác biệt so với JPEG

Trang 11

MPEG khong phai là một công cụ nén đơn lẻ mà ưu điểm của nén ảnh dùng MPEG chính là ở chô MPEG có một tập hợp các công cụ mã hoá chuân, chúng có thê

được kêt hợp với nhau một cách linh động đê phục vụ cho một loạt các ứng dụng khác

nhau

Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiên xử lý

(Preprocessing), đoán trước sự chuyển động của cdc frame ở bộ mã hoá (temporal prediction), bù chuyên động ở bộ giải mã (motion compensation) và mã lượng tử hoá (quatisation coding) Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người Kỹ thuật đoán chuyên động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ có nhiều khả năng giống với các Írame đứng ngay phía trước và ngay phía sau nó Các bộ mã hoá sẽ tiến hành quét lần lượt từng phân nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biét vị trí và hướng chuyên động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hién tai (motion compesated residual) va cac khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đối từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền

thêm một cách đêu đặn vào các vị trí trống trong ảnh được khôi phục

Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian

(spatial coding) và thời gian (temporal coding) Trong MPEG, việc loại bỏ dư thừa về

thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau

giữa các ảnh liên tiếp (Inter-frame techniques) Chúng ta có thể sử dụng tính chất này để tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó (“predicted”) Do vậy ở phía bộ mã hoá, ta chỉ cần gửi những bức ảnh có thay đổi so với những ảnh trước, sau đó ta lại dùng phương pháp nén vê không gian để loại bỏ sự dư thừa

về không gian trong chính bức ảnh sai khác này Nén về không gian dựa trên nguyên tắc

là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques) JPEG chỉ áp dụng phương pháp nén theo không gian vì nó được thiết kế để

xử lý và truyền các ảnh tĩnh Tuy nhiên nén tín hiệu theo phương pháp của JPEG cũng có thê được dùng để nén các bức ảnh một cách độc lập trong dãy tín hiệu video ứng dụng

này thường được gọi là JPEG động (Motlon JPEG) Trong một chu kỳ gửi một dãy các bức ảnh theo kiểu JPEG động, ảnh đầu tiên được nén nhờ sự loại bỏ độ dư thừa về không gian, sau đó các ảnh tiếp theo được nén nhờ sự loại bỏ độ dư thừa về thời gian (nén liên ảnh) Quá trình được lặp đi lặp lại cho một dãy các bức ảnh trong tín hiệu video

Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối anh 8x8

picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong cùng một bức ảnh Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc

tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa

131

Định dạng
Số trang	23
Dung lượng	6,46 MB