1. Trang chủ
  2. » Giáo án - Bài giảng

Giáo trình xử lý âm thanh và hình ảnh các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa phương tiện tài liệu, ebook, giáo trình

23 666 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 6,46 MB

Nội dung

Trang 1

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa phương tiện

4.1 Các chuẩn mã hóa tín hiệu thoại

Phần này tập trung chủ yếu vào giới thiệu văn tắt sự hình thành và phát triển các tiêu chuẩn của mã hoá Một kỹ thuật được xem như là phố biến khi và chỉ khi nó là một phần

của tiêu chuẩn Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông

tin liên lạc và cho phép những người quan tâm có thê sử dụng và phát triển sản phẩm và

các dịch vụ dựa trên các cùng một tham chiếu

Một tiêu chuẩn được phát triển bởi một đội ngũ các chuyên gia thông qua một

quãng thời gian dài, với việc thử nghiệm rộng rãi và đánh giá lặp đi lăp lại nhiều lần để

đảm bảo rằng một tập hợp các yêu cầu được đáp ứng Chỉ có các tổ chức với nguồn lực

lớn mới có thể tổ chức và thực hiện được những công việc khó khăn, phức tạp này Thời gian cần thiết để hoàn thành một tiêu chuẩn kể từ khi bắt đầu cho đến kết thúc khoảng 4.5

năm

Điêu này không có nghĩa một tiêu chuân không có lôi hoặc không thê cải tiên

thêm được nữa Trên thực tê một tiêu chuân mới thường xuất hiện như là sự cải tiên của

các chuân đã có trước đó và phù hợp với các ứng dụng trong tương lai

Một sô các tô chức chuân hóa liên quan đên mã hóa tín hiệu thoại được giới thiệu sau đây:

e© Liên minh viễn thơng quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU qTU-T) chịu trách nhiệm xây dựng các chuân liên quan đên mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gôm cả mạng không dây và cô định

e Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Ky (ANSI) TIA thành công trong việc phát triển các tiêu chuẩn cho điện thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian — TDMA và đa truy nhập phân chia theo mã - CDMA

e© _ Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tô chức chính của các nhà sản xuất thiết bị viễn

thong ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất

trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới

Trang 2

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

e Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuân của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự

® Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR

Bảng 4.l dưới đây mô tả van tắt các chuân mã hóa thoại:

Các chuân | vym Thuật toán Tốc độ Ung dung | MOS | Delay

Trang 3

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

4.2 Các chuẩn mã hóa âm thanh

4.2.1 Các chuẩn mã hóa âm thanh ISO/MPEG

Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén

âm thanh và hình ảnh Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh và hình ảnh cho các phương tiện lưu trữ số bao gm CD-ROM, DAT, dia quang tir

MO và ỗ cứng máy tính

MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên

nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-I1,

MPEG-2 và MPEG-4 MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC

JTC1 SC29 WG11

ISO _ : International Organization for Standardization IEC _ : International Electro-technical Commission JTC1 : Joint Technical Committee 1

SC29 : Sub-committee 29

WG11: Work Group 11 (moving picture with audio)

MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II va Layer III theo

mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít) của bộ mã hóa Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa

là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tat cả các Layer thấp hơn N

Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã Tất cả các Layer sử dụng cùng câu trúc Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận

thức hay chuyên đôi mã hóa băng phụ theo nhận thức Bộ mã hóa phân tích thành phân phố của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận

để xác định mức nhiễu có thể nghe thấy Trong giai đoạn lượng tử hóa và mã hóa, bộ mã

hóa sẽ cô gắng để chỉ rõ số bít đữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng

che lấp Bộ giải mã đơn giản hơn, nhiệm vụ chính là tông hợp tín hiệu âm thanh từ các thành phần phố được mã hóa

Tất cả các Layer:

e Ding chung cau tric bé loc dai- filerband

e Ding chung théng tin cua phan dau- header information trong dòng dữ liệu e Déucé kha nang nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cau tric

dòng bít với các phần nhạy với lỗi bite (“header”, “bit location”, “scale factor”, “side information”) và các phân ít nhạy hơn (dữ liệu về các thành phan pho “data of spectral components”)

Trang 4

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

e Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng đữ liệu âm

thanh

e C6 thé str dung tan s6 lay mau 14 32,44.1 hodc 48 kHz e© _ Cho phép hoạt động với các dòng bít giống nhau

Danh sách các chuẩn MPEG:

- MPEG-I1(S 11172,10,92): Mã hóa các ảnh chuyên động và âm thanh kèm theo các phương tiện lưu trữ số với tốc độ đến khoảng 1.5 Mbit/s

e Ba phan dau được chuẩn hóa từ năm 1992

e IS-11172-1 (“Hệ thống”) mô tả đồng bộ và ghép kênh của các tín hiệu video và âm thanh

® [IS-II172-2 (“Video”) mơ tả nén các tín hiệu video, chú trọng vào các tín hiệu progressive scan video, chủ yếu cho các ứng dụng “Video on CD”

e IS-11172-3 (“Âm thanh”) mô tả hệ mã hóa âm thanh chung, với các thành viên tương thích theo kiểu cấu trúc thứ tự (Layer I, II, II)

e IS-11172-4 mô tả các quá trình xác định các thông số của dòng dữ liệu được mã hóa và quá trình dải mã và cho sự thích ứng với yêu cầu thử nghiệm theo yêu câu đặt ra trong các phần khác

® DTR-11172-5 báo cáo kỹ thuật về phần mềm ứng dụng của ba phan MPEG -1,

-MPEG-2 (IS 13818, 11-97): dic diém chung của mã hóa hình ảnh chuyên động và âm thanh theo, chú trọng đến chuẩn video chung, các phần âm thanh mở rong

-MPEG-2 AAC: nén một tín hiệu âm thanh kênh 5.1 vào trong một tốc độ tối thiêu

là 320 Kbps Định dạng 5.1 đề cập đến năm kênh tín hiệu âm thanh cùng với tác dụng của một kênh tăng cường tân số thấp có băng thông giảm

-MPEG-4 (CD — 14496, 11-97): mã hóa các đỗi tượng nghe nhìn, chú trọng đến

các nội dung linh hoạt và mở rộng- là cơ sở cho các chương trình nghe nhìn tương hỗ 4.2.2 Doby AC-3

Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyền hình chất lượng cao HDTV ở nước Mỹ AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luéng bit 384 Kbps Giai doan dau tiên của bộ giải mã hoá AC-3 là lay 512 mau đầu vào và áp dụng biến đổi MDCT Đề tiết kiệm dải động, thì sau đó nó chia các thành phân tần số đầu ra thành các hàm loga và hàm mũ Các giá trị này sau đó được lượng tử hoá được kết hợp với các

kênh khác và được đóng thành các khung để truyền di

Trang 5

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số Tiêu đề đầy đủ của nó là định dạng truyễn nối tiếp cho hai kênh â âm thanh số tuyến tính tương ứng Theo thuật ngữ đơn giản mà có nghĩa nó là âm thanh nối và không nén AES-3 là một sự phát triển chung của Hiệp hội kỹ sư âm thanh - AES (Audio Enginecring Society) và Liên minh phát sóng quảng bá châu Au - EBU (European Broadcasting Union) Tieu chuẩn này dựa trên cân bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đến 100 mét Ba tốc độ

lây mẫu được hỗ trợ là 32, 44.1 và 48 KHz

4.3 Các chuẩn nén ảnh JPEG 4.3.1 Chuẩn JPEG

JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982 Năm 1986, JPEG chinh

thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU Đến năm 1994, JPEG

được khăng định với tiêu chuẩn ISO 10918-1

JPEG là định dạng nén ảnh có tốn thất Tiêu chuẩn này có có thê được ứng dụng

tone nhiều lĩnh vực: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera Nó còn có các định dạng mở rộng khác như jpg, jpeg, jpe, jfif va jif Ky thuat nay có ó thể đạt được hệ số nén hơn tám mươi lần so với ảnh gốc Tuy nhiên, hệ sô nén càng cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ khơng đạt hồn toàn như hình ảnh gốc

Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu Tuy nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá

tốt và ít tính toán hơn so với nén MPEG Nén JPEG có thể thực hiện bởi bốn mode mã hóa: mã hóa tuần tự, mã hóa lũy tiến, mã hóa không tôn thất và mã hóa phân cấp Mã hóa không tốn thất không sử dụng cho video động bởi vì tỉ lệ nén của nó không đủ cao Khai triển DCT duoc chọn là kĩ thuật then chốt trong JPEG vì nó cho ảnh nén chất lượng tốt nhất tại số bit thấp nhất và giải thuật chuyển đổi nhanh, dễ dàng thực hiện bằng phan cung

Định dạng nén JPEG được sử dụng trong tất cả máy ảnh kỹ thuật số có kích thước

rất nhỏ nên thường chụp được nhiều ảnh trên một thẻ nhớ, JPEG dễ hiển thị trên man hình, ảnh có thể chuyển nhanh qua thư điện tử (dung lượng từ 300KB đến 700KB), ảnh

JPEG chất lượng cao có dung lượng khoảng vài MB hay lớn hơn

Nén theo chuẩn JPEG là một tiến trình nhiều bước Trước hết là bước qui tắc hóa (regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế Ảnh màu được chuyên sang dạng YUV hoac CIELAB, trong do thông tin về độ chói (luminance) được tách rời với thông tin về độ màu (chrominance) Một yếu tố được tính tới là mắt người ta nhạy cảm với những thay đổi nhỏ về độ sáng hơn là những thay đổi về màu sắc, đặc biệt ở đầu xanh của phơ Ngồi ra cách làm này còn khai thác thực tế là ảnh thường có nhiều

vùng lớn tại đó các điểm kế nhau rất giống nhau về kênh màu

Trang 6

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Bước tiếp theo là lây mẫu cho các kênh màu (gọi là “downsampling” hoặc “chroma subsampling”) Đây là l trong 2 công đoạn làm mất thông tín và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của JPEG Lay mau (subsampling) nghĩa là loại bỏ có hệ thống các thông tín màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước Nếu bạn thực hiện cứ hai hàng loại bỏ một hàng

và hai cột loại bỏ một cột, bạn giảm được dữ liệu màu đi 75% Khi tời ảnh, trị của các

điểm loại bỏ trước đó được ngoại suy từ những gì còn lại

Bước tiếp theo, ảnh gốc được chia thành các khôi anh (block) nhỏ kích thước 8x8

không chông chéo lên nhau Tiếp theo, gia tri cua mỗi điểm ảnh ở mỗi khỗi khối ảnh sẽ được trừ đi 128 Lý do là do giá trị các điểm ảnh có giá trị từ 0 đến 255 (được mã hố bởi 8 bít khơng dấu), áp dụng biến đối DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến

+1023 (có thê được mã hoá bởi 11 bít có dau) Nhung hệ số DC lại có giải giá trị từ 0 đến

2040 (được ma hoa boi 11 bit khong dau) va can cach xu ly khac 6 phân cứng hoặc phân mềm so với các hệ số AC Chính vì thế việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi

biến đổi DCT cả các hệ số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu

diễn

Với mỗi khối ảnh hai chiều kích thước 8x8, áp dụng: biến đôi DCT dé tao ra mang hai chiều các hệ số biến đối Hệ số có tương ung voi tân số không gian thấp nhất nhưng lại có giá trị lớn nhất được gọi là hệ sô DC (một chiêu), nó tỉ lệ với độ chói trung bình của cả khối ảnh 8x8 Các hệ số còn lại gọi là các hệ số AC (xoay chiều) Theo lý thuyết, biến đối DCT không đem lại sự mat mát thông tin ảnh, mà đơn giản nó chỉ chuyên thông tin ảnh sang miễn không gian mới thuật lợi hơn cho mã hoá ở bước tiếp theo

Mang hai chiều các hệ số biến đối được lượng tử hoá sử dụng bộ lượng tử hóa tỉ lệ đồng nhất Nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc lập Quá trình lượng tử hoá là dựa trên sinh lý của hệ thống mắt người: cảm nhận hình ảnh có độ nhậy kém

hơn ở các hệ số tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp Vì thế các hệ số được chọn sao cho thực hiện lượng tử hố thơ đối với các hệ số tần số cao và lượng tử hoá tinh đối với các hệ số có tần số thấp Bảng lượng tử hoá được lây tỉ lệ để tạo ra các

mức nén thay đỗi tuỳ theo tốc độ bít và chất lượng ảnh Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặc biệt là ở tần số cao Quá trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính gây ra sự tốn hao nhưng lại là nhân tố chính đem lại hiệu suất nén

Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng 0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình Zigzag tạo thành mảng một chiều Cách sắp xếp này cho phép giảm thiêu năng lượng tôn hao trung bình và tạo ra day cac gia trị bang 0 liên tiếp Kiểu quét Z1gzag này cũng nhằm đặt các hệ số có tần số thập lên trước các hệ số có tần số cao Các hệ số này sẽ được mã hóa dựa trên bảng mã Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất

Trang 7

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

sai - DPCM Bước cuối cùng của quá trình nén là sử dụng mã hoa entropy chang han ma hoa Huffman cho cac AC va DC (sau khi đã mã hoá DPCM) đê tăng thêm hiệu quả nén cũng như giảm thiêu lỗi

Ở phía giải nén, luồng bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tu Mang hai chiêu các hệ số DCT kết quả sẽ được biên đôi IDCT rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con kích thước 8x8 Chú ý là bảng lượng tử hoá và mã hoá entropy ở cả phía nén và giải nén là đồng nhất Hai thành phần hiệu màu cũng được mã

hoá tương tự như thành phân chói ngoại trừ khác biệt là chúng được lây mẫu xuống hệ số 2 hoặc 4 ở cả chiều ngang và dọc trước khi biến đổi DCT Ở phía giải nén , thành phan màu sẽ được nội suy độ chói (Y) và hiệu mâu (U, V) thành R, G và B

Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:

Ảnh gỗc Chuyên thứ tự Giá trị điểm Biển đổi Lượng tử hoá

———| quét manh sang me anh try di 128 h` 2D-DCT x8 > tile cac block 8x8 Ma hoa DPCM cáchệsũDU |q_ 4+—————N _ Mahoa entropy

Dữ liệu ảnh dạng File Quét các hệ số

Trang 8

Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh CHải lượng tử S DPCM hệ số DC Di liệu anh — nhận được hoặc can ———x+ Giaiméa entra con > Giải lượng từ từ đạng lưu trữ ay hoa Giải quét Zigzag cac hé số AC

Ảnh khỏi phục Chuyển đổi các Cũng giả trị Biển đủi 2D-

+ ——| lchúi 5xö thành moidiém anh Ff IDCT 8x8 thứ tự quét thêm 128 mảnh Hình 4.2: Sơ đồ quá trình giải nén theo chuẩn JPEG 4.3.2 Chuẩn JPEG-2000

Chuan JPEG ban dau da thu được sự đón nhận rộng rãi và hiện tại có mặt ở khắp

nơi thông qua các ứng dụng của máy tính: nó là khuôn dạng chính cho các ảnh chụp trong web toàn cầu và được sử dụng rộng rãi trong lưu trữ hình ảnh Hơn nữa, ảnh sô hóa ngày càng phố biến với người dùng và yêu cầu chất lượng ngày càng tăng lên, vì vậy các vẫn đề xử lý ảnh cũng tăng theo Nén hình ảnh không chỉ là làm giảm dung lượng lưu trữ và các yêu cầu băng thông, mà còn cho để nguyên phớp tách, ghép dé sáp xêp xử lý và đáp ứng các mục tiêu trên các ứng dụng và thiết bị cụ thể Ngoài ra, yêu cầu về hiệu suất nén tốt hơn với tỷ số nén cao đã dẫn tới sự phát triên chuẩn JPEG-2000

Hệ thông nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn han các chuẩn công nghệ JPEG truyện thông, cho dù JPEG-2000 không phải là một chuân mới hoàn toàn mà được phát triên từ các tiêu chuân đã có

Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các miền quan tâm, các thành phân và hơn nữa, tất cả chúng được đưa vào một dòng bit nén đơn Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cân thiết cho bất kỳ một

thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuân JPEG-2000 Tính tương thích này là một trong những ưu điểm nỗi trội mà các kỹ thuật xử lý JPEG truyền thống gặp rất

nhiều khó khăn

Trang 9

Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

trong thê hiện biến đối hình ảnh Sơ đồ khối của quá trình nén và giải nén theo chuẩn JPEG-2000 mô tả ở hình 4.3 dưới đây: — — - Ảnh sau khi

Ảnh gốc Í %ữ lý trước Biến đôi Bien doi ma hoa biến đỏi thuän liên thuần riêng Mã hoá + L j \_thanh phan J thành phân / ` ) (a)

Anh mãhoác Giải mã hoá Giai lương từ hoá ngwoc riêng Bien do: ngược liên Bien doi Xử lý sau |£ành khỏi phục biến đổi hy)

" thành phần thành phần — (b)

Hình 4.3: Sơ đồ quá trình nén và giải nén theo chuẩn JPEG-2000

Bước 1: Xử lý trước biến đổi

Do sử dụng biến đổi Wavelet, JPEG2000 cân có đữ liệu ảnh đầu vào ở dạng đối

xứng qua 0 Xử lý trước biến đối chính là giai đoạn đảm bảo đữ liệu đưa vào nén ảnh có dạng trên Ở phía giải mã, giai đoạn xử lý sau biến đôi sẽ trả lại giá trị gốc ban đầu cho

dỡ liệu ảnh

Bước 2: Biến đối liên thành phần

Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh JPEG-2000

sử dụng hai loại biến đổi liên thành phân là biến đôi màu thuận nghịch (Reversible Color

Transform - RCT) va bién d6i mau khong thuan nghich (Irreversible Color Transform -

ICT) trong đó biến đôi thuận nghịch làm việc với các giá trị nguyên, còn biến đôi không

thuận nghịch làm việc với các giá trị thực ICT và RCT chuyên dữ liệu ảnh từ không gian màu RGB sang YCrCb RCT được áp dụng trong cả hai dạng thức nén có tôn thất và không tôn thất, còn ICT chỉ á áp dụng cho nén có tôn thất Việc áp dụng các biến đôi này trước khi nén ảnh không năm ngoài mục đích làm tăng hiệu quả nén Các thành phân Cr,

Cb có ảnh hưởng tất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y có ảnh hưởng tất lớn tới ảnh

Bước 3: Biến đổi riêng thành phan

Biến đối riêng thành phần được áp dụng trong JPEG-2000 chính là biến đổi Wavelet

Bước 4: Lượng tử hoá - Giải lượng tử hoá

Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá Quá trình lượng tử

hoá cho phép đạt tỷ lệ nén cao hon bằng cách thể hiện các giá trị biến đối với độ chính xác tương ứng cân thiết với mức chỉ tiết của ảnh cần nén Các hệ số biến đối sẽ được

Trang 10

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

lượng tử hoá theo phép lượng tử hố vơ hướng Các hàm lượng tử hoá khác nhau sẽ được áp dụng cho các băng con khác nhau và được thực theo biêu thức:

L | AX, V J⁄

TA sem Ù '(X.] } (4.1)

với 4 là bước lượng tử, U(+, y) là giá trị bang con dau vao; V(x, y) 1a giá trị sau lượng tử hoá Trong dạng biến đổi nguyên, đặt bước lượng tử bằng 1.Với dạng biến đôi thực thì bước lượng tử sẽ được chọn tương ứng cho từng băng con riêng rẽ Bước lượng tử của

mỗi băng do đó phải có ở trong dòng bít truyền đi để phía thu có thể giải lượng tử cho

ảnh Công thức giải lượng tử hoá là:

/(x.vì=)

Ulx.y)}= [PF (x.]Ì+?sgnÏ |x w lịA (4.2)

r là một tham số xác định dấu và làm tròn, các giá tri U(x, y); V(x, y) tuong img 1a cdc gid trị khôi phục và giá trị lượng tử hoá nhận được JPEG-2000 không cho trước r tuy nhiên

thường chọn z = 1/2

Bước 5: Mã hoá

JPEG-2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng nhiều

phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi Wavelet khác nhau để có thé thu được chất lượng ảnh tương ung với ứng dụng cần xử lý Điều này giúp cho JPEG- 2000 mém dẻo hơn nhiều so với JPEG Việc áp dụng các phương pháp mã hoá khác nhau cũng được mở rộng sang lĩnh vực nén ảnh động bằng biến đôi Wavelet Trong thực tế các phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đôi Wavelet cũng như JPEG-2000 thì có hai phương pháp được coi là cơ sở và được áp dụng nhiều nhất: phương pháp SPIHT và phuong phap EZW (Embedded Zerotree Wavelet Encoder)

JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kê so với JPEG Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất

là 2 lần so với JPEG Với tỷ số nén cao, chất lượng của hình ảnh giảm ít hơn Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu cầu lưu trữ trong quá

trình mã hóa và giải mã Một tác động khác của điều này là những hình ảnh có thê tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị

4.4 Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21 4.4.1 Tông quan về MPEG

_ MPEG (Moving Picture Expert Group) dugc ra doi vao nam 1988 nhằm mục đích

chuân hoá cho nén tín hiệu âm thanh và video Nén tín hiệu video theo chuân MPEG là

Trang 11

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

MPEG khong phai là một công cụ nén đơn lẻ mà ưu điểm của nén ảnh dùng MPEG chính là ở chô MPEG có một tập hợp các cơng cụ mã hố chuân, chúng có thê

được kêt hợp với nhau một cách linh động đê phục vụ cho một loạt các ứng dụng khác

nhau

Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiên xử lý

(Preprocessing), đoán trước sự chuyển động của cdc frame ở bộ mã hoá (temporal prediction), bù chuyên động ở bộ giải mã (motion compensation) và mã lượng tử hoá (quatisation coding) Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thơng tin khó mã hố nhưng không quan trọng cho sự cảm thụ của mắt người Kỹ thuật đoán chuyên động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ có nhiều khả năng giống với các Írame đứng ngay phía trước và ngay phía sau nó Các bộ mã hoá sẽ tiến hành quét lần lượt từng phân nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biét vị trí và hướng chuyên động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hién tai (motion compesated residual) va cac khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đối từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền

thêm một cách đêu đặn vào các vị trí trống trong ảnh được khôi phục

Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian

(spatial coding) và thời gian (temporal coding) Trong MPEG, việc loại bỏ dư thừa về

thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau

giữa các ảnh liên tiếp (Inter-frame techniques) Chúng ta có thể sử dụng tính chất này để tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó (“predicted”) Do vậy ở phía bộ mã hoá, ta chỉ cần gửi những bức ảnh có thay đổi so với những ảnh trước, sau đó ta lại dùng phương pháp nén vê không gian để loại bỏ sự dư thừa về không gian trong chính bức ảnh sai khác này Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques) JPEG chỉ áp dụng phương pháp nén theo không gian vì nó được thiết kế để xử lý và truyền các ảnh tĩnh Tuy nhiên nén tín hiệu theo phương pháp của JPEG cũng có thê được dùng để nén các bức ảnh một cách độc lập trong dãy tín hiệu video ứng dụng

này thường được gọi là JPEG động (Motlon JPEG) Trong một chu kỳ gửi một dãy các bức ảnh theo kiểu JPEG động, ảnh đầu tiên được nén nhờ sự loại bỏ độ dư thừa về không gian, sau đó các ảnh tiếp theo được nén nhờ sự loại bỏ độ dư thừa về thời gian (nén liên ảnh) Quá trình được lặp đi lặp lại cho một dãy các bức ảnh trong tín hiệu video

Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối anh 8x8

picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong cùng một bức ảnh Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc

tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa

Trang 12

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

các bức anh (Motion compesated prediction between frames) Trong nhiều sơ đồ nén MPEG, nguoi ta thường kêt hợp cả việc tiên đoán bù chuyên động theo thời gian và phép biên đôi thông tin theo không gian đê đạt hiệu quả nén cao (Hybrid DPCM/DCT coding of video)

Hâầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lây mẫu bố xung (Subsampling) và lượng tu hoa (Quantization) trudc khi ma hoa Lay mẫu bổ xung nhằm mục đích để làm giảm kích thước bức ảnh đầu vào theo cả theo chiều ngang và chiêu dọc, như vậy sẽ giảm số lượng các điểm ảnh trước mã hoá Cũng nên nhớ rằng trong một số trường hợp người ta còn lây mẫu bô xung theo thời gian để làm giảm số lượng các bức ảnh trong dãy

ảnh trước khi mã hoá Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư

thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ Thường thường, chúng ta có thé phân biệt sự thay đổi về độ sáng của ảnh (changes in Brightness) tốt hơn so với sự thay đối về màu (Chromaticity changes) Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành

chia bức ảnh thành các thành phần Y (độ chói) và U, V (các thành phân hiệu mẫu) Các tín hiệu video thành phan nay sé duoc lay mau (samples) va s6 hod (digitised) dé tao nén các điểm ảnh rời rạc theo tỷ lệ 4:2:2 và 4:2:0

Kỹ thuật tiên đoán bù chuyên động được sử dụng như là một trong những công cụ mạnh để làm giảm sự dư thừa về không gian giữa các bức ảnh Khái niệm về bù chuyên động là dựa trên sự phán đoán hướng chuyền động của các bức ảnh tức là các ảnh thành phân trong dãy video sẽ được thay thế gần đúng Kỹ thuật tiên đoán bù chuyên động giữa các bức ảnh được xem như là biện pháp đề hạn chế bớt các thông số của chuyền động bởi việc dùng các vector chuyên động để mô tả sự dịch chuyển của các điểm ảnh Kết quả

tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức

ảnh đã mã hoá được truyền phía trước của nó Cả hai thông số, sai số chuyển động (biên độ) và các vectors chuyên động (hướng chuyền động) đều được truyền tới phía bên nhận Tuy nhiên do có môi quan hệ tương quan chặt chẽ giữa các điểm ảnh về không gian (rùng về không gian), một vector chuyên động có thê được dùng cho một khối các điểm ảnh gồm các pixels lân cận nhau (MPEG -1 và MPEG -2 dùng các khối 16 x16 pixels)

4.4.2 Cầu trúc dòng bít

Đề tạo khả năng chống lỗi khi truyền tín hiệu qua kênh có nhiễu, bộ ước đoán phải

được xác lập lại (reset) thường xuyên và mỗi ảnh nén trong khung hay nén ước đoán

được phân đoạn thành nhiều lát nhỏ (slice) cho việc tái đồng bộ tại bộ giải mã phía thu

Cấu trúc dòng MPEG gồm 6 lớp: lớp dãy ảnh (sequence), lớp nhóm ảnh (GOP), lớp ảnh

(pictrue), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối (Block) Mỗi lớp này hỗ

trợ một chức năng nhất định: một là chức năng xử lý tín hiệu (DCT, bù chuyển động) hai

là chức năng logic (tái đồng bộ, điểm truy xuất ngẫu nhiên) Quá trình tạo ra dòng bit MPEG là ghép kênh: kết hợp các dòng dữ liệu vào, dòng dữ liệu ra, điều chỉnh đồng bộ

Trang 13

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

1 Khối: Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương

pháp nén DCT

2 Tổ hợp cấu trúc khối (macroblock): một câu trúc khối là một nhóm các khối tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh Câu trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo câu trúc mẫu được sử dụng Thông tin đầu tiên trong cấu trúc khối mang dạng của nó (là câu trúc khối Y hay Cr, Cb) và các vector bù chuyên động tương ứng

3 Mảng (Slice): mảng bao gồm một vài cau trúc khôi kề nhau Kích thước lớn

nhất của mảng có thé bao gom toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một cau truc khối Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số cân bằng lượng tử

4 Ảnh (Picture): lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải mã có thê sắp xếp các ảnh lại theo một thứ tự đúng Trong thông tin đầu của ảnh còn chứa các thông tin về đồng bộ, độ phân giải và phạm vi của vector chuyển động Trong MPEG, có 3 loại ảnh khác nhau được dùng đề mã hoá cho các khối ảnh:

e Kiéu anh ‘Intra’ (T-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về

không gian mà không có yếu tố thời gian tham gia vào quá trình I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã

e© Ảnh “Predictive' (P-pictures) có thê sử dụng các ảnh I hoặc P ngay sát phía trước

nó để bù chuyên động và chính nó cũng có thể được dùng để tham khảo cho việc

tiên đoán các ảnh khác tiếp theo Mỗi khối ảnh trong P-picture có thể hoặc được

mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (Intra-coded)

Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pIctures được tăng lên một cách đáng kê so với ]-pictures

e Anh ‘Bidirectionally-Predictive’ pictures hay B- Pictures cé thé str dung cdc anh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyên động và do vậy cho kết quả nén cao nhất Mỗi khối trong B-pictures có thê được tiên đoán theo chiều ngược,

xuôi, cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược từ một bức ảnh phía sau nó, bộ mã hoá sẽ tiễn hành sắp xếp lại các bức ảnh từ thứ tự

xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyện Do vậy từ đầu ra của bộ mã hoá, B- -pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp nhau được truyên

5 Nhóm ảnh (GOP): Cac anh I, P, B-pictures thuong xuất hiện theo một thứ tự lặp

đi lặp lại một cách tuân hoàn, do đó ta có khái niệm vê nhóm các bức ảnh GOP (Group of

Trang 14

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Pictures) Đối với chuẩn nén MPEG, chất lượng ảnh không những phụ thuộc vào tỷ lệ nén trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh GOP Nhóm ảnh là khái niệm cơ bản của MPESG, nó là đơn vị mang thông tin độc lập của MPEG GOP bắt

buộc phải bắt đầu bằng một ảnh I cho phép xác định điểm bắt đầu để tìm kiếm và biên tập (thông tin đầu gồm 25 bit chứa mã định thời và điều khiển) và tiếp sau nó là một loại

các ảnh P và B

Một ví dụ của GOP ở dạng ảnh tự nhiên xuất hiện theo thứ tự như sau:

B, Bz I; By Bs B7 Bg Po Bio Buy Piz

Thứ tự xuất hiện của chúng trên đường truyền bị thay đổi do sự sắp xếp lại của bộ mã hoá như sau:

I; Bị Bo Ps Ba Bs Po By Bs Pi Bio Bu

Cau tric của một GOP có thé được mô tả bởi hai tham số: N 1A s6 cdc anh trong

GOP va Xí là khoảng cách giữa các ảnh P-pIctures Nhóm GÓP này được miêu tả như NV = 12 vàM =3

6 Doan (chương trình) video: đoạn video bao gồm thông tin đầu, một số nhóm

ảnh và thông tin kết thúc đoạn Thông tin đầu của đoạn video chứa đựng kích thước mỗi chiêu của ảnh, kích thước của điểm ảnh, tốc độ bit của đòng video số, tân số ảnh và bộ đệm tối thiểu cần có Đoạn video và thông tin đầu tạo thành một dòng bit được mã hóa

goi la dong co ban (Elementary Stream) 2222 Khối điểm Y Cr Cb anh 8x8 (Block) Marcroblock i _ a Mang (Slice) Khung (Frame) S

Nhóm anh (Group Of Pitues) Hình 4.4: Cấu trúc dòng bit MPEG

NT

Trang 15

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Thông tin Thông tin kết Dòng cơ số

đầu đoạn thúc đoạn

Đoạn video thứ n- Í Đoạn video thứ n Đoạn video thứ n+Ï Thông tin dau nhom anh GOP#p | | GOP#p:l GOP#p+2 || GOP#p+3 GOPip+4 Thông tin đầu khung ảnh Khung | Khung B Khung P Khung B Khung | Thông tin đầu mảng MB | MB | MB | MB | MB | MB | MB | MB | MB | MB | MB | MB | MB MB = Macroblock Vector chuyen vlylylyleœlc Thuộc tính MB động k Hệ số DCT | EOB | | | Khdi 8x8 điểm chói | | Hình 4.5: Kiến trúc dòng dữ liệu MPEG 4.4.3 Nguyên lý hoạt động

Hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại thời điểm

đang xét Quá trình nén theo chuan MPEG là sự kết hợp giữa nén trong ảnh và nén liên

ảnh Tín hieu đầu vào có dạng 4:2:2 hoặc 4:2:0 được nén liên ảnh nhằm tạo ra ảnh khác biệt ở đầu ra bộ cộng Ảnh khác biệt này sau đó được nén trong ảnh qua các bước: biến

Trang 16

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

đối DCT, lượng tử hóa, mã hóa Cuối cùng ảnh này được trộn cùng với vector chuyên

động đưa đên bộ khuyêch đại đệm sẽ thu được ảnh đã nén Ta xét ví dụ bộ nén theo

phương pháp trên, dùng ảnh [ và P trong câu trúc GOP (Hình 4.6)

Ảnh thứ nhất trong nhóm phải được mã hóa như ảnh loại I Trong trường hợp này,

sau khi lây mẫu lần đầu, tín hiệu video được truyền đến khối biến đôi DCT cho các MB

riêng, sau đó bộ lượng tử và mã hóa entropy Tín hiệu ra từ bộ lượng tử hóa được đưa

đến bộ lượng tử hóa ngược và biến d6i DCT ngược, sau đó được lưu vào bộ nhớ ảnh

Trong trường hợp mã hóa ảnh loại P, mạch nén chuyên động làm việc Trên cơ sở

so sánh ảnh đang xét và ảnh trong bộ nhớ, sẽ xác định được các vector chuyển động, sau đó dự báo ảnh Sự chênh lệch giữa ảnh đang xét và dự báo ảnh của nó được biến đổi

DCT, lượng tử hóa và mã hóa entropy Cũng như trong trường hợp các ảnh loại I, tín hiệu ra từ bộ lượng tử hóa được giải lượng tử hóa và biến đôi DCT ngược rồi cộng với ảnh dự báo đang xét và lưu vào bộ nhớ

Tốc độ bit của tín hiệu video được nén không có định, phụ thuộc vào nội dung ảnh đang xét Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác định tốc độ

cho dung lượng kênh truyền Do đó, tại đầu ra bộ mã hóa phải có bộ nhớ đệm đủ lớn Bộ

mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm Khi số liệu trong bộ nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biễn đổi DCT ngược được lượng tử hóa ít chính xác hơn Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm chứa số liệu quá ít, thì việc lượng tử hóa các hệ số sẽ tăng lên

Điều khiến tốc độ bit Bảng lượng tử

Video |a:2-2 " DCT Lượng |Mãhóal |Trện| _ |Khuyếch| Video nến

4:2:0 tử hóa "| entropy : *Ì đại đệm Anh dv Anh so doan sanh » ry r Vector chuyén déng _| Xác định vector chuyển động

a Điêu khiển nhớm anh

Hình 4.6: Bộ mã hóa MPEG tiêu biểu

Trang 17

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Quá trình giải mã: Theo lý thuyết, quá trình giải mã là ngược lại với quá

trình mã hóa và được minh họa trên hình 4.7 Tái lập trậttự | Ra Vào | VLD | „| Giải lượng tử »| DCT @ >| khung ảnh | Ỳ A Bộ mã hoá Hệ số DCT | ước đoán

| Các vectơ chuyển động -| Ước đoán | Lưu trữ khung _ chuyển động ảnh tham khảo

Hình 4.7: Bộ giải mã MPEG tiêu biểu

Chuỗi tín hiệu vào được giải mã entropy tại VLD (Variable-Length Decoder)

Sau đó tách số liệu ảnh (hệ số biến đôi DCT) ra khỏi các vector chuyên động Số liệu sẽ

được giải lượng tử hóa và biến đôi DCT ngược Trong trường hợp ảnh loại I bắt đầu ở

mỗi nhóm ảnh trong chuỗi, sẽ nhận được ảnh đầu ra hoàn chỉnh bằng cách trên Nó được

lưu trong bộ nhớ ảnh và được sử dụng để giải mã các ảnh tiếp theo

Trong trường hợp ảnh loại P sẽ thực hiện giải lượng tử và biễn đôi DCT ngược với việc sử dụng các vector chuyên động và ảnh lưu vào bộ nhớ ảnh Trên cơ sở đó xác định được dự báo ản đang xét Ta nhận được ảnh ra sau khi cộng dự báo ảnh và kết quả

biến đôi DCT ngược Ảnh này cũng được lưu vào bộ nhớ đê có thê sử dụng như là chuẩn khi giải mã các ảnh tiếp theo

4.4.4 Các chuẩn nén MPEG

4.4.4.1 MPEG-1

Chuẩn đâu tiên được đưa ra bởi MPEG, có tên gọi phô biễn là MPEG-1, được thiết

kê đê cung câp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM Chuan MPEG-1 bao gém 3 phan Phan 1 dé cập tới các van dé hệ thông (bao gồm cả ghép kênh video và audio đã mã hóa), phân 2 đề cập tới video nén và phân 3 là về audio nén Phân 2 (video) được phát triển với mục đích hỗ trợ việc mã hóa có hiệu quả video cho các ứng dụng phát lại trên CD và tạo ra chất lượng video tương đương hoặc tốt

hơn băng video VHS vê tốc độ bit CD (khoảng 1,2 Mbps đôi với video) Khi mà hau hét

các ứng dụng của người tiêu dùng đòi hỏi chỉ cần giải mã và phát lại, không bao gồm mã hóa thì nảy sinh yêu cầu phải tối thiểu hóa sự phức tạp trong giải mã Do đó, quá trình

Trang 18

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

giải mã của MPEG-1 có thể xem là đơn giản hơn so với mã hóa (không giống như JPEG, bộ mã hóa và giải mã có mức độ phức tạp tương tự nhau)

Cac dac tinh cia MPEG-1

Tín hiệu video đầu vào tới một bd ma héa video MPEG-1 c6é khuén dang 18 4:2:0 (Y:Cr:Cb) với độ phân giải không gian thông thường là 352x288 hoặc 352x240 pixels Mỗi khung video được xử lý theo từng khối của một macroblock, tương ứng với một vùng 16x16 pixel trong khung hiên thị Vùng này được tạo ra từ 16x16 mẫu độ sáng, 8x8

mẫu Cr và 8x8 mẫu Cb (vì Cr và Cb phải bằng một nửa độ phân giải ngang và dọc của

thành phần độ sáng) Một macroblock bao gồm 6 khối 8x8: 4 khối độ sáng (Y), một khối

Cr và một khối Cb

Mỗi khung video được mã hóa để tạo ra một bức ảnh mã hóa Có 3 loại chính: các ảnh L, các ảnh P và các ảnh B (Chuân này còn xác định thêm một loại ảnh là ảnh D

nhưng loại này hiêm khi sử dụng trong các ứng dụng thực tê)

Ảnh loại I: khơng có dự đốn bù chuyển động Ảnh loại I được sử dụng để làm tham

khảo cho những ảnh dự đoán xa hơn

Ảnh loại P: sử dụng dự đoán bù chuyên động từ một ảnh tham khảo (ảnh P hoặc ảnh I có trước ảnh P hiện tại) Do đó một ảnh loại P được dự đoán sử dụng dự đoán chuyên tiêp và bản thân một ảnh P có thê được sử dụng làm tham khảo cho các ảnh dự đoán xa hơn

Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc anh I trước và sau ảnh B hiện tại Hai vectơ chuyển động được tạo ra cho mỗi

macroblock trong một ảnh B: một chỉ tới một vùng thích hợp trong ảnh tham khảo trước đó (một vectơ chuyên tiếp) và một chỉ tới một vùng thích hợp trong ảnh tham khảo tương lai (vectơ hôi tiếp) Một macroblock dự đoán bù chuyên động có thê được thực hiện theo 3 cách: dự đoán chuyên tiếp sử dụng vecto chuyên tiếp, dự đoán hồi tiếp sử dụng vecto hồi tiếp hoặc dự đoán hai chiều (trong đó sự tham khảo dự đoán được thực hiện bằng cách lây trung bình các tham khảo dự đoán chuyển tiếp và hoi tiếp) Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán (chuyên tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trong macroblock sai phân Bản thân các ảnh loại B không

được sử dụng như các tham khảo dự đoán cho bất kỳ khung dự đoán xa hơn nào

Chuan MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,

chuẩn này mô tả cú pháp mã hóa và một bộ giải mã “tham khảo' giả thuyết Trong thực tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chứa những chức năng nhất định

4.4.4.2 MPEG-2

Trang 19

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

đặc tính chủ yếu đã được yêu câu đối với nguyên lý mã hóa video Nó phải hỗ trợ hiệu

quả các kích thước khung lớn hơn (thường là 720x576 hay 720x480 pixel cho độ phân

giải của ITU-R 601) và mã hóa video kết hợp Với những độ phân giải chất lượng truyền

hình, video kết hợp tạo ra hình ảnh video mịn hơn MPEG-2 đã ra đời nhằm đáp ứng những yêu câu này

MPEG-2 bao gồm 3 phần chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) và Systems (định nghĩa, những phân chỉ tiệt hơn MPEG-I1, ghép kênh và truyện luông audio/visual mã hóa) Những điêm nâng cao được thêm vào bởi MPEG-2 bao gom:

Mã hóa hiệu quả video với chất lượng truyễn hình: Ứng dụng quan trọng nhất của MPEG-2 là truyện hình sô quảng bá Các chức năng chính của MPEG-2 được đánh giá là có hiệu quả trong mã hóa những độ phân giải truyên hình ở tôc độ bịt trong khoảng từ 3-5 Mbps

Hỗ trợ mã hóa video két hop: MPEG-2 video có một vài đặc tính hỗ trợ mã hóa

một cách linh hoạt video kết hợp Hai trường tạo ra một khung kết hợp hoàn chỉnh có thê được mã hóa như những hình ảnh riêng biệt, mỗi trường sẽ được mã hóa thành một ảnh I, P hoặc B Các ảnh trường P và B có thê được dự đoán từ một trường trong khung khác hoặc từ trường khác trong khung hiện tại

Kha nang phan cap: Những chế độ tiên tiến của JPEG được mô tả trước đó là các dạng mã hóa phan cap Mot luong bit ma hoa phan cap bao gôm một lớp cơ sở và một hoặc nhiêu lớp tăng cường Lớp cơ sở có thê được giải mã đê tạo ra chuỗi video có thê

nhận diện mà có chât lượng nhìn bị hạn chê, và một chuôi chât lượng cao hơn có thê

được tạo ra bởi việc giải mã lớp cơ sở cộng với những lớp tăng cường, với mỗi lớp tăng cường thêm vào sẽ nâng cao chât lượng của chuôi giải mã MPEG-2 hỗ trợ 4 chê độ phân câp:

> Phân cấp theo không gian > Phân cấp theo thời gian

> Phan cap SNR

> Phân vùng dữ liệu

Profile và level: Hầu hết các ứng dụng đều chỉ yêu cầu một tập nhỏ giới hạn các chức năng trên diện rộng hỗ trợ bởi MPEG-2 Đê khuyên khích khả năng liên kêt đôi với các ứng dụng “chủ yêu' bât kỳ (ví dụ truyên hình sô), chuân này bao gôm một tập các

profile và level đê nghị, môi tập định nghĩa một tập con nhật định các chức năng cua

MPEG-2 Môi profile xác định một tập các khả năng và những khả năng quan trọng Còn môi level sẽ xác định các độ phân giải không gian và thời gian

Chuân MPEG-2 cũng định nghĩa những kết hợp nhất định đề nghị cho các profile và

level Main profile/low level (chỉ sử dụng mã hóa khung) thực chât là MPEG-1 Main

profile/main level phu hợp với truyện hình sô quảng bá và đây là sự kệt hợp profile/level được sử dụng rộng rãi nhât Main profile/high level phù hợp với truyện hình độ nét cao (HDTV)

Trang 20

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

4.4.4.3 MPEG-4

Các chuẩn MPEG-I và MPEG-2 xử lý các khung video hoàn chỉnh, mỗi khung được mã hóa như một đơn vị Tiêng lẻ Chuân MPEG-4 được phát triên với mục đích mở

rộng khả năng của những chuân trước đó theo một sô hướng

Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-I và MPEG-2 có hiệu quả chấp

nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps Tuy nhiên, nhiêu ứng dụng nối bật (đặc biệt là các ứng dụng dựa trên Internet) yêu câu tốc độ bit truyền rất thập hơn nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp

Hỗ trợ mã hóa dựa trên đối tượng: Có thể nói hầu hết sự thay đôi nguyên tắc trong chuẩn MPEG-4 đều hướng đến mã hóa dựa trên đối tượng hay dựa trên nội dung, trong đó một cảnh video có thê được xử lý như một tập các đối tượng nền và đối tượng

cận cảnh hơn là chỉ như một chuỗi các khung hình chữ nhật Loại mã hóa này mở ra một dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một cảnh, dùng lại các thành phan canh, ghép lai (cac vat thể từ một số nguồn được kết hợp trong một cảnh) và độ tương tác cao Khái niệm cơ sở sử dụng trong MPEG-4 Visual là

VO (Video Object) Một cảnh video (VS) (một chuỗi các khung video) được tạo thành từ một số các VO MPEG-4 cung cấp các công cụ cho phép mỗi VO được mã hóa một cách độc lập, mở ra một nhiều khả năng mới Dưới dạng VO, một “khungˆ tương đương với một mặt phẳng đối tượng video (VOP — Video Object Plane) Một cảnh hoàn chỉnh có thê

được mã hóa như một VOP đơn hình chữ nhật và điều này tương đương với một bức ảnh

dưới dạng MPEG-I và 2

Mã hóa dựa trên bộ công cụ: MPEG-I1 có độ linh động rất hạn chế, MPEG-2 đưa

ra khái niệm về “bộ công cụ” gôm các profile và level mà có thê kết hợp theo nhiều cách cho các ứng dụng khác nhau MPEG-4 mở rộng đặc điểm này thành một tập hợp các công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một khung chuẩn hóa cho phép các công cụ mới được thêm vào “bộ công cụ'

Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thê

được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các công cụ cũng tiếp tục tăng lên

4.4.4.4 MPEG-7

Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để

mô tả nhiêu loại thông tin đa phương tiện với các codec chuân, cũng như những cơ sở dữ liệu khác và thậm chí cả thông tin nghe-nhìn tương tự Các bộ mô tả cùng với các cơ chê mô tả sẽ được kêt hợp với bản thân nội dung đê tạo ra một phương pháp tìm kiêm tài liệu nhanh và có hiệu quả của người dùng

Trang 21

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

Một sự kiện nghe nhìn xác định có thê được mô tả với nhiều tập hợp đặc tính khác

nhau nếu những ứng dụng của chúng là khác nhau Để mô tả những sự kiện về thị giác,

đầu tiên chúng được mô tả bởi độ trừu tượng thấp như hình dạng, kích thước, bố cục,

màu sắc, sự chuyên động và các vị trí của chúng trong khung hình ảnh Độ trừu tượng cao hơn là sự mô tả mối quan hệ thuộc về ngữ nghĩa giữa những sự trừu tượng mức thấp

hơn ở trên Tất cả những mô tả đều được mã hóa theo một cách mà chúng có thé duoc tìm kiếm một cách hiệu quả nhất

Cùng với việc mô tả nội dung, có thê cần thêm một số loại thông tin khác về dữ liệu

đa phương tiện, ví dụ:

e Dang: vi du nhu co chế mã hóa được sử dụng (như JPEG, MPEG-2, ), hoặc kích thước toàn bộ dữ liệu

° Những điều kiện để truy cập tài liệu: có thể bao gồm thông tin về bản quyên,

giá,

® Sự phân loại: sự phần loại nội dung vào một số loại được định nghĩa trước

e_ Liên kết đến dữ liệu liên quan khác: thông tin này sẽ giúp người dùng tăng được

tôc độ của hoạt động tìm kiêm

e_ Bối cảnh: đỗi với một số sự kiện được ghi lại, một điều quan trọng là biết được sự kiện đặc biệt của quá trình ghi lại đó (ví dụ, World Cup 2002, trận chung kêt diên

ra giữa Brazil và Đức) Phạm vỉ ứng dụng

Các phân tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng Hiện nay MPEG-7 cũng tạo ra mạng lưới có khả năng tìm kiêm nội dung đa phương tiện như khả năng tìm kiêm văn bản Điêu này có thê áp dụng cho việc thu được nội dung lớn cũng như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhăm mục

đích mua săm Thông tin sử dụng cho việc khôi phục nội dung có thê được sử dụng bởi các thực thê, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân

Tat ca cdc vùng ứng dụng tạo ra việc sử dụng đa phương tiện đều có thể thu được lợi ích từ MPEG-7 Một sô miên có thê tìm thây sự hữu ích của MPEG-7 như:

“ Kiến trúc, di sản thực và thiết kế nội thất (ví dụ như tìm kiếm các ý tưởng) " Lựa chọn đa phương tiện quảng bá (ví dụ các kênh radio và TV)

" Dịch vụ văn hóa (các bảo tàng lịch sử, phòng trưng bày nghệ thuật, )

"Các thư viện số (danh mục hình ảnh, từ điển âm nhạc, danh mục hình ảnh sinh dược, phim, video va radio thu được)

" Thương mại điện tử (ví dụ quảng cáo cá nhân, các danh mục trực tuyến, danh mục

các cửa hàng điện tử)

“ Giáo dục (nơi chứa các khóa học đa phương tiện, tìm kiếm đa phương tiện dữ liệu hồ trợ)

Trang 22

Xứ lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

= Giai tri tai nha (vi dụ các hệ thông cho quản lý các bộ sưu tập đa phương tiện cá

nhân, bao gôm cả sự thao tác đôi với nội dung như tạo video tại nhà, tìm kiêm trò

chơi)

“Các dịch vụ pháp y (nhận dạng các đặc điểm cá nhân, pháp lý)

" Nghê báo (tìm kiêm lời nói của một nhà chính trị nào đó thông qua tên, giọng nói hoặc khuôn mặt của người đó)

" Các dịch vụ danh bạ đa phương tiện (ví dụ các trang vàng, các hệ thống thông tin du lịch, thông tin địa lý)

= Bién tap đa phương tiện (ví dụ các dịch vụ thông tin điện tử cá nhân)

= Kha nang phán đoán từ xa (ví dụ như nghiên cứu bản đồ, nghiên cứu mối quan hệ của sinh vật sống với môi trường, quản lý nguôn tài nguyên thiên nhiên)

“ Mua sắm (ví dụ tìm kiếm những mẫu quân áo mà bạn yêu thích)

= Gidm sat (ví dụ điều khiến giao thông, vận tải trên biến, những thử nghiệm không

mang tính phá hoại trong môi trường đôi địch) 4.4.4.5 MPEG-21

Ngày nay công nghệ đa phương tiện đã trở nên tiên tiến đến mức có thê truy cập vào

một lượng rất lớn thông tin và các dịch vụ từ bất kỳ đâu và bất kỳ lúc nào thông qua các

mạng và thiết bị đầu cuối phố biến Tuy nhiên, không có một bức tranh hoàn chỉnh nào cho việc làm thế nào để những nhóm người khác nhau có thê tương tác một cách tốt nhất với nhau trên một cơ sở hạ tầng phức tạp Những ví dụ về những nhóm người này như những người cung cấp nội dung, tài chính, truyền thông, máy tính và các bộ phận điện tử của người sử dụng và các khách hàng Việc phát triển một khung đa phương tiện chung

sẽ làm cho sự liên kết giữa những bộ phận này trở nên thuận tiện và hỗ trợ sự hoạt động

và tích hợp hiệu quả hơn cho những mô hình, nguyên tắc, lợi nhuận và các khuôn dạng nội dung Đây là nhiệm vụ của dự án về khung đa phương tiện dưới cái tên MPEG-21

MPEG-21 là một chuẩn được mong đợi với mục tiêu mô tả một “bức tranh lớn" cho việc làm thế nào để các phần tử khác nhau có thê xây dựng một cơ sở hạ tầng cho VIỆC phân phối và sử dụng nội dung đa phương tiện — đang tồn tại hoặc đang được phát triển — có thể làm việc cùng nhau

Trang 23

Xử lý âm thanh và hình anh Chương 4: Các chuẩn mã hóa âm thanh

4.5 Các chuẩn nén Video H26x của ITU

Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật

điện tử quốc tế (ISO/IEC) là hai tô chức phát triển các tiêu chuẩn mã hoá Video Những

khuyến nghị của ITU được thiết kế dành cho các ứng dụng truyền thông Video thời gian thực như Video Conferencing hay điện thoại truyền hình

Các chuẩn mã hóa video MPEG của ISO nhằm vào việc lưu trữ và phân phối video

cho lĩnh vực giải trí và cô gắng đạt được các yêu cầu của người cung cấp cũng như người tiêu dùng trong ‘ “nên công nghiệp phương tiện" Trong khi do ITU quan tam nhiều hơn tới công nghiệp viễn thông, và do đó các chuẩn mã hóa video của tô chức này (H.261, H.263, H.264) hướng tới truyền thông thời gian thực, điệm-điểm và đa điểm

Chuẩn mã hóa video đầu tiên của ITU-T, H.261, duoc phat trién trong suốt cuối thập ký 80 và đâu thập kỷ 90 của thế kỷ 20 với sự chú ý về ứng dụng và kênh truyền dẫn đặc biệt Ứng dụng là hội nghị truyền hình (truyền thông hai chiều qua một “đường nối” video) và kênh truyền là ISDN

H.261 đã khá thành công và tiếp tục được sử dụng trong nhiều ứng dụng hội nghị truyền hình mang tính di sản Những cải tiễn trong hiệu suất xử lý, các công nghệ mã hóa video và sự nội lên của các modem tương tự và mạng IP như các kênh truyền đã dẫn tới sự phát triển tiếp theo của nó, H.263, vào giữa thập ký 90 của thế ky 20

Bằng việc tạo ra những cải tiến so với H.261, H.263 cung cấp hiệu suất nén tốt hơn nhiều cũng như độ linh động cao hơn Chuẩn H.263 ban đâu (phiên bản 1) có 4 chế độ

tùy chọn Các chế độ này được xem là khá hữu dụng và phiên bản 2 (H.263+) thêm vào 12 chế độ tùy chọn nữa Phiên bản gần đây nhất (có thê là phiên bản cuối) (v3) chứa tổng cộng 19 chế độ, mỗi chế độ cung cấp một hiệu suất nén được cải thiện, phục hồi lỗi và/hoặc độ linh động

Phát triển mới nhất của nhóm chuyên môn ITU-T 1a chuan H.264 H.264 là dự án kết hợp gần đây nhất giữa ITU-T VCEG và ISO/IEC MPEG Đây là một chuẩn mới sử dụng một số đặc tính tốt nhất của H.263 và nhằm cải thiện hiệu suất nén lên khoảng 50%

ở các tốc độ bit thấp Ngoài ra, H.264, được thông qua như là một phần của chuẩn MPEG-4, thường được gọi là MPEG-4 AVC (Advanced Video Coding) hoặc MPEG-4 part 10 H.264 giảm yêu cầu băng thông trong khi chất lượng ảnh tương đương MPEG-2 và MPEG-4 Công nghệ này giúp cho tăng cường khả năng nén không gian và nén thời gian, cho hình ảnh truyền rất nhanh trên mạng LAN, Internet Với những ưu việt của mình, H.264 đang được ứng dụng rất rộng rãi

4.6 Kết luận chương 4

Trong chương này chúng ta sẽ xem xét các chuẩn mã hóa thoại, âm thanh, các chuẩn nén hình ảnh JPEP và video MPEG/H26x Những chuẩn này đã và đang được ứng dụng phô biến cho truyền thông đa phương tiện trên mạng viễn thông, mạng truyên hình và Internet

Ngày đăng: 22/02/2017, 22:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w