L: Cường độ sáng nhỏ nhất,
1. Nguyên lý nén dữ liệu.
Âm thanh, hình ảnh và video số cần số lượng dữ liệu rất lớn để biểu diễn và băng thông rộng để truyền. Ta sẽ trao đổi các kỹ thuật và chuẩn nén dữ liệu: âm thanh, hình
ảnh và video số.
– Mô tả các nguyên lý cơ bản trong nén dữ liệu, làm sao để đo lường hiệu suất nén và xếp loại các kỹ thuật nén.
– Các kỹ thuật có thể nén tốt cho cả tập tin văn bản và dữ liệu đa phương tiện. Các kỹ thuật này có đặc tính chung là dữ liệu gốc có thể được lấy lại chính xác sau khi nén.
– Có nhiều kỹ thuật và sản phẩm nén hình ảnh và video trên thị trường. Để dễ dàng sử dụng các kỹ thuật và khả năng tương thích trong các sản phẩm, một số chuẩn quốc tế về nén hình ảnh và video như JPEG, MPEG được đề nghị.
Hiểu các chuẩn này sẽ giúp chúng ta chọn lựa các kỹ thuật nén phù hợp trong ứng dụng, thiết kế và phát triển các phần cứng và phần mềm hỗ trợ cho nén các dòng dữ liệu này.
Mong muốn nén âm thanh, hình ảnh và video số là để tốc độ bit và yêu cầu lưu trữ
có thể quản lý được. Chúng ta nén được dữ liệu nhờ vào việc khai thác hai nhân tố chính: – Sự dư thừa dữ liệu trong âm thanh, hình ảnh và video số
– Đặc tính các giác quan của con người.
1.1. Sự dư thừa dữ liệu:
Âm thanh số là chuỗi các giá trị lấy mẫu. Một hình ảnh là một mảng hai chiều các giá trị lấy mẫu, và video là một chuỗi hình ảnh phát ra theo một tốc độ nào đó. Các giá trị
lấy mẫu âm thanh hay hình ảnh không hoàn toàn độc lập. Các giá trị lấy mẫu lân cận ít nhiều có tương quan với nhau. Sự tương quan này gọi là sự dư thừa. Loại bỏ sự dư thừa không làm thay đổi ý nghĩa của dữ liệu.
Sự dư thừa trong âm thanh số
Trong hầu hết các trường hợp, các giá tri lấy mẫu âm thanh lân cận thì tương tự như
nhau. Một giá trị mẫu kế tiếp có thể được dự đoán ở một mức độ nhất định trên cơ sở giá trị lấy mẫu hiện tại. Kỹ thuật nén dùng đặc điểm này được gọi là mã hoá dự đoán (predictive coding).
Trong tiếng nói số, ta có một kiểu khác của dư thừa:
– Trong đàm thoại / lời nói bình thường, chúng ta chỉ phát ra tiếng nói trong một tỷ
lệ phần trăm rất thấp theo thời gian. Giữa những tiếng nói phát ra là khoảng im lặng.
– Các mẫu ứng với các khoảng im lặng có thể được loại bỏ mà không ảnh hưởng tới ý nghĩa của câu nói.
– Kỹ thuật nén sử dụng đặc điểm này được gọi là loại bỏ khoảng im lặng (silence removal).
Trong hình ảnh số, các mẫu lân cận trên một dòng quét bình thường là như nhau. Các mẫu lân cận trên những đường quét gần kế nhau thì cũng tương tự nhau.
– Sự tương tự này gọi là dư thừa không gian (spacial redundancy).
– Dư thừa không gian được loại bỏ bằng kỹ thuật mã hoá dự đoán và các kỹ thuật khác (như là mã hoá biến đổi).
Sự dư thừa trong video ảnh số
Video số là một chuỗi các hình ảnh, như vậy nó cũng có các dư thừa không gian. – Các hình ảnh lân cận nhau trong một chuỗi video bình thường là như nhau.
– Sự tương tự này gọi là dư thừa thời gian (temporal redundancy) và có thể bị loại bỏ bởi ứng dụng kỹ thuật dựđoán giữa các hình ảnh.
1.2. Đặc tính của giác quan:
Đầu cuối sử dụng audio, hình ảnh và video là con người. Con người có thể chịu
được một số lỗi / mất thông tin mà không ảnh hưởng đến hiệu quả truyền thông. Theo nghĩa này các phiên bản nén không cần biểu diễn các mẫu thông tin gốc một cách chính xác. Điều này trái với dữ liệu chữ số, ở đó một số dữ liệu mất / lỗi là không được phép.
Một cách tổng quát, tri giác con người không nhạy khi một số ít dữ liệu bị mất / lổi trong audio, hình ảnh và video. Độ nhạy tri giác khác nhau đối với các khuôn mẫu tín hiệu khác nhau. Một số thông tin quan trọng đối với nhận thức của con người hơn những cái khác. Từ các đặc tính nhận thức “thông tin độc lập trung bình” sẽ được bàn đến và dùng nó khi thảo luận về kỹ thuật nén âm thanh, hình ảnh và video.
1.3. Phân loại các kỹ thuật nén:
Có nhiều kỹ thuật dùng để nén thông tin đa phương tiện, nó được phân loại theo nhiều cách. Trong tài liệu này ta phân loại trên cơ sở kết quả của kỹ thuật nén Hai kiểu phân loại:
– Dữ liệu gốc có thể tái tạo một cách chính xác sau khi nén. – Tốc độ bít có thể là hằng sốở ngã ra của hệ thống nén.
Kỹ thuật nén không mất dữ liệu và nén bị mất dữ liệu
Kỹ thuật nén không mất dữ liệu (lossless compression techniques): được dùng để
nén các chương trình máy tính, hồ sơ pháp lý và bệnh án, theo đó không có lỗi / mất dữ
liệu sau nén. Kỹ thuật này chỉ sử dụng các thống kê dữ liệu (data redundance).
Kỹ thuật nén bị mất dữ liệu (lossy compression techniques): được dùng để nén audio, hình ảnh và video, ở đó một số lỗi / mất dữ liệu có thể chấp nhận được. Kỹ thuật này sử dụng các thống kê dữ liệu và đặc tính nhận thức của con người.
Kỹ thuật nén tốc độ bit không đổi và nén tốc độ bit thay đổi (CBR: Constant Bit Rate coding - VBR: Variable Bit Rate coding)
Trong số hoá audio / video, các mẫu được lấy trong các thời khoảng bằng nhau và biểu diễn với một số bit như nhau.
– Khi giải nén audio / video thành các dòng bit tốc độ không đổi: Ta gọi kỹ thuật mã hoá tốc độ bit không đổi (CBR-Constant Bit Rate coding).
– Một số kỹ thuật nén sẽ làm giảm tốc độ bit của các dòng, và ta gọi là kỹ thuật mã hoá tốc độ bit thay đổi (VBR: Variable Bit Rate coding).
Rất quan trọng khi xếp loại một kỹ thuật nén là CBR / VBR: Trước tiên, nội dung phương tiện thay đổi theo thời gian: Nếu phức tạp, nhiều dữ liệu được sử dụng để biểu diễn. Nếu đơn giản, ít dữ liệu được sử dụng. Kỹ thuật VBR hiệu quả và cho chất lượng cao ở cùng hệ số nén. Thứ hai, VBR khó đặc tả và mô hình hóa, khó hỗ trợ bởi hệ thống truyền thông đa phương tiện. Hai nhân tố này dùng trong mô tả khi thiết kế và phát triển hệ thống đa phương tiện.
1.4. Đo lường hiệu năng nén:
Hiệu năng của một kỹ thuật nén đo bằng một tập các tham số:
– Hệ số nén (compression ratio): là tỷ số giữa số lượng dữ liệu gốc và số lượng dữ
liệu sau khi nén.
– Chất lượng tái tạo phương tiện (reconstructed media quality): Khi sử dụng kỹ
thuật nén bị mất dữ liệu ta lưu ý: khi hệ số nén cao thì chất lương tái tạo phương tiện thấp.
– Độ phức tạp trong cài đặt (Implementation complexity): Càng đơn giản trong cài
đặt càng tốt.
– Tốc độ nén (compression speed): Nhanh là tốt.
– Tốc độ giải nén (decompression speed): Nhanh là tốt.
– Khi tốc độ nén và giải nén bằng nhau ta có kỹ thuật nén đối xứng (symmetric
compression techniques), ngược lại ta có kỹ thuật nén không đối xứng
(asymmetric compression techniques).
Chon kỹ thuật nén cho một ứng dụng cần dựa trên cách xếp loại, các tham sốđo hiệu năng, và yêu cầu của ứng dụng.