Cùng với sự phát triển mạnh mẽ của máy tính và sự ra đời của internet, thì việc tìm ra một phương pháp nén ảnh nhằm giảm bớt không gian lưu trữ thông tin và truyền thông trên mạng là yêu cầu cấp thiết. Các kỹ thuật nén Video đều cố gắng
giảm lượng thông tin cần thiết cho một chuỗi các bức ảnh, mà không làm giảm chất lượng ảnh. Mục đích của nén video là giảm bớt số bít khi lưu trữ và truyền bằng cách loại bỏ lượng thông tin dư thừa trong từng frame và dùng kỹ thuật mã hoá để tối thiểu hoá lượng thông tin quan trọng cần lưu giữ. Với một thiết bị lưu hình kỹ thuật số thông thường, ảnh sau khi được số hoá sẽ được nén lại. Quá trình nén sẽ xử lý các dữ liệu trong ảnh để đưa hình ảnh vào một không gian hẹp hơn như trong thiết bị nhớ kỹ thuật số hoặc qua đường dây điện thoại, ... Với thị trường lưu hình kỹ thuật số hiện nay, các chuẩn nén phổ biến là Motion JPEG (MJPEG), Wavelet, H.261/ H.263/ H.263+/ H.263++ và MPGE-1/ MPGE-2/ MPGE-4. Nhìn chung, có hai nhóm tiêu chuẩn chủ yếu: nhóm một gồm định dạng nén MJPEG và Wavelet; và nhóm hai gồm các định dạng chuẩn còn lại. Các thuật toán mã hóa của hai nhóm là tương tự nhau nhưng mục đích của chúng lại khác nhau. H.26x series được phát triển cho điện thoại truyền hình trong khi MPEG series được phát triển chính cho việc quảng bá hình ảnh chất lượng cao.
Hình 9: Lịch sử và xu hướng phát triển của các chuẩn nén 2.4.1. Chuẩn nén MJPEG và Wavelet
Tính chất chung của các ảnh số là tương quan giữa các pixel ở cạnh nhau lớn, điều này dẫn tới dư thừa thông tin để biểu diễn ảnh. Việc dư thừa thông tin dẫn tới việc mã hoá không tối ưu. Do vậy, ta cần tìm phương án biểu diễn ảnh với tương quan nhỏ nhất, để giảm thiểu độ dư thừa thông tin của ảnh. Có 2 kiểu dư thừa thông tin như sau:
ảnh (các pixel lân cận của ảnh có giá trị gần giống nhau, trừ những pixel ở giáp đường biên ảnh).
* Dư thừa trong miền tần số: là tương quan giữa những dải màu hoặc các dải phổ khác nhau.
* Trọng tâm của các nghiên cứu về nén ảnh là giảm bớt một số bit để biểu diễn ảnh bằng việc loại bỏ dư thừa trong miền không gian và miền tần số càng nhiều càng tốt. Các chuẩn nén MJPEG và Wavelet đều tuân theo nguyên tắc tìm ra các phần tử dư thừa miền không gian (mỗi Frame nén tự động). Trong khi đó, đặc trưng của các chuẩn nén thuộc nhóm 2 là loại bỏ dư thừa ở cả miền không gian và miền tần số của ảnh.
* MJPEG là định dạng nén ảnh lâu đời nhất và đã được dùng phổ biến. Khi dùng chuẩn nén MJPEG, ảnh được phân chia thành các khối vuông ảnh, mỗi khối vuông có kích thước 8 x 8 pixel và biểu diễn mức xám của 64 điểm ảnh. Mã hoá biến đổi cosin rời rạc DCT (Discrete Cosin Tranform) trong chuẩn nén này khai thác sự tương đồng giữa các pixel trong mỗi khối, để lấy ra các biểu diễn ảnh với tương quan nhỏ. Chuỗi biểu diễn sẽ bị rút ngắn, tuỳ theo mức nén của hệ thống hiện hành với qui trình rút ngắn chuỗi biểu diễn. Vì vậy, hình ảnh sau khi giải nén thường có nhiều sai lệch so với ảnh gốc.
Ở chuẩn nén Wavelet, thay vì mã hoá theo từng khối 8 x 8, việc thực hiện trên toàn bộ bề mặt ảnh, một loạt các bộ phận lọc ở khâu chuyển đổi sẽ phân tích các dữ kiện về từng điểm ảnh và cho ra một tập các hệ số. Do chuẩn Wavelet có tác dụng với toàn bộ bề mặt ảnh, nên các sai lệch ở ảnh giải nén sẽ khác với MJPEG. Hiệu ứng ghép mảnh không xảy đến với ảnh được quan sát, nhưng độ phân giải hình ảnh giảm cũng như một vài vết mờ sẽ xuất hiện.
Các định dạng Wavelet và MJPEG đều gây ra hiện tượng mất thông tin ở ảnh giải nén. Sự dư thừa khả năng lưu ảnh ở mắt người cảm thụ khi dùng chuẩn nén Wavelet ít hơn MJPEG 30%.
2.4.2. Chuẩn nén MPEG-x và H.26x
MPEG không phải là một công cụ nén đơn lẻ, ưu điểm của ảnh nén dùng MPEG là ở chỗ MPEG có một tập hợp các công cụ mã hóa chuẩn, chúng có thể kết hợp với nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác nhau. Nguyên lý chung của nén tín hiệu video là loại bỏ sự dư thừa về không gian và sự dư thừa về thời gian, được thực hiện trước hết nhờ sử dụng tính chất giữa các ảnh liên tiếp. Chúng ta dùng tính chất này để tạo ra các bức ảnh mới nhờ vào thông tin từ những bức ảnh gửi trước đó. Do vậy ở phía bộ mã hóa ta chỉ cần giữ lại những
ảnh có sự thay đổi so với ảnh trước, sau đó ta dùng phương pháp nén về không gian trong những bức ảnh sai khác này. Nói một cách cụ thể, nguyên lý chung của các chuẩn nén là phỏng đoán trước chuyển động của các frame ở bộ mã hóa. Mỗi frame ở tại một thời điểm nhất định sẽ có nhiều khả năng giống với các frame đứng ngay trước và sau đó. Các bộ mã hóa sẽ tiến hành quét lần lượt những phần nhỏ trong mỗi frame (marco blocks) và phát hiện ra marco block nào không thay đổi từ frame này tới frame khác. Phía bên thu, tức bộ giải mã đã lưu trữ sẵn những thông tin không thay đổi từ frame này tới frame khác, chúng được dùng để điền thêm vào vị trí trống trong ảnh được khôi phục.
Tuy nhiên, do sự tương đồng giữa các frame là rất lớn, nên sự phát hiện ra các sai lệch là rất khó. Do vậy ảnh khôi phục khó đạt được như ảnh gốc. Điều này đồng nghĩa với việc chất lượng ảnh cũng tương tự như khi dùng chuẩn Wavelet và MJPEG, nhưng dung lượng kênh truyền và không gian lưu trữ của các chuẩn nén H.26x và MPEG-x là nhỏ hơn (ví dụ như không gian lưu trữ của chuẩn H.263 nhỏ hơn Motion JPEG từ 3 tới 5 lần). Sự khác biệt giữa các chuẩn nén này (như ở H.26x và MPEG-x) chủ yếu nằm ở khâu tiên đoán các frame mới và cách thức tính toán sai lệch giữa các frame hiện tại và frame phỏng đoán. Chuẩn nén H.26x (gồm các thế hệ H.261, H.262 và H.263, ...), thường có tốc độ mã hoá tín hiệu thấp hơn MPEG-x (khoảng 1,5 Mbps với độ phân giải hình 352 x 288) do dùng chủ yếu trong viễn thông. Trong khi đó, chuẩn MPEG-2 dùng cho thị trường giải trí có độ phân giải hình cao hơn, và mang lại chất lượng hình ảnh tốt (cao hơn 1,5 Mbps với độ phân giải 352x288 hoặc 6 Mbps cho phân giải hoàn chỉnh).
2.4.3. Chuẩn nén MPEG-2
MPEG-2, ra đời năm 1994, là tên của một nhóm các tiêu chuẩn mã hóa cho tín hiệu âm thanh và hình ảnh số, được chấp thuận bởi MPEG (Moving Picture Expert Group) và được công bố trong tiêu chuẩn quốc tế ISO/IEC 13818. MPEG-2 thường được sử dụng để mã hóa âm thanh và hình ảnh cho các tín hiệu broadcast bao gồm truyền hình vệ tinh quảng bá trực tiếp và truyền hình cáp. MPEG-2 với một số sửa đổi cũng là khuôn dạng được sử dụng bởi các phim DVD thương mại tiêu chuẩn. MPEG-2 bao gồm các phần chính sau:
* MPEG-2 Systems part (part 1) xác định hai khuôn dạng riêng biệt. Luồng truyền tải (Transport Stream) được thiết kế để mang âm và hình ảnh số qua các phương tiện không được tin cậy lắm. MPEG-2 Transport Stream thường được sử dụng trong các ứng dụng băng rộng, như ATSC và DVB. MPEG-2 Systems cũng xác định các luồng chương trình (Program Stream), một khuôn dạng được thiết kế
cho các phương tiện có độ tin cậy chấp nhận được như đĩa. MPEG-2 Program Stream được sử dụng trong các tiêu chuẩn DVD và SVCD. MPEG-2 System được biết đến chính thức là ISO/IEC 13818-1 và ITU-T Rec.H222.0
* MPEG-2 Video part (part 2) tương tự như MPEG-1, nhưng cũng hỗ trợ cho video xen kẽ (interlaced video, khuôn dạng được sử dụng cho các hệ thống truyền hình quảng bá tương tự). MPEG-2 video không tối ưu cho các tốc độ bít thấp (<1 Mbit/s), nhưng lại thực hiện tốt hơn MPEG-1 tại tốc độ 3 Mbit/s và cao hơn. Toàn bộ các bộ giải mã Video tuân theo chuẩn MPEG-2 hoàn toàn có khả năng phát lại các luồng video MPEG-1. MPEG-2 Video được biết đến chính thức là ISO/IEC 13818-2 và ITU-T REc. H.262.
* MPEG-2 Audio part (part 3) cải tiến chức năng âm thanh của MPEG-1 bằng cách cho phép mã hóa các chương trình âm thanh với nhiều hơn hai kênh. Part 3 cũng tương thích với chuẩn, cho phép các bộ giải mã âm thanh MPEG-1 giải mã các thành phần âm thanh nổi (stereo).
MPEG-2 được dùng để mã hóa hình ảnh động và âm thanh và để tạo ra ba kiểu khung số liệu (intra frame, forward predictive frame và bidirectional pridicted frame) có thể được sắp xếp theo một trật tự cụ thể gọi là cấu trúc nhóm các hình ảnh (group of picture, GOP).
Một luồng video MPEG-2 được tạo nên bởi một chuỗi các khung số liệu mã hóa hình ảnh. Có ba cách để mã hóa một hình ảnh là: intra-coded (I picture), forward predictive (P picture) và bidirectional predictive (B picture). Các hình ảnh của luồng video được phân ra thành một kênh chứa thông tin về độ sáng (luminance, còn gọi là kênh Y) và hai kênh thành phần màu (chrominance, còn gọi là tín hiệu màu phân biệt Cb và Cr).
MPEG-2 sử dụng các chuẩn mã hóa âm thanh mới, đó là:
* Mã hóa tốc độ bít thấp với tần số lấy mẫu giảm đi một nửa (MPEG-1 Layer 1/2/3 LSF).
* Mã hóa đa kênh, lên đến 5.1 kênh * MPEG-2 AAC
2.4.4. Chuẩn nén MPEG-4:
MPEG-4 là một chuẩn nén chính được sử dụng để nén dữ liệu về âm thanh và hình ảnh (audio and visual, AV). Được đưa ra vào năm 1998, MPEG-4 được lựa chọn cho nhóm các tiêu chuẩn hình ảnh và âm thanh. MPEG-4 được ứng dụng cho web, CD, videophone và truyền hình quảng bá.
liên quan và bổ sung thêm các tính năng mới như hỗ trợ VRML cho 3D, các file bao gồm các vật thể được định hướng (gồm audio, video và VRML).
MPEG-4 thực sự là một dạng nén ảnh mang tính đột phá của công nghệ nén hình đương đại, thể hiện rõ nét ở những tiêu chuẩn sau:
* Áp dụng những tiêu chuẩn có tính mở cao với sự hỗ trợ đắc lực từ ngành công nghiệp an ninh và công nghiệp máy tính.
* Khả năng truyền theo dòng và mạng lưới.
* Tối thiểu hóa dung lượng kênh truyền và không gian lưu trữ trong khi vẫn giữ được tính trung thực của ảnh.
Những chuẩn nén MPEG-4 có profile dạng đơn giản chiếm lĩnh đa phần thị trường. MPEG-4 đã được phát triển và hoàn thiện trở thành định dạng nén hình tiên tiến, hoàn hảo, với tiêu chí tập trung phát triển những nhân tố giúp tăng cường chất lượng hình ảnh, cũng như phục vụ đắc lực cho các thiết bị giám sát có các frame dạng chữ nhật. Mỗi bit stream hiển thị trong định dạng nén MPEG-4 cung cấp một mô tả mang tính phân tầng về hình ảnh hiển thị. Từng lớp dữ liệu được đưa vào luồng bit bởi những mật mã đặc biệt gọi là mật mã khởi nguồn.
2.4.4.1. Phân phối các luồng dữ liệu
Hình 10: Mô hình các lớp hệ thống MPEG-4
Việc phân phối một cách đồng bộ các luồng thông tin từ nguồn đến đích được xác định dưới dạng lớp đồng bộ (Sync Layer) và một lớp phân phối (Delivery Layer) gồm hai lớp được ghép lại là DMIF Layer và TransMux Layer.
DMIF Layer được điểu khiển bởi giao diện DMIF (Delivery Multimedia Intergration Framework), là giao diện giữa ứng dụng và truyền tải. Một ứng dụng đơn lẻ có thể chạy trên các lớp truyền tải khác nhau khi được hỗ trợ DMIF.
* Là một giao diện ứng dụng trong suốt * Điều khiển việc thiết lập các kênh FlexMux
* Sử dụng các mạng đồng nhất giữa các peer tương tác với nhau: IP, ATM, di động, PSTN, ISDN băng hẹp
* Hỗ trợ mạng di động, được phát triển cùng với ITU-T * UserCommands với bản tin xác nhận
* Quản lý thông tin MPEG-4 Sync Layer
Lớp “TransMux” cung cấp các dịch vụ truyền tải phù hợp với các yêu cầu về QoS. Chỉ giao diện đối với lớp này được xác định bởi MPEG-4 trong khi các sắp xếp cụ thể của các gói dữ liệu và điều khiển báo hiệu cần được tiến hành cùng với các phần chính có tác dụng qua các giao thức truyền tải tương ứng. Bất kì giao thức truyền tải tồn tại thích hợp nào như (RTP)/UDP/IP, (AAL5)/ATM hoặc luồng truyền tải của MPEG-2 qua một lớp kết nối thích hợp nào có thể trở thành một ví dụ TransMux đặc trưng. Sự lựa chọn này chuyển tới người sử dụng cuối/nhà cung cấp dịch vụ và cho phép MPEG-4 được sử dụng trong một dải của môi trường vận hành. Sử dụng công cụ ghép kênh FlexMux là lựa chọn, lớp này có thể bỏ trống nếu lớp TransMux ở dưới cung cấp toàn bộ các chức năng yêu cầu. Tuy nhiên, lớp đồng bộ (Sync Layer) thì luôn phải tồn tại. Chức năng của lớp này như sau:
* Nhận dạng các khối truy nhập, truyền tải timestamps và thông tin tham chiếu nhịp và nhận dạng dữ liệu mất
* Lựa chọn dữ liệu chèn vào từ các luồng sơ cấp khác thành luồng FlexMux. * Truyền thông tin điều khiển
* Chỉ rõ QoS yêu cầu đối với mỗi luồng sơ cấp và luồng FlexMux * Chuyển các yêu cầu QoS thành các tài nguyên mạng thực tế * Kết hợp các luồng sơ cấp với các đối tượng trung gian
* Truyền đi các sắp xếp của các luồng sơ cấp tới kênh FlexMux và TransMux
2.4.4.2. Hệ thống
MPEG-4 được xác định là công cụ của các thuật toán nén tiên tiến đối với các dữ liệu hình ảnh và âm thanh. Các luồng dữ liệu (Elementary Streams, ES) là kết quả từ quá trình mã hóa được truyền đi và lưu trữ riêng biệt.
Mối quan hệ giữa các thành phần hình ảnh và âm thanh được mô tả thành hai mức chính:
* BIFS (Binary Format for Scenes) mô tả sự sắp xếp về không gian và thời gian của các đối tượng. Người xem có thể có khả năng tương tác với các đối tượng, ví dụ sắp xếp lại chúng trên màn ảnh hoặc thay đổi quan điểm về cách xem trong môi trường 3D.
* Tại lớp thấp hơn, Object Descriptors (ODs) xác định quan hệ giữa Elementary Streams thích hợp với từng đối tượng (ví dụ luồng âm thanh và hình ảnh của một người trong một cuộc hội nghị truyền hình). ODs cũng cung cấp thêm các thông tin như nhu cầu URL để truy nhập Elementary Stream, các đặc tính của bộ giải mã, vật sở hữu trí tuệ, ...
2.4.4.3. MPEG-4 Audio
MPEG-4 Audio tạo điều kiện thuận lợi cho một lượng lớn các ứng dụng từ các bài diễn thuyết đơn giản đến các hình ảnh đa kênh chất lượng cao, và từ các âm thanh tự nhiên đến các âm thanh tổng hợp. Đặc biệt, MPEG-4 hỗ trợ các biểu diễn hiệu suất cao của các đối tượng hình ảnh bao gồm:
* Các tín hiệu hình ảnh thông thường: Hỗ trợ cho việc mã hóa hình ảnh thông thường từ chất lượng thấp đến cao được cung cấp bởi kĩ thuật mã hóa biến đổi. Với chức năng này, một dải rộng các bít và băng tần được bao phủ. Bắt đầu tại tốc độ bít 6 kbit/s và băng tần dưới 4kHz và mở rộng tới hình ảnh chất lượng quảng bá từ đơn tới đa kênh. Chất lượng cao có thể đạt được với độ trễ thấp. Mã hóa hình ảnh tham số (Parametric Audio Coding) cho phép âm thanh với tốc độ thấp.
* Các tín hiệu thoại: Mã hóa thoại được tiến hành sử dụng tốc độ từ 2kbit/s tới 24 kbit/s sử dụng công cụ mã hóa thoại. Tốc độ bít thấp hơn, ví dụ 1,2 kbit/s, cũng