Nén ảnh có tổn hao sử dụng biến đổi wavelet cho dịch vụ dữ liệu đa phương tiện di động

MỤC LỤC

QUAN CÁC KỸ THUẬT NÉN TRONG MÃ HOÁ ẢNH

  • Phân loại các kỹ thuật nén
    • Các kỹ thuật nén có tổn hao

      Bộ mã hoá kênh thực hiện việc chuyển đổi luồng bít đã được nén thành dạng tín hiệu phù hợp cả cho việc lưu trữ và truyền dẫn, thường bộ mã hoá kênh sử dụng các kỹ thuật: mã hoá có độ dài thay đổi – RLC (Run Length Coding)[4], mã hoá Huffman[4], mã hoá số học [4]. Trái lại, các kỹ thuật nén có tổn hao (lossy compression) có thể đạt được hiệu quả nén cao hơn rất nhiều mà ở điều kiện cảm nhận hình ảnh thông thường sự mất mát thông tin không cảm nhận được và vì thế vẫn đảm bảo chất lượng ảnh. Phương pháp này có hiệu suất nén cao hơn rất nhiều so với phương pháp nén dự đoán bởi vì chính các phép biến đổi (sử dụng các thuộc tính nén năng lượng của mình) đã gói gọn toàn bộ năng lượng bức ảnh chỉ bằng một số ít các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi lượng tử hoá và như vậy lượng dữ liệu phải.

      Trong phương pháp mã hoá dự đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn có ý nghĩa (còn sử dụng ở bước tiếp theo) sau khi lượng tử hoá, chính điều này làm cho phương pháp mã hoá dự đoán có nhiều dữ liệu được truyền đi hơn so với phương pháp mã hoá biến đổi. Bức ảnh hoặc khung ảnh video kích thước NxN được chia thành các khối không chồng chéo nhau hai chiều gọi là các ảnh con kích thước 8x8 rồi áp dụng biến đổi DCT hai chiều ở bộ mã hoá và áp dụng biến đổi IDCT ở bộ giải mã. KLT là phép biến đổi theo khối tối ưu nhất cho nén dữ liệu ở khía cạnh thống kê bởi: nó có thể giải tương quan một cách tối ưu tín hiệu ảnh trong miền phép biến đổi (bằng cách tập trung hầu hết thông tin ảnh vào một số hệ số của phép biến đổi) và so với các phép biến đổi khác nó có thể tối thiểu hoá MSE giữa ảnh khôi phục và ảnh gốc.

      Không giống như biến đổi Fourier chỉ thích hợp khi phân tích những tín hiệu ổn định (stationary),Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian. Giải thích biến đổi STFT bằng nguyên lý bất định Heissenber, nguyên lý này phát biểu là: Không thể biết được chính xác được biểu diễn thời gian - tần số của một tín hiệu (hay không thể biết các thành phần phổ của tín hiệu ở một thời điểm nhất định). Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuất hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thời gian dài chẳng hạn như ảnh và khung ảnh video.

      Quá trình biến đổi DWT hai chiều có thể minh hoạ như hình 2.12 dưới đây, trong đó 4 nhóm hệ số là: LL, HL, LH, HH (chữ cái đầu tiên tương ứng đã thực hiện lọc theo hàng, chữ cái thứ hai tương ứng đã thực hiện lọc theo cột).

      Sơ đồ của một hệ thống nén dữ liệu tổng quát như sau:
      Sơ đồ của một hệ thống nén dữ liệu tổng quát như sau:

      SỞ LÝ THUYẾT BIẾN ĐỔI WAVELET

      Cơ sở toán học

        Sau đây chúng ta sẽ định nghĩa phép biến đổi ngược của biến đổi Wavelet liên tục. Chúng ta có thể xem biến đổi CWT như là một ma trận hai chiều các kết quả của phép tính tích vô hướng giữa hai hàm f t( ) và ψa b, ( )t. Việc tính toán các hệ số Wavelet tại tất cả các tỉ lệ là một công việc hết sức phức tạp.

        Để giảm thiểu công việc tính toán người ta chỉ chọn ra một tập nhỏ các giá trị tỉ lệ và các vị trí để tiến hành tính toán. Hơn nữa nếu việc tính toán được tiến hành tại các tỷ lệ và các vị trí trên cơ sở luỹ thừa cơ số 2 thì kết quả thu được sẽ hiệu quả và chính xác hơn rất nhiều. Quá trình chọn các tỷ lệ và các vị trí để tính toán như trên tạo thành lưới nhị tố (dyadic).

        Một phân tích như trên hoàn toàn có thể thực hiện được nhờ biến đổi Wavelet rời rạc (DWT). Việc tính toán hệ số của biến đổi Wavelet có thể dễ dàng thực hiện bằng các băng lọc số nhiều nhịp đa kênh, một lý thuyết rất quen thuộc trong xử lý tín hiệu.

        Tính chất của biến đổi Wavelet

        Tham số b trong biến đổi Wavelet cho biết khoảng dịch của hàm Wavelet mẹ và độ phân giải các tần số khác nhau của f t( ) được minh họa bởi hệ số tỷ lệ chính là a. Biến đổi Wavelet ngày càng được áp dụng rộng rãi đặc biệt là trong xử lý tiếng nói, xử lý ảnh số. Tín hiệu tiếng nói là tín hiệu một chiều nhưng do đặc điểm của tiếng nói là tín hiệu không dừng nên việc sử dụng Fourier là không đủ để phân tích một cách đầy đủ các đặc trưng của tiếng nói.

        Khác với tín hiệu tiếng nói, xử lý tín hiệu ảnh số là xử lý tín hiệu hai chiều và do đặc điểm của ảnh số là bao giờ cũng có tính định hướng và tính định vị. Tính định hướng của một ảnh nghĩa là trong ảnh bao giờ cũng có một số ít các thành phần tần số nhưng các thành phần tần số này trải rộng trên toàn bộ không gian ảnh còn tính định vị của ảnh chính là tính chất biểu thị rằng tại một vùng của ảnh có thể có rất nhiều thành phần tần số. Ảnh biểu thị tớnh định vị rừ nhất chớnh là ảnh cú nhiều biờn vựng phõn tỏch rừ rệt, tại cỏc đường biờn bao giờ cũng cú nhiều thành phần tần số khác nhau, còn hầu hết các ảnh có tông liên tục đều là những ảnh có tính định hướng.

        Ngoài ra người ta thường áp dụng một cách kết hợp biến đổi Wavelet với các hàm Wavelet thích hợp với dạng tín hiệu cần khảo sát và phép phân tích đa phân giải để việc xử lý tín hiệu tiếng nói và hình ảnh đạt hiệu quả cao hơn. Trước khi xem xét ứng dụng của phân tích đa phân giải trong nén ảnh, chúng ta xem xét lý thuyết về đa phân giải trong phân tích tín hiệu. Giả sử chúng ta cần xấp xỉ hoá một tín hiệu liên tục có dạng một hàm bình phương khả tích f x( ) bằng một tập các giá trị rời rạc (ví dụ hàm f x( ) là hàm cường độ sáng của ảnh).

        Trong thực tế, hàm f x( ) thường được giả thiết là có chu kỳ nguyên và chúng ta chỉ cần một số hữu hạn các tổ hợp tuyến tính để xấp xỉ hoá hàm. Chúng ta có thể thay đổi độ phân giải của phép xấp xỉ bằng cách. Việc thay đổi giá trị của j sẽ làm thay đổi mức độ chính xác của phép xấp xỉ hàm f x( ) của chúng ta như trên hình 3.2.

        Hàm ϕ( )x được gọi là hàm tỷ lệ và chúng ta thấy hàm này có một tính chất đặc biệt là các hàm ứng với độ phân giải thứ j (tức là có chiều rộng 2−j) là trường hợp đặc biệt của các hàm có độ phân giải thứ j+1. Vì vậy chúng ta có thể biểu diễn hàm f x( ) theo các mức phân giải khác nhau dựa trên các phép chiếu trực giao của hàm f x( ) lên các không gian.

        Hình 3.2. Phân tích đa phân giải áp dụng cho biểu diễn tín hiệu
        Hình 3.2. Phân tích đa phân giải áp dụng cho biểu diễn tín hiệu