Biến đổi Wavelet Daubechies

Một phần của tài liệu tìm hiểu mô hình nén ảnh sử dụng biến đổi wavelet (Trang 34 - 75)

Giống nhƣ Meyer, Daubechies cũng là một nhà khoa học có công lao to lớn trong việc nghiên cứu phát triển phép biến đổi Wavelet. Biến đổi Daubechies là một trong những phép biến đổi phức tạp nhất trong biến đổi Wavelet. Họ biến đổi này đƣợc ứng dụng hết sức rộng rãi, biến đổi Wavelet áp dụng trong JPEG2000 là một biến đổi trong họ biến đổi Wavelet Daubechies.

Chúng ta đã đƣợc biết biến đổi Wavelet Haar trong phần trên, đó chính là họ Wavelet Daubechies chỉ với 2 hệ số tỉ lệ đƣợc gọi là D2 hay Haar Wavelet.

26

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hình 2.4. Hàm ψ (t ) của họ biến đổi Daubechies n với n=2, 3, 7, 8. .

27

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Chƣơng 3

BIẾN ĐỔI WAVELET TRONG NÉN ẢNH 3.1. Tổng quan về nén ảnh

3.1.1. Giới thiệu chung về nén ảnh

Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đa phƣơng tiện. Mục đích là làm thế nào để lƣu trữ bức ảnh dƣới dạng có kích thƣớc nhỏ hơn hay dƣới dạng biểu diễn mà chỉ yêu cầu số bít mã hoá ít hơn so với bức ảnh gốc. Nén ảnh thực hiện đƣợc là do một thực tế: thông tin trong bức ảnh không phải là ngẫu nhiên mà có trật tự, có tổ chức. Do đó, nếu bóc tách đƣợc tính trật tự, cấu trúc đó thì sẽ biết đƣợc phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lƣợng bít ít hơn so với ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽ tổ chức, sắp xếp lại đƣợc bức ảnh xấp xỉ gần chính xác so với ảnh gốc nhƣng vẫn thoả mãn chất lƣợng yêu cầu, đảm bảo đủ thông tin cần thiết.

Tóm lại, tín hiệu ảnh, video hay audio đều có thể nén lại bởi chúng có những tính chất nhƣ sau:

• Có sự tƣơng quan dẫn đến dƣ thừa thông tin theo không gian: Trong phạm vi một bức ảnh hay một khung video tồn tại sự dƣ thừa đáng kể do mối tƣơng quan giữa các điểm ảnh lân cận.

• Có sự tƣơng quan dẫn đến dƣ thừa thông tin theo phổ: Các dữ liệu thu đƣợc từ các bộ cảm biến của thiết bị thu nhận ảnh tồn tại sự tƣơng quan đáng kể giữa các mẫu thu, đây chính là nguyên nhân dẫn đến dƣ thừa theo phổ.

• Có sự tƣơng quan dẫn đến dƣ thừa thông tin theo thời gian: Trong một chuỗi ảnh video, tồn tại sự tƣơng quan giữa các điểm ảnh của các khung video, điều này cho thấy có sự dƣ thừa thông tin theo thời gian.

Trong hình 3.1, bộ mã hoá dữ liệu thực hiện quá trình nén bằng cách giảm kích thƣớc dữ liệu ảnh gốc đến một mức phù hợp với việc lƣu trữ và

28

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

truyền dẫn trên kênh. Tỉ lệ bít đầu ra của bộ mã hoá đƣợc tính là số bít cho một mẫu (điểm ảnh). Bộ mã hoá kênh thực hiện việc chuyển đổi luồng bít đã đƣợc nén thành dạng tín hiệu phù hợp cả cho việc lƣu trữ và truyền dẫn, thƣờng bộ mã hoá kênh sử dụng các kỹ thuật: mã hoá có độ dài thay đổi – RLC (Run Length Coding), mã hoá Huffman, mã hoá số học. Bộ giải mã thực hiện quá trình ngƣợc lại so với bộ mã hoá.

Trong các hệ thống nén, tỉ lệ nén chính là tham số quan trọng đánh giá khả năng nén của hệ thống, công thức đƣợc tính nhƣ sau:

Tỉ lệ nén = Kích thước dữ liệu gốc / Kích thước dữ liệu nén

Đối với ảnh tĩnh, kích thước chính là số bít để biểu diễn toàn bộ bức ảnh. Đối với ảnh video, kích thước chính là số bít để biểu diễn một đoạn khung hình video.

3.1.2. Phân loại các kỹ thuật nén

Các kỹ thuật nén chủ yếu đƣợc phân loại nhƣ sau: nén tổn hao và không tổn hao, mã hoá dự đoán và mã hoá dựa trên phép biến đổi, mã hoá băng con.

3.1.2.1. Nén tổn hao và không tổn hao

Trong các kỹ thuật nén không tổn hao (losses compression), ảnh khôi phục giống hoàn toàn so với ảnh gốc. Tuy nhiên, nén không tổn hao chỉ đạt đƣợc hiệu quả nén rất nhỏ. Trái lại, các kỹ thuật nén có tổn hao (lossy compression) có thể đạt đƣợc hiệu quả nén cao hơn rất nhiều mà ở điều kiện cảm nhận hình ảnh thông thƣờng sự mất mát thông tin không cảm nhận đƣợc và vì thế vẫn đảm bảo chất lƣợng ảnh. Một số kỹ thuật nén có tổn hao gồm: điều xung mã vi sai – DPCM, điều xung mã – PCM, lƣợng tử hoá véctơ – VQ, mã hoá biến đổi và băng con. Ảnh khôi phục trong hệ thống nén có tổn hao luôn có sự suy giảm thông tin so với ảnh gốc bởi vì: phƣơng pháp nén này đã loại bỏ những thông tin dƣ thừa không cần thiết.

29

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2.2. Mã hoá dự đoán và mã hoá dựa trên phép biến đổi

Đối với mã hoá dự đoán (predictive coding) các giá trị mang thông tin đã đƣợc gửi hay đang sẵn có sẽ đƣợc sử dụng để dự đoán các giá trị khác, và chỉ mã hoá sự sai lệch giữa chúng. Phƣơng pháp này đơn giản và rất phù hợp với việc khai thác các đặc tính cục bộ của bức ảnh. Kỹ thuật DPCM chính là một ví dụ điển hình của phƣơng pháp này. Trong khi đó, mã hoá dựa trên phép biến đổi (transform based coding) thì lại thực hiện nhƣ sau:

- Trƣớc tiên thực hiện phép biến đổi với ảnh để chuyển sự biểu diễn ảnh từ miền không gian sang một miền biểu diễn khác. Các phép biến đổi thƣờng dùng là: DCT - biến đổi Cosine rời rạc, DWT - biến đổi Wavelet rời rạc, LT - biến đổi trồng (lapped).

- Tiếp đó thực hiện mã hoá đối với các hệ số biến đổi. Phƣơng pháp này có hiệu suất nén cao hơn rất nhiều so với phƣơng pháp nén dự đoán bởi vì chính các phép biến đổi (sử dụng các thuộc tính nén năng lƣợng của mình) đã gói gọn toàn bộ năng lƣợng bức ảnh chỉ bằng một số ít các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi lƣợng tử hoá và nhƣ vậy lƣợng dữ liệu phải truyền nhỏ đi rất nhiều. Trong phƣơng pháp mã hoá dự đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn có ý nghĩa (còn sử dụng ở bƣớc tiếp theo) sau khi lƣợng tử hoá, chính điều này làm cho phƣơng pháp mã hoá dự đoán có nhiều dữ liệu đƣợc truyền đi hơn so với phƣơng pháp mã hoá biến đổi. (adsbygoogle = window.adsbygoogle || []).push({});

3.1.3. Tiêu chuẩn đánh giá chất lượng mã hoá ảnh

Để đánh giá chất lƣợng của bức ảnh (hay khung ảnh video) ở đầu ra của bộ mã hoá, ngƣời ta thƣờng sử dụng hai tham số:

 Sai số bình phƣơng trung bình – MSE (mean square error).

 Tỉ số tín hiệu trên nhiễu đỉnh – PSNR (peak to signal to noise ratio).

30

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

MSE thƣờng đƣợc gọi là phƣơng sai lƣợng tử - σq2(quantization error

variance). MSE giữa ảnh gốc và ảnh khôi phục đƣợc tính nhƣ sau:

     2 2 , , 1     jk q f j k g j k N MSE  (3.1)

Trong đó tổng lấy theo j, k tính cho tổng tất cả các điểm ảnh trong ảnh

và N là số điểm ảnh trong ảnh. Còn PSNR giữa hai ảnh (b bít cho mỗi điểm

ảnh, RMSE là căn bậc 2 của MSE) đƣợc tính theo công thức dB nhƣ sau:

1 2 log 20 10    b RMSE PSNR (3.2)

Thông thƣờng, nếu PSNR ≥ 40dB thì hệ thống mắt ngƣời gần nhƣ không phân biệt đƣợc giữa ảnh gốc và ảnh khôi phục.

Một tham số khác hay sử dụng trong các hệ thông viễn thông đó là tỉ số tín hiệu trên nhiễu - SNR, tuy vậy SNR sử dụng cho một hệ thống nén ảnh cũng có công thức dB nhƣ sau: energy Noise utenergy Endoderinp SNR 10log10 (3.3)

3.2. Mã hóa của ảnh con Wavelet (Coding of the Wavelet subimages)

Băng tần (dải) thấp nhất của ảnh con Wavelet là một bản sao của các hình ảnh ban đầu, nhƣng tại một kích thƣớc đã đƣợc giảm khá nhiều, nhƣ có thể thấy ở hình 1.10. Mã hóa hiệu quả của băng tần này phụ thuộc vào số lƣợng các cấp độ phân giải Wavelet . Ví dụ, nếu số lƣợng các cấp độ phân giải Wavelet là quá cao thì không có nhiều sự tƣơng quan giữa các điểm ảnh của băng tần thấp nhất. Trong trƣờng hợp này, mã hóa từng điểm ảnh (pixel- by-pixel) nhƣ đƣợc sử dụng trong các tiêu chuẩn JPEG2000 là đủ tốt. Mặt khác, đối với MPEG-4, nơi mà không nhiều cấp độ phân giải JPEG2000 đƣợc sử dụng, có một số dƣ tƣơng quan giữa chúng. Những cái này có thể đƣợc giảm bởi sự mã hóa DPCM . Ngoài ra, tuỳ thuộc vào biến đổi Wavelet đƣợc

31

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

áp dụng cho các hình ảnh hay video mà băng tần này có thể đƣợc mã hoá cho phù hợp.

Đối với hiệu quả nén của các băng tần cao hơn, cũng nhƣ đối với một loạt các khả năng mở rộng, các hệ số Wavelet cao hơn để đƣợc mã hoá với một cấu trúc cây số không giống nhƣ Wavelet cây zero (EZW - thuật toán đầu tiên đƣợc giới thiệu bởi Shapiro). Phƣơng pháp này và các biến thể của nó đƣợc dựa trên hai khái niệm về lƣợng tử hóa xấp xỉ kế tiếp, và sự khai thác những điểm tƣơng đồng của các băng tần (dải) cùng hƣớng.

3.2.1. Lượng tử hóa xấp xỉ kế tiếp (Quantization by successive approximation)

Lƣợng tử hóa xấp xỉ kế tiếp là biểu diễn của một giá trị hệ số Wavelet trong điều kiện của các bƣớc tiền lƣợng tử hóa kích thƣớc nhỏ dần. Số lƣợng bƣớc của xấp xỉ phụ thuộc vào biến dạng định lƣợng nhƣ mong muốn. Để xem xấp xỉ kế tiếp dẫn đến sự lƣợng tử hóa nhƣ thế nào, hãy xem xét hình 3.2, nơi mà một hệ số chiều dài L đƣợc tinh chế trở thành giá trị lƣợng tử cuối cùngLˆ .

32

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Quá trình này bắt đầu bằng cách chọn một đơn vị chiều dài bằng l. Giá

trị của l đƣợc thiết lập để phân nửa các hệ số lớn nhất trong hình ảnh. Nếu hệ số lớn hơn l, nó đƣợc biểu diễn theo l, nếu không thì giá trị của nó đƣợc thiết lập bằng 0. Với các giá trị vƣợt quá l, sai số giữa giá trị của nó với l đƣợc biểu diễn bằng giá trị l’ mới. Quá trình đƣợc tiếp tục, sao cho các sai cuối cùng là chấp nhận đƣợc. Do đó, bằng cách tăng số lƣợng bỏ qua những lỗi trong các biểu diễn của L cho Lˆ do có thể đƣợc làm nhỏ tuỳ ý.

Đối với hình 3.2, chiều dài lƣợng tử hoá L có thể đƣợc diễn tả nhƣ:

32 16 2 32 1 16 1 8 0 4 0 2 1 0 ˆ l l l l l l l l l L               (3.4)

Với cách tiếp cận này, chỉ cần dựa trên l, các hệ số của nó tƣơng ứng là 0 hay 1. Quá trình này đƣợc trong thực tế, tƣơng đƣơng với biểu diễn nhị (adsbygoogle = window.adsbygoogle || []).push({});

phân của số thực, đƣợc gọi là biểu diễn mặt phẳng bit, trong đó mỗi số đƣợc

biểu diễn bởi một chuỗi các ký hiệu 0 và 1. Bằng cách tăng số lƣợng các chữ số, sai số trong biểu thị có thể đƣợc làm nhỏ tuỳ ý.

Lƣợng tử hoá mặt phẳng bit là một hình thức xấp xỉ kế tiếp đã đƣợc sử dụng trong một số bộ mã hoá - giải mã (codecs) tiêu chuẩn nhƣ tiêu chuẩn JPEG2000. Ở đây, các hệ số Wavelet lần đầu tiên biểu diễn ở độ chính xác tối đa có thể. Điều này phụ thuộc vào độ phân giải điểm ảnh đầu vào (ví dụ nhƣ 8 bit) và hệ số dải động của bộ lọc Wavelet . Các biểu tƣợng biểu diễn cho hệ số lƣợng tử hoá đƣợc mã hoá một bit tại một thời gian, bắt đầu với bit có giá trị cao nhất (most significant bit - MSB) và trƣớc cho bit có giá trị thấp nhất (least significant bit - LSB). Vì vậy, đối với một M-bit, lƣợng tử hoá mặt phẳng (plane quantisation) với kích thƣớc của bƣớc lƣợng tử hoá tốt nhất Δ, đơn vị ƣớc lƣợng là Δ2M-l. Δ đƣợc gọi là kích thƣớc bƣớc lƣợng tử hoá cơ bản.

33

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Một biến đổi Wavelet hai giai đoạn (bảy băng tần) của ảnh đƣợc minh

họa trong hình 1.10. Có thể thấy rằng các băng tần dọc giống nhƣ các phiên bản thu nhỏ của nhau, cũng nhƣ các băng tần ngang và đƣờng chéo. Quan tâm đặc biệt trong các ảnh con là một thực tế rằng hệ số không có nghĩa từ các băng tần của cùng một hƣớng có xu hƣớng trong cùng một địa điểm tƣơng ứng. Ngoài ra, các biên đƣợc xấp xỉ tại cùng một vị trí tƣơng ứng. Xét rằng các ảnh con của các băng tần thấp hơn (giai đoạn cao hơn của phân giải) có một nửa kích thƣớc của các băng tần cao hơn, sau đó ngƣời ta có thể làm cho một cây tứ phân (quad tree) biểu diễn của các băng tần cùng hƣớng, nhƣ trong hình 3.3 cho mƣời băng tần (biến đổi Wavelet ba giai đoạn).

Hình 3.3. Cây tứ phân biểu diễn của các băng tần cùng một hƣớng Trong hình này một hệ số trong băng tần dọc thấp nhất, LH3, tƣơng ứng với bốn hệ số của băng tần LH2 trực tiếp cao hơn của nó, mà liên quan

đến 16 hệ số trong LH1. Vì vậy, nếu một hệ số trong LH3 là bằng 0, có khả

năng là con của nó trong những băng tần cao hơn của LH2 và LH1 là bằng 0.

Điều này cũng đúng cho băng tần ngang và đƣờng chéo. Cây số không là một cách biểu diễn hiệu quả cho một nhóm lớn các số 0 của hệ số Wavelet . Ở

34

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

đây, rễ của cây số không đòi hỏi phải đƣợc xác định và sau đó là hậu duệ ở băng tần cao hơn có thể đƣợc bỏ qua.

3.3. Thuật toán EZW (Embedded zero tree Wavelet algorithm)

Sự kết hợp của các gốc cây số không có xấp xỉ kế tiếp đã mở ra một công cụ mã hóa rất thú vị không chỉ hiệu quả cho hệ số nén của hệ số Wavelet, nhƣng cũng nhƣ một phƣơng tiện cho không gian và cho khả năng mở rộng SNR.

3.3.1. Thuật toán

Thuật toán mã hoá với các sửa đổi chút ít về xấp xỉ kế tiếp, để mã hóa hiệu quả, theo EZW đƣợc mô tả nhƣ sau:

1. Các hình ảnh trung bình là tính toán và tách ra từ hình ảnh. Điều này phụ thuộc vào cách mà băng tần thấp nhất LL đƣợc mã hoá. Nếu nó đƣợc mã hoá một cách độc lập với các băng tần khác, chẳng hạn nhƣ với DPCM trong MPEG-4, sau đó giai đoạn này có thể đƣợc bỏ qua.

2. Biến đổi Wavelet giai đoạn R (3R + 1 băng tần) đƣợc áp dụng cho

ảnh (zero mean).

3. Đơn vị ƣớc lƣợng đƣợc chọn ban đầu là l để thiết lập một nửa giá trị tuyệt đối tối đa của các hệ số Wavelet.

4. Một danh sách chính các tọa độ của các vùng hệ số đƣợc tạo ra. Danh sách này sẽ xác định thứ tự mà hệ số đƣợc lấy mẫu. Nhƣ vậy nếu hệ số từ một băng tần thấp hơn (cao hơn quy mô) luôn đƣợc quét trƣớc một băng tần cao hơn. Hai danh sách trống của hệ số tọa độ, đƣợc gọi là danh sách thứ cấp và danh sách tạm thời, cũng đƣợc tạo ra.

5. Biến đổi Wavelet của hình ảnh đƣợc lấy mẫu và nếu một hệ số Wavelet là nhỏ hơn so với chiều dài hiện tại l, xây dựng lại bằng không. Ngƣợc lại, nó đƣợc xây dựng lại là ± 3l / 2, theo dấu của nó.

35

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Một phần của tài liệu tìm hiểu mô hình nén ảnh sử dụng biến đổi wavelet (Trang 34 - 75)