Nghiên cứu phát triển một số giải pháp nén ảnh tiên tiến cho màn hình tinh thể lỏng

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN HỮU TÀI NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ GIẢI PHÁP NÉN ẢNH TIÊN TIẾN CHO MÀN HÌNH TINH THỂ LỎNG LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN HỮU TÀI NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ GIẢI PHÁP NÉN ẢNH TIÊN TIẾN CHO MÀN HÌNH TINH THỂ LỎNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: 1. PGS. TS. NGUYỄN THỊ HOÀNG LAN 2. GS. TS. LÊ ĐÌNH CHƠN TÂM Hà Nội − 2015 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận án là trung thực và chưa từng được ai công bố trong bất cứ một công trình nào khác. TẬP THỂ HƯỚNG DẪN KHOA HỌC PGS. TS. Nguyễn Thị Hoàng Lan GS. TS. Lê Đình Chơn-Tâm Tác giả luận án Nguyễn Hữu Tài LỜI CẢM ƠN Tôi xin gửi lời tri ân đến PGS. TS. Nguyễn Thị Hoàng Lan – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách khoa Hà Nội và TS. Lê Đình Chơn Tâm – Giáo sư Đại học Sherbrooke – Canada, công sức và tấm lòng của Thầy Cô đã giúp cho tôi vượt qua những khó khăn trở ngại để có thể hoàn thành luận án này. Tôi cũng xin gửi lời cảm ơn tới các Thầy Cô trong Bộ môn Truyền thông và Mạng máy tính đã tạo điều kiện giúp đỡ và đóng góp nhiều ý kiến quý báu giúp tôi hoàn thiện luận án nghiên cứu. Cảm ơn các Thầy Cô trong Viện Công nghệ Thông Tin và Truyền thông đã truyền thụ những kiến thức bổ ích trong quá trình tôi học tập và nghiên cứu tại trường. Cảm ơn các Thầy Cô cùng các Bạn đồng nghiệp trong khoa Công nghệ Thông tin – Đại học Khoa học Huế đã luôn quan tâm và động viên tôi trong quá trình tôi làm nghiên cứu sinh. Cuối cùng, tôi xin gửi tấm lòng ân tình tới Gia đình tôi, đặc biệt đến người bạn đời của tôi, người luôn sẻ chia và động viên cùng như gánh vác nhiều khó khăn vất vả trong gia đình để tôi được toàn tâm toàn ý học tập và nghiên cứu. Mặc dù đã rất cố gắng nhưng do thời thời gian và kiến thức còn hạn chế nên luận án chắc còn có nhiều thiếu sót. Tôi rất mong nhận được những ý kiến đóng góp quý báu từ Quý Thầy Cô, các Bạn đồng nghiệp và những người quan tâm. MỤC LỤC MỤC LỤC .................................................................................................................. i DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT...................................................... iv DANH MỤC HÌNH VẼ.......................................................................................... vii DANH MỤC BẢNG ................................................................................................ xi CHƢƠNG 1: MỞ ĐẦU......................................................................................... 1 1.1. Đặt vấn đề .................................................................................................................. 1 1.2. Tình hình nghiên cứu trên thế giới ......................................................................... 3 1.3. Mục tiêu và phạm vi nghiên cứu của luận án ........................................................ 5 1.4. Phƣơng pháp nghiên cứu ......................................................................................... 5 1.5. Ý nghĩa khoa học và thực tiễn của đề tài................................................................ 6 1.6. Bố cục luận án ........................................................................................................... 7 CHƢƠNG 2: TỔNG QUAN VỀ VẤN ĐỀ NÉN ẢNH CHO MÀN HÌNH TINH THỂ LỎNG .................................................................................................... 9 2.1. Lịch sử phát triển của màn hình tinh thể lỏng và vấn đề chất lƣợng hiện thị hình ảnh động .................................................................................................................. 9 2.1.1. Lịch sử phát triển của màn hình tinh thể lỏng ..................................................... 9 2.1.2. Vấn đề chất lượng hiển thị hình ảnh động trên màn hình tinh thể lỏng ............ 11 2.2. Overdrive – một kỹ thuật tăng tốc độ đáp ứng cho các phần tử tinh thể lỏng . 12 2.3. Mô hình hệ thống Overdrive và yêu cầu nén ảnh giảm bộ nhớ khung hình..... 14 2.3.1. Mô hình hệ thống overdrive .............................................................................. 14 2.3.2. Vấn đề yêu cầu nén ảnh khung hình cho màn hình tinh thể lỏng ...................... 15 2.3.3. Các đặc trưng của phương pháp nén ảnh áp dụng cho hệ thống Overdrive ...... 17 2.4. Mô hình hệ thống nén ảnh dùng cho hệ thống overdrive ................................... 18 2.4.1. Hệ thống nén ảnh khung hình ............................................................................ 18 2.4.2. Các độ đo hiệu năng giải pháp nén ảnh khung hình .......................................... 20 2.4.3. Mối tương quan giữa chất lượng nén và chất lượng ảnh hiển thị trên màn hình tinh thể lỏng ................................................................................................................. 22 2.4.4. Một số yêu cầu đặc trưng và tiêu chí đánh giá hệ thống nén ảnh cho màn hình tinh thể lỏng ................................................................................................................. 23 2.5. Một số cơ sở lý thuyết trong nén ảnh .................................................................... 26 2.5.1. Các phép biến đổi áp dụng trong nén ảnh ......................................................... 27 2.5.2. Lượng tử hoá ..................................................................................................... 33 2.5.3. Gán từ mã dạng độ dài đồng nhất ...................................................................... 37 2.5.4. Khái quát về một số phương pháp mã hóa ảnh thực hiện cho màn hình ........... 38 2.6. Tổng quan về các giải pháp nén ảnh cho màn hình tinh thể lỏng ...................... 42 2.6.1. Khái quát về các giải pháp nén ảnh cho hệ thống overdrive ............................. 42 i 2.6.2. Một số hướng tiếp cận các giải pháp nén và định hướng nghiên cứu ............... 46 CHƢƠNG 3: PHÂN TÍCH VÀ ĐỀ XUẤT MỘT SỐ GIẢI PHÁP NÉN ẢNH DỰA TRÊN MÃ HÓA KHỐI VÀ BIẾN ĐỔI KHÔNG GIAN MÀU ............... 61 3.1. Nghiên cứu cải tiến và phát triển giải pháp nén ảnh dựa trên mã hóa khối và biến đổi không gian màu ............................................................................................... 61 3.1.1. Tóm tắt 6 giai đoạn nghiên cứu phát triển giải pháp ......................................... 61 3.1.2. Môi trường thực nghiệm cài đặt và các bộ dữ liệu ............................................ 62 3.2. Khắc phục hiện tƣợng nhiễu khối trong AHIC với đề xuất cải tiến MAIC ...... 64 3.2.1. Nhiễu khối trong AHIC – Nguyên nhân và giải pháp khắc phục ...................... 64 3.2.2. Phát triển phương pháp lượng tử tối ưu sai số “Midrise Uniform Quantizer” .. 65 3.2.3. Đề xuất giải pháp cải tiến MAIC giúp khắc phục nhiễu khối ........................... 65 3.2.4. Đánh giá độ phức tạp của MAIC so với AHIC ................................................. 67 3.2.5. Kết quả thực nghiệm và đánh giá ...................................................................... 68 3.3. Cải thiện chất lƣợng ảnh nén với kỹ thuật trao đổi bit theo nội dung CBBET 73 3.3.1. Ưu và nhược điểm khi lượng tử hóa với sự phân phối bit đồng đều ................. 73 3.3.2. Đề xuất kỹ thuật trao đổi bit theo nội dung CBBET ......................................... 75 3.3.3. Đề xuất giải pháp cải tiến AAIC trên cơ sở tích hợp CBBET vào MAIC ........ 79 3.3.4. Đánh giá độ phức tạp của AAIC so với MAIC và AHIC .................................. 80 3.3.5. Kết quả thực nghiệm và đánh giá ...................................................................... 81 3.4. Cải thiện chất lƣợng nén với kỹ thuật phân phối bit CBBDT............................ 84 3.4.1. Ưu và nhược điểm của kỹ thuật trao đổi bit CBBET ........................................ 84 3.4.2. Đề xuất kỹ thuật phân phối bit CBBDT dựa trên giá trị bước lượng tử - giải pháp AHAIC ................................................................................................................ 85 3.4.3. Cải tiến hiệu năng của AHAIC bằng sơ đồ nén ACAIC ................................... 91 3.5. Đề xuất giải pháp nén RAIC.................................................................................. 96 3.5.1. Cải thiện hiệu năng cho bộ lượng tử hóa với kỹ thuật mã hóa lượng tử MMAUQC ................................................................................................................... 96 3.5.2. Tối ưu hóa kỹ thuật phân phối bit với RBBDT ................................................. 99 3.5.3. Đề xuất mô hình lượng tử đa thích nghi MAQC ............................................. 101 3.5.4. Đề xuất giải pháp nén RAIC............................................................................ 103 3.5.5. Đánh giá độ phức tạp tính toán của giải pháp nén RAIC ................................ 104 3.5.6. Kết quả thực nghiệm và đánh giá .................................................................... 104 3.6. Đề xuất ARAIC nâng cao hiệu năng nén RAIC ................................................ 108 3.6.1. Giải pháp đề xuất ARAIC ............................................................................... 108 3.6.2. Sơ đồ thuật toán mã hóa/giải mã cho MAQC.................................................. 110 3.6.3. Phân tích đánh giá khả năng nâng cao hiệu năng của giải pháp đề xuất ......... 111 3.6.4. Kết quả thực nghiệm và đánh giá .................................................................... 112 3.7. Kết luận chƣơng 3................................................................................................. 115 ii CHƢƠNG 4: PHÂN TÍCH VÀ ĐỀ XUẤT MỘT SỐ GIẢI PHÁP NÉN ẢNH DỰA TRÊN BIẾN ĐỔI WAVELET VÀ LỰA CHỌN THÍCH NGHI........... 117 4.1. Đề xuất cải tiến DAMS với sự tích hợp cơ chế ngƣỡng thích nghi - giải pháp DBMAIC ...................................................................................................................... 118 4.1.1. Đề xuất kỹ thuật ngưỡng thích nghi ATT ....................................................... 119 4.1.2. Đề xuất thuật toán lượng tử thích nghi AQC .................................................. 121 4.1.3. Thực nghiệm và đánh giá cho giải pháp DBMAIC ......................................... 121 4.2. Đề xuất áp dụng biến đổi “Wavelet Lifting integer to integer” để cải thiện độ phức tạp - giải pháp WLT-MAIC .............................................................................. 126 4.2.1. Độ phức tạp trong kiến trúc thực hiện của DAMS và DBMAIC .................... 126 4.2.2. Sơ đồ “Wavelet Lifting” .................................................................................. 127 4.2.3. Đề xuất giải pháp WLT-MAIC ....................................................................... 129 4.2.4. Sơ đồ thuật toán mã hóa và giải mã DAMS-AT. ............................................ 130 4.2.5. Phân tích đánh giá khả năng nâng cao hiệu năng của giải pháp đề xuất. ........ 131 4.2.6. Thực nghiệm và đánh giá cho giải pháp WLT-MAIC .................................... 131 4.3. So sánh và phân tích đánh giá hai giải pháp nén theo hai hƣớng tiếp cận ..... 134 4.3.1. So sánh thực nghiệm và phân tích đánh giá .................................................... 134 4.3.2. Một số kết luận và khuyến nghị....................................................................... 142 4.4. So sánh ARAIC và WLT-MAIC với những giải pháp tiên tiến nổi bật trong thời gian gần đây ......................................................................................................... 143 4.5. Kết luận chƣơng 4................................................................................................. 145 CHƢƠNG 5: KẾT LUẬN ................................................................................ 146 5.1. Tóm tắt nội dung nghiên cứu và kết quả mới của luận án ............................... 146 5.1.1. Những nội dung nghiên cứu chính của luận án ............................................... 146 5.1.2. Các kết quả mới của luận án ............................................................................ 147 5.2. Hƣớng phát triển .................................................................................................. 148 TÀI LIỆU THAM KHẢO ...................................................................................... 149 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA LUẬN ÁN ................................................................................................................................ 151 PHỤ LỤC 1: THỬ GIẢI PHÉP NÉN WLT-MAIC TRÊN MỘT SỐ VIDEO CLIP CỦA QUALCOMM CANADA ............................................................................. 152 PHỤ LỤC 2: THỐNG KÊ XÁC XUẤT CỦA “ZERO MEAN SIGNAL” TRONG MÔ HÌNH AAIC. ................................................................................................... 160 iii DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu và chữ viết tắt AAIC Giải nghĩa Mã hóa nén ảnh tiên tiến thích nghi Advanced Adaptive Image Coding ACAIC Mã hóa nén ảnh tiên tiến có tính thích nghi theo nội dung Advanced Content-Adaptive Image Coding AHAIC Mã hóa nén ảnh tiên tiến có tính thích nghi cao Advanced High-Adaptive Image Coding AHIC AM-BTC AQC ARAIC Bộ mã hóa nén ảnh tiên tiến kết hợp (lai) Advanced Hybrid Image Codec Mã hóa thu gọn khối nhiều mức thích nghi Adaptive Multi-level Block Truncation Coding Mã hóa lượng tử tích nghi Adaptive Quantization Coding Mã hóa nén ảnh thích nghi mạnh mẽ tiên tiến Advanced Robust Adaptive Image Coding ATC Bộ điều khiển ngưỡng thích nghi Adaptive Threshold Controller ATT Kỹ thuật ngưỡng thích nghi Adaptive-Threshold Technique BTC Kỹ thuật mã hóa dựa trên thu gọn khối Block Truncation Coding CBBDT Kỹ thuật phân phối bit dựa trên nội dung Content-Based Bit Distribution Technique CBBET Kỹ thuật trao đổi bit dựa trên nội dung Content-based Bit Exchange Techniques CF Khung hình hiện tại Current Frame CR Tỷ số nén Compression Ratio DAMS DBMAIC Phương pháp nén dựa trên DWT chọn lọc thích nghi. DWT-based Adaptive Mode Selection Mã hóa nén ảnh dựa trên phép biến đổi wavelet đa thích nghi. DWT-Based Multi-Adaptive Image Coding iv DCT Biến đổi cosine rời rạc Discrete Cosine Transform DSM Phương pháp tán xạ động Dynamic Scattering Method DWT Biến đổi sóng con (wavelet) rời rạc Discrete Wavelet Transform FFD / Overdrive FIR HCRIC HD HDTV Kỹ thuật tăng tốc độ đáp ứng cho các phần tử tinh thể lỏng qua cơ chế tăng điện áp Feedforward Driving Bộ lọc có đáp ứng xung hữu hạn Finite Impulse Response Mã hóa nén ảnh tỷ số nén cao High Compression Ratio Image Coding Chuẩn định dạng hình ảnh độ phân giải cao High-Definition Chuẩn truyền hình độ phân giải cao High-Definition Television HIC Mã hóa nén ảnh kết hợp (lai) Hybrid Image Coding LC Phần tử tinh thể lỏng Liquid Crystal LCD Màn hình tinh thể lỏng Liquid Crystal Displays MAIC Mã hóa nén ảnh thích nghi theo giá trị trung bình Mean Adaptive Image Coding MAQC Mã hóa lượng tử đa thích nghi Multiple Adaptive Quantization Coding MMAUQC Mã hóa lượng tử hóa đều thích nghi theo Min-Max Min-Max Adaptive Uniform Quantization Coding MSE Sai số trung bình bình phương Mean Squared Error MUQ Bộ lượng tử đều dạng Midrise Midrise Uniform Quantizer PCM Mã hóa điều xung Pulse Code Modulation PF Khung hình trước thời điểm hiện tại Previous Frame v PSNR Tỷ số tín hiệu mức đỉnh trên nhiễu Peak Signal-to-Noise Ratio RAIC Mã hóa nén ảnh thích nghi mạnh Robust Adaptive Image Coding RBBDT SBB-BTC Kỹ thuật phân phối bit tối ưu dựa trên giá trị phạm vi Range-based Bit Distribution Technique Mã hóa cắt khối dựa trên mặt phẳng bit Single Bit Plane based Block Truncation Coding TFT Transistor công nghệ “Thin Film” đối với một phần tử ảnh màn hình Thin-Film Transistor UHD Chuẩn định dạng hình ảnh độ phân giải siêu cao Ultra High-Definition VQ-BTC WLT-MAIC Mã hóa cắt khối dựa trên lượng tử hóa vector Vector Quantizer based Block Truncation Coding Mã hóa nén ảnh đa thích nghi dựa trên biến đổi wavelet số nguyên Wavelet Lifting integer to integer Transform based Multi-Adaptive Image Codin vi DANH MỤC HÌNH VẼ Hình 1.1. Minh họa hiện tượng mờ chuyển động .................................................................. 1 Hình 1.2. Mô hình một hệ thống overdrive trong màn hình tinh thể lỏng. ........................... 2 Hình 2.1. Mô tả cấu tạo màn hình TFT-LCD ...................................................................... 10 Hình 2.2. Minh họa hiện tượng Motion-Blur trên màn hình tinh thể lỏng .......................... 11 Hình 2.3. Sơ đồ khối của màn hình tinh thể lỏng 15inch XGA dùng kỹ thuật FFD. .......... 12 Hình 2.4. Đồ thị độ chói - thời gian đáp ứng mô tả cách thức xác định điện áp tăng tốc. .. 12 Hình 2.5. Minh họa giải pháp tăng tốc độ chuyển đổi mức xám thông qua cơ chế hiệu chỉnh tăng ngưỡng điện áp. .............................................................................. 13 Hình 2.6. So sánh thời gian đáp ứng ................................................................................... 13 Hình 2.7. Mô hình một hệ thống overdrive có sử dụng kỹ thuật nén ảnh nhằm giảm yêu cầu về dung lượng và tốc độ truy xuất dữ liệu của bộ nhớ khung hình. ................. 15 Hình 2.8. Phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân giải cao. .................................................................................................... 16 Hình 2.9. Mô hình với ba thành phần chính trong một hệ thống nén ảnh áp dụng trong truyền thông. ..................................................................................................... 18 Hình 2.10. Mô hình khái quát với bốn thành phần chính trong một hệ thống nén ảnh áp dụng cho overdrive trong màn hình tinh thể lỏng. ........................................... 19 Hình 2.11. Đồ thị biến thiên của PSNR theo MSE. ............................................................ 21 Hình 2.12. Minh họa 64 hàm cơ bản của 8×8 DCT. ........................................................... 28 Hình 2.13. Phân tích đa phân giải 3 mức và khôi phục của tín hiệu dùng cấu trúc lọc kiểu kim tự tháp (pyramidal filter structure) ............................................................ 30 Hình 2.14. Quy trình xử lý dòng-cột của DWT hai chiều. .................................................. 31 Hình 2.15. Sơ đồ phân tích và tổng hợp tín hiệu hai chiều theo cấu trúc băng tần con. ..... 32 Hình 2.16. Kết quả biến đổi DWT trên ảnh số hai chiều theo kiến trúc kim tự tháp sử dụng bộ lọc Wavalet Daubechies 4 - hệ số. .............................................................. 32 Hình 2.17. Ánh xạ vào – ra của một bộ lượng tử hóa dạng Midrise. .................................. 33 Hình 2.18. Xấp xỉ của hàm Px(x) bởi các hằng số phân đoạn ............................................. 35 Hình 2.19. Ánh xạ vào – ra của một bộ lượng tử hóa tối ưu và sai số lượng tử.................. 37 Hình 2.20. Mô hình khái quát cho một bộ mã hóa lượng tử thích nghi .............................. 40 Hình 2.21. Sơ đồ mã hóa ảnh sử dụng biến đổi ................................................................... 40 Hình 2.22. Sơ đồ cơ bản của chuẩn nén ảnh JPEG ............................................................. 41 Hình 2.23. Sơ đồ thuật toán bộ nén JPEG2000 ................................................................... 42 Hình 2.24. Những giải pháp nén đã được đề xuất áp dụng trong hệ thống overdrive của màn hình tinh thể lỏng ...................................................................................... 47 vii Hình 2.25. Sơ đồ khối của bộ mã hóa AQC ........................................................................ 49 Hình 2.26. Chất lượng ảnh nén của giải pháp AHIC được so sánh với giải pháp chỉ áp dụng kỹ thuật BTC .................................................................................................... 49 Hình 2.27. Sơ đồ giải pháp nén AHIC. ............................................................................... 50 Hình 2.28. Hiện tượng nhiễu khối (blocking effect) trên ảnh khôi phục của AHIC. .......... 51 Hình 2.29. Hiện tượng kém chất lượng trên thành phần màu sắc (Cb và Cr) trên ảnh khôi phục của AHIC ................................................................................................. 52 Hình 2.30 Sơ đồ khối và kiến trúc của AM-BTC ................................................................ 53 Hình 2.31. Ảnh khôi phục của AM-BTC và sai số của nó. ................................................. 54 Hình 2.32. Minh chứng cho hiện tượng rung động trong giải pháp nén AM-BTC. ............ 55 Hình 2.33. Mô hình hệ thống của DAMS và bộ mã hóa thích nghi. ................................... 57 Hình 2.34. Hiệu ứng khối (blocking) và nhiễu (noise) trên ảnh khôi phục của DAMS. ..... 59 Hình 2.35. Số bit dư thừa khi kết thúc quá trình nén của DAMS ....................................... 60 Hình 3.1. Sơ đồ mô tả sơ lược các bước nghiên cứu phát triển........................................... 61 Hình 3.2. Đồ thị hàm lượng tử Midrise Uniform Quantizer với 8 mức lượng tử................ 65 Hình 3.3. Sơ đồ khối của giải pháp nén MAIC. .................................................................. 66 Hình 3.4. Sơ đồ bộ lượng tử hóa MUQ (MUQ Encoder & Decoder). ................................ 67 Hình 3.5. So sánh hiệu năng của AHIC với MAIC trên chuỗi hình CIF Foreman. ............ 69 Hình 3.6. So sánh hiệu năng của AHIC với MAIC trên chuỗi hình CIF Bus. .................... 69 Hình 3.7. So sánh sự mất mát thông tin giữa AHIC và MAIC trên một khung hình của chuỗi khung hình CIF Foreman........................................................................ 70 Hình 3.8. So sánh sự mất mát thông tin (hay error) giữa 2 giải pháp nén AHIC và MAIC trên một khung hình của chuỗi khung hình CIF Bus. ...................................... 71 Hình 3.9. Minh họa ảnh độ chói Y của 8 bock 4×4 đầu vào cho quá trình lượng tử hóa. .. 74 Hình 3.10. Sai số phát sinh khi lượng tử hóa với phân phối đều bởi bộ lượng tử 4×4-AQC. Chất lượng ảnh khôi phục đạt được PSNR=33.00 dB. .................................... 74 Hình 3.11. Sai số phát sinh khi lượng tử hóa với phân phối không đồng đều bởi bộ lượng tử 4×4-AQC. ..................................................................................................... 75 Hình 3.12. Sơ đồ khối cho bộ mã hóa CBBET và bộ Bit Selector ...................................... 76 Hình 3.13. Sơ đồ khối cho bộ mã hóa và giải mã của AAIC. ............................................. 80 Hình 3.14. So sánh chất lượng nén và sự mất mát thông tin giữa 3 giải pháp nén AHIC, MAIC và AAIC trên một khung hình của chuỗi khung hình CIF Foreman. ... 81 Hình 3.15. So sánh hiệu năng của AAIC với MAIC và AHIC. .......................................... 82 Hình 3.16. So sánh hiệu năng của AAIC với AHIC (chỉ trên thành phần độ chói Y). ....... 83 Hình 3.17. Sai số phát sinh khi lượng tử hóa với phân phối không đồng đều bởi bộ lượng tử 4×4-AQC. ..................................................................................................... 84 viii Hình 3.18. Sơ đồ bộ mã hóa và giải mã theo kỹ thuật phân phối bít (CBBDT) dựa trên giá trị bước lượng tử. .............................................................................................. 86 Hình 3.19. Sơ đồ khối cho bộ mã hóa (encoder) và giải mã (decoder) của giải pháp nén AHAIC (ở đây Q=2). ........................................................................................ 88 Hình 3.20. So sánh chất lượng ảnh của các giải pháp trên chuỗi khung hình CIF Hall. ..... 89 Hình 3.21. So sánh chất lượng nén và sự mất mát thông tin giữa 3 giải pháp nén AHIC, AAIC và AHAIC trên một khung hình của chuỗi khung hình CIF Hall ......... 90 Hình 3.22. Sơ đồ bộ mã hóa và giải mã theo kỹ thuật phân phối bít (CBBDT) dựa trên giá trị tuyệt đối lớn nhất của khối........................................................................... 93 Hình 3.23. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi CIF Hall. ................. 93 Hình 3.24. So sánh chất lượng nén và sự mất mát thông tin giữa AHIC, AHAIC và ACAIC trên một khung hình của chuỗi khung hình CIF Hall. ...................................... 95 Hình 3.25. Kỹ thuật lượng tử MUQ với 3bit/pixel - Mối liên hệ giữa bước lượng tử hóa Qstep và sự phân bố các giá trị (hay điểm ảnh) trong một khối....................... 97 Hình 3.26. Kỹ thuật lượng tử MMAUQC với 3bit/pixel - Mối liên hệ giữa bước lượng tử hóa Qstep và sự phân bố các giá trị trong một khối dạng “zero min signal”. .. 98 Hình 3.27. Mô tả đặc tính vào-ra của một bộ lượng tử hóa đều 3bit/pixel với đầu vào dạng “zero min signal”. ............................................................................................. 99 Hình 3.28. Sơ đồ khối của mô hình lượng tử đa thích nghi MAQC ................................. 102 Hình 3.29. Sơ đồ khối của bộ mã hóa và giải mã RAIC. .................................................. 104 Hình 3.30. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi khung hình CIF Foreman. ......................................................................................................... 105 Hình 3.31. So sánh chất lượng ảnh nén và sai số một cách trực quan trên ảnh Foreman. 106 Hình 3.32. Sơ đồ bộ nén (Encoder) và giải nén (Decoder) của ARAIC. .......................... 108 Hình 3.33. Sơ đồ bộ nén và giải nén MAQC áp dụng trong ARAIC. ............................... 109 Hình 3.34. Sơ đồ thuật toán mã hóa và giải mã MAQC. ................................................... 111 Hình 3.35. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi khung hình CIF MobileCalendar .............................................................................................. 113 Hình 3.36. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi khung hình CIF Cheerleader ..................................................................................................... 113 Hình 3.37. So sánh chất lượng hình ảnh nén và sai số một cách trực quan trên một khung hình của chuỗi khung hình CIF MobileCalendar. .......................................... 114 Hình 4.1. Sơ đồ quá trình các đề xuất cải tiến kế thừa và phát triển theo hướng áp dụng biến đổi wavelet và lựa chọn thích nghi. ........................................................ 117 Hình 4.2. Sơ đồ khối của bộ mã hóa DBMAIC, được tích hợp với một bộ điều khiển ngưỡng thích nghi........................................................................................... 118 ix Hình 4.3. Sơ đồ khối của bộ mã hóa DAMS-AT áp dụng trong DBMAIC. ..................... 118 Hình 4.4. Mối liên hệ giữa chất lượng ảnh và các hằng số C2 & C3 của DBMAIC .......... 122 Hình 4.5. Mối liên hệ giữa chất lượng ảnh và các hằng số C1 & C2 của DBMAIC .......... 122 Hình 4.6. Mối liên hệ giữa chất lượng ảnh và các hằng số C1 & C2 của DBMAIC .......... 122 Hình 4.7. Mối liên hệ giữa chất lượng ảnh và các hằng số Min-Threshold & MaxThreshold của DBMAIC ................................................................................ 122 Hình 4.8. Sự thay đổi của ngưỡng (threshold) .................................................................. 123 Hình 4.9. So sánh hiệu năng của các giải pháp nén........................................................... 123 Hình 4.10. So sánh giá trị bit dư thừa trong hai giải pháp DBMAIC và DAMS .............. 124 Hình 4.11. Sự cải thiện hiệu ứng nhiễu khối và nhiễu đốm trên ảnh khôi phục của DBMAIC ........................................................................................................ 124 Hình 4.12. So sánh trực quan chất lượng ảnh và sai số ..................................................... 126 Hình 4.13. Sơ đồ “Wavelet Lifting” (nguồn [26]). ........................................................... 127 Hình 4.14. Sơ đồ khối cho bộ mã hóa WLT-MAIC .......................................................... 129 Hình 4.15. Sơ đồ khối cho bộ mã hóa DAMS-AT áp dụng cho WLT-MAIC với 6 khối 4×8 đầu vào theo trật tự ưu tiên định trước. .......................................................... 129 Hình 4.16. Sơ đồ thuật toán mã hóa và giải mã DAMS-AT ............................................. 130 Hình 4.17. So sánh hiệu năng của các giải pháp nén......................................................... 132 Hình 4.18. So sánh trực quan chất lượng ảnh và sai số giữa hai giải pháp nén DBMAIC và WLT-MAIC.................................................................................................... 133 Hình 4.19. So sánh hiệu năng của các giải pháp nén thuộc hai hướng tiếp cận ................ 135 Hình 4.20. So sánh trực quan sai số giữa một số giải pháp nén thuộc hai hướng tiếp cận. Trị tuyệt đối sai số được khuếch đại lên 12 lần rồi biến đổi âm bản. ............. 137 Hình 4.21. So sánh hiệu năng của các giải pháp nén thuộc hai hướng tiếp cận ................ 138 Hình 4.22. Giá trị PSNR trung bình của các giải pháp nén khi đánh giá trên 25 chuỗi khung hình với tổng số 8765 hình ảnh. ..................................................................... 138 Hình 4.23.Giá trị Entropy trung bình của mỗi chuỗi khung hình. ..................................... 140 Hình 4.24. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi CIF MobileCalendar. ........................................................................................................................ 140 Hình 4.25. So sánh trực quan sai số giữa một số giải pháp nén thuộc hai hướng tiếp cận 142 Hình 4.26. So sánh hiệu năng nén của 4 giải pháp ARAIC, WLT-MAIC, LTC và SAMS ........................................................................................................................ 144 Hình 5.1. Sơ đồ quá trình đề xuất cải tiến và phát triển các giải pháp nén ảnh của luận án trên cơ sở kế thừa hai giải pháp AHIC và DAMS cùng một số lý thuyết nền tảng. ................................................................................................................ 147 x DANH MỤC BẢNG Bảng 2.1. Điện áp tăng tốc áp dụng để chuyển đổi từ mức độ chói hiện tại sang mức độ chói tiếp theo ở mức 60cd/m2 với thời gian đáp ứng 16.7ms ........................... 13 Bảng 2.2. Yêu cầu dung lượng và tốc độ truyền tải dữ liệu của bộ nhớ khung hình trên Tivi chuẩn HD và UHD. ...................................................................................... 14 Bảng 2.3. Lượng tử hóa tối ưu MSE cho mật độ Gaussian ................................................. 35 Bảng 2.4. Một ví dụ gán từ mã dạng độ dài đồng nhất cho thông điệp với 8 trạng thái. .... 38 Bảng 2.5 Chất lượng nén trung bình của AHIC so với giải pháp chỉ áp dụng kỹ thuật lượng tử hóa BTC [19] ............................................................................................... 49 Bảng 2.6. Chất lượng ảnh khôi phục của một số giải pháp nén .......................................... 53 Bảng 3.1. Các chuỗi khung hình định dạng CIF sử dụng trong thực nghiệm ..................... 63 Bảng 3.2. Các hình ảnh sử dụng trong thực nghiệm được lấy từ tập dữ liệu ảnh “LIVE image quality assessment database release 2”. ................................................. 64 Bảng 3.3. Trung bình cộng kết quả chất lượng ảnh nén cho mỗi giải pháp ........................ 72 Bảng 3.4. Đánh giá mức độ cải thiện chất lượng ảnh nén của MAIC so với AHIC ........... 72 Bảng 3.5. Các lượng tử đều tối ưu cho tín hiệu có giá trị trung bình bằng không, phương sai đơn vị và mật độ Gaussian .......................................................................... 77 Bảng 3.6. Kết quả chất lượng ảnh nén trung bình của các giải pháp .................................. 83 Bảng 3.7. Đánh giá mức độ cải thiện chất lượng ảnh nén của AAIC so với AHIC ............ 83 Bảng 3.8. Kết quả chất lượng ảnh nén trung bình cho các giải pháp .................................. 90 Bảng 3.9. Kết quả cải thiện của AHAIC so với AHIC. ....................................................... 90 Bảng 3.10. Kết quả cải thiện của AHAIC so với AAIC ...................................................... 91 Bảng 3.11. So sánh kết quả trung bình chất lượng ảnh nén khi sử dụng công thức tính phân phối bit (3.9) hay (3.10) trong giải pháp AHAIC ............................................. 91 Bảng 3.12. Kết quả chất lượng ảnh nén trung bình cho các giải pháp ................................ 95 Bảng 3.13. Đánh giá mức độ cải thiện chất lượng ảnh nén của ACAIC so với AHIC ....... 95 Bảng 3.14. Đánh giá mức độ cải thiện chất lượng ảnh nén của ACAIC so với AHAIC .... 96 Bảng 3.15. Minh họa cho tình huống mã hóa lượng tử BTC với sai số lớn. ..................... 103 Bảng 3.16. Kết quả chất lượng ảnh nén trung bình cho các giải pháp .............................. 107 Bảng 3.17. Đánh giá mức độ cải thiện chất lượng của RAIC so với một số giải pháp ..... 107 Bảng 3.18. Kết quả chất lượng ảnh nén trung bình cho các giải pháp .............................. 114 Bảng 3.19. Đánh giá mức độ cải thiện chất lượng của ARAIC so với một số giải pháp .. 115 Bảng 4.1. Các hệ số của bộ lọc wavelet Le Gall 5/3-tap. .................................................. 128 xi CHƢƠNG 1: MỞ ĐẦU 1.1. Đặt vấn đề Trong những năm gần đây, chúng ta đã được chứng kiến sự thông dụng của công nghệ màn hình tinh thể lỏng, hay thường được gọi tắt là công nghệ LCD (Liquid Crystal Display), qua những chiếc ti-vi tinh thể lỏng (LCD và LED1) trong các hộ gia đình, cho đến các màn hình tinh thể lỏng dùng cho máy tính cá nhân trong các văn phòng, các màn hình quan sát và điều khiển trong công nghiệp, và nổi bật hơn cả là hàng tỷ chiếc điện thoại di động đang nằm trong túi của hàng tỷ người trên toàn thế giới. Sự phát triển và thành công của công nghệ tinh thể lỏng là kết quả của những nghiên cứu cải tiến không ngừng, nhằm đưa chất lượng hình ảnh hiển thị và độ phân giải ngày một cao hơn, điện năng tiêu thụ ngày một hiệu quả, giá thành sản phẩm ngày một hợp lý hơn với người tiêu dùng. Một trong số các vấn đề của công nghệ tinh thể lỏng trong thời kỳ đầu của quá trình phát triển là tình trạng đáp ứng chậm chạp của các phần tử tinh thể lỏng, gây nên hiện tượng mờ chuyển động (motion-blur, xem Hình 1.1). Để khắc phục, K. Nakanishi và các đồng nghiệp đã đề xuất giải pháp tăng tốc độ đáp ứng cho các phần tử tinh thể thông qua cơ chế tăng ngưỡng điện áp với tên gọi “overdrive” vào năm 2001 [25]. Kỹ thuật overdrive đã tạo nên bước đột phá trong công nghệ tinh thể lỏng giúp tạo ra những sản phẩm có khả năng hiển thị hình ảnh chuyển động với chất lượng cao. Vùng hình ảnh chuyển động hiện thị bị mờ (a) Kỹ thuật điều khiển thông thường (b) Tăng tốc với overdrive Hình 1.1. Minh họa hiện tượng mờ chuyển động (motion-blur) khi áp dụng kỹ thuật điều khiển (dẫn động) thông thường (a), và khả năng cải thiện chất lượng hình ảnh hiển thị bằng kỹ thuật tăng tốc overdrive (b) trên màn hình tinh thể lỏng của hãng LG. 1 Màn hình LED (điôt phát quang) thực chất là màn hình tinh thể lỏng (LCD) nhưng được áp dụng kỹ thuật chiếu sáng bằng đèn điôt phát quang (LED) thay cho đèn huỳnh quang lạnh (Cold cathode fluorescent lamp - CCFL) [35]. 1 Mô hình hệ thống overdrive trong màn hình tinh thể lỏng được trình bày trong Hình 1.2, gồm hai thành phần: (1) Bộ nhớ khung hình (frame memory); và (2) bộ điều khiển tăng tốc overdrive. Trong đó, bộ nhớ khung hình có chức năng lưu trữ dữ liệu ảnh hiện thị đủ khung hình hiện tại (Fn) và đồng thời cung cấp dữ liệu ảnh khung hình ở thời điểm trước (Fn-1) cho hệ thống overdrive. Bộ điều khiển overdrive có chức năng cung cấp điện áp tăng tốc cho mỗi điểm ảnh trên màn hình dựa trên thông tin ảnh khung hình hiện tại (Fn) và ảnh khung hình ở thời điểm trước (Fn-1). Nguyên lý hoạt động của hệ thống overdrive được mô tả chi tiết trong mục 2.2. Dữ liệu khung hình Dữ liệu khung hình hiện tại Fn Overdrive Frame memory Dữ liệu khung hình thời điểm trước, Fn-1 (LUT) Overdriven Frame Hình 1.2. Mô hình một hệ thống overdrive trong màn hình tinh thể lỏng [24]. Hiện nay các nhà sản xuất đang cần áp dụng các chuẩn định dạng Ti-vi độ phân giải cao (High-Definition Television) và siêu cao (Ultra High-Definition Television) đối với các thiết bị màn hình tinh thể lỏng, với tốc độ hiện thị khung hình lên mức 60fps đến 120fps. Từ đó làm nảy sinh hai vấn đề sau đối với bộ nhớ khung hình: (1) Yêu cầu dung lượng bộ nhớ tăng cao theo sự tăng trưởng số điểm ảnh trên màn hình. Mức 640×480×24bit  7.1Mb với chuẩn VGA, 3840×2160×24bit  189.8Mb với chuẩn UHD 2160p (4K), và 7680×4320×24bit  759.4Mb với chuẩn UHD 4320p (8K). (2) Yêu cầu băng thông ở mức rất cao, cụ thể với UHD 2160p (4K) áp dụng tốc độ hiện thị khung hình 120fps sẽ là 3840×2160×24bit×120×2  44.5Gbit/s, hay UHD 4320p (8K) với 120fps sẽ là 7680×4320×24bit×120×2  178Gbit/s Với yêu cầu cao về dung lượng và tốc độ băng thông, sẽ đẩy giá thành của bộ nhớ khung hình lên cao, góp phần làm tăng giá thành của sản phẩm màn hình tinh thể lỏng. Từ đó bài toán nén ảnh khung hình áp dụng vào trong hệ thống overdrive đã được đặt ra nhằm mục đích thu nhỏ dung lượng dữ liệu ảnh khung hình trước khi nó được lưu trữ lên bộ nhớ khung hình (frame memory), giúp giảm yêu cầu dung lượng đối với bộ nhớ khung hình, 2 đồng thời cũng giúp giảm được yêu cầu băng thông đối với bộ nhớ khung hình khi lượng dữ liệu mà nó cần trao đổi (ghi/đọc) trở nên ít đi vì đã được nén lại. Khi yêu cầu về dung lượng và băng thông đối với bộ nhớ khung hình được giảm xuống sẽ kéo theo sự cải thiện về giá thành của sản phẩm màn hình tinh thể lỏng. Xuất phát từ yêu cầu thực tiễn trên, nhiều nghiên cứu đã được triển khai nhằm tìm ra những giải pháp nén ảnh khung hình áp dụng phù hợp và hiệu quả trên hệ thống overdrive của màn hình tinh thể lỏng. Kết quả đã có khá nhiều các giải pháp nén ảnh khung hình cho màn hình tinh thể lỏng được đề xuất qua các bài báo [[5], [9], [10], [11], [12], [13], [14], [15], [17], [18], [19], [20], [21], [22], [24], [28]]. Khi xem xét trong khoảng thời gian những năm nghiên cứu đầu tiên của luận án (cuối năm 2009 đến đầu năm 2011), một số giải pháp nén ảnh khung hình được đề xuất trong [[5], [19], [21]] là những giải pháp mới được đề xuất, thể hiện được hiệu năng nén cao so với những giải pháp nén được đề xuất trước đó trên một số tiêu chí như: tỷ số nén khá cao, chất lượng ảnh khá tốt, và độ phức tạp tính toán không cao hay ở mức chấp nhận được. Nhưng trải qua quá trình nghiên cứu phân tích về mặt lý thuyết cũng như thực nghiệm, chúng tôi đã phát hiện ra nhiều khiếm khuyết còn tồn tại trong các giải pháp nói trên về mặt chất lượng ảnh khôi phục cũng như độ phức tạp tính toán. Từ thực trạng đó, đã mở ra hướng nghiên cứu cải tiến một số giải pháp nén ảnh khung hình cho màn hình tinh thể lỏng đã được các tác giả nước ngoài đề xuất, nhằm nâng cao hiệu quả áp dụng vào hệ thống overdrive, hoặc tiến xa hơn sẽ nghiên cứu đề xuất các giải pháp nén tiên tiến về mặt hiệu năng, nhằm mang lại hiệu quả cao khi áp dụng vào hệ thống overdrive trong màn hình tinh thể lỏng. 1.2. Tình hình nghiên cứu trên thế giới Hiện nay, nhiều giải pháp nén ảnh khung hình khác nhau đã được đề xuất áp dụng cho hệ thống overdriver trong màn hình tinh thể lỏng. Từ giải pháp đơn giản chỉ áp dụng phép biến đổi không gian màu và kỹ thuật mã hóa lượng tử BTC (block truncation coding) trong [13] với tỷ số nén (compression ratio) CR = 3 đến 3.42. Cho đến các giải pháp nén có kiến trúc phức tạp hơn, sử dụng phối hợp nhiều kỹ thuật biến đổi và lượng tử hóa khác nhau nhằm tăng chất lượng ảnh khôi phục hay tỷ số nén, đã được đề xuất trong các bài báo [[9], [10], [12], [14], [15], [17], [18], [20], [21], [24], [28]]. Sau cùng, và cũng đáng được chú ý hơn cả, là một số giải pháp nén có tỷ số nén cao đi cùng với chất lượng ảnh khôi phục khá tốt, dựa trên mô hình kiến trúc khá đơn giản như đề xuất trong [19], hay không quá phức tạp và có thể thực hiện được theo thời gian thực, như trong [5]. Nhìn chung, các giải pháp đã được đề xuất nói trên, đặc biệt là những giải pháp tiên tiến về hiệu năng mới được đề xuất gần đây như Advanced Hybrid Image Codec (AHIC) 3 trong [19], Adaptive Multi-level Block Truncation Coding (AM-BTC) trong [21] hay DWT-based Adaptive Mode Selection (DAMS) trong [5], đều là những giải pháp có nhiều ưu điểm nổi trội khi so sánh với các giải pháp đã được đề xuất trước đó như: tỷ số nén cao, chất lượng ảnh khôi phục khá tốt và độ phức tạp tính toán không cao (với AHIC và AMBTC) hay không quá cao (với DAMS). Mặc dù vậy, qua quá trình nghiên cứu và phân tích thực nghiệm, chúng tôi nhận thấy các giải pháp này vẫn còn mắc phải một số nhược điểm sau:  Advanced Hybrid Image Codec (AHIC): Ảnh khôi phục dễ bị mắc phải hiện tượng nhiễu khối (hay blocking effect), kỹ thuật lượng tử hóa chưa thật sự tối ưu, mô hình kiến trúc thực thi còn nhiều điểm chưa thật sự hợp lý, và cuối cùng là khả năng thích nghi theo sự thay đổi của tín hiệu ảnh chưa cao dẫn đến chất lượng ảnh khôi phục còn rất thấp trong một số tình huống.  Adaptive Multi-level Block Truncation Coding (AM-BTC): Ảnh khôi phục có sai số lớn ở thành phần độ chói Y (luminance) là thành phần nhạy cảm với mắt người. Và hơn thế nữa, trong một số tình huống khi quan sát trên một chuỗi các khung hình, sai số trên ảnh khôi phục đã gây ra hiện tượng rung hình (vibrate effect) như nhìn qua một đám lửa ở những vùng ảnh nhiều chi tiết và ít thay đổi. Chính vì hiện tượng chập chờn tác động lên vùng ảnh có ít sự thay đổi nên khuyết điểm này dễ dàng được nhận ra qua quan sát bằng thị giác. Nhược điểm này sẽ khiến cho giải pháp AM-BTC khó có thể ứng dụng trên thực tiễn vì sẽ làm suy giảm chất lượng hiển thị hình ảnh trên màn hình tinh thể lỏng, dù rằng những kết quả thực nghiệm đánh giá trên số đo PSNR của giải pháp AM-BTC thường đạt kết quả khá cao.  DWT-based Adaptive Mode Selection (DAMS): Giải pháp này sử dụng một giá trị ngưỡng (threshold) cố định đã làm hạn chế khả năng thích nghi của DAMS và là nguyên nhân gây ra hiện tượng nhiễu khối ở thành phần màu (chroma) của ảnh khôi phục và nhiều đốm trên các chi tiết đường nét. Yêu cầu khá cao về độ phức tạp tính toán khi sử dụng phép biến đổi wavelet 2-chiều với bộ lọc Daubechies 4/4 - hệ số, đòi hỏi phải tính toán trên trường số thực. Và cuối cùng là đa số phép lượng tử hóa trong giải pháp này cũng yêu cầu xử lý trên trường số thực làm cho độ phức tạp tính toán tăng cao. Sơ lược thực trạng trên cho thấy vấn đề nghiên cứu các giải pháp nén ảnh áp dụng vào trong công nghệ màn hình tinh thể lỏng vẫn đang cần các nghiên cứu cải tiến và phát triển, để ngày càng có được các giải pháp hoàn thiện hơn với hiệu năng cao hơn. 4 1.3. Mục tiêu và phạm vi nghiên cứu của luận án Mục tiêu của luận án là nghiên cứu phát triển các giải pháp tiên tiến nén dữ liệu ảnh khung hình áp dụng cho màn hình tinh thể lỏng độ phân giải cao, trên cơ sở phân tích các công trình đã có để đề xuất cải tiến cải thiện hiệu năng. Nghiên cứu kế thừa và phát triển đề xuất các giải pháp nén mới nâng cao hiệu năng so với những giải pháp hiện đã được đề xuất. Theo một số các tiêu chí đánh giá hiệu năng nén gồm: chỉ số nén, chất lượng nén, và độ phức tạp tính toán. Phạm vi nghiên cứu của luận án bao gồm: 1. Nghiên cứu phát triển các giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng độ phân giải cao nhằm tăng cường hiệu năng nén. 2. Nghiên cứu đề xuất cải tiến các giải pháp để khắc phục những nhược điểm còn tồn tại trong một số giải pháp nén tiên tiến như AHIC, DAMS, nhằm nâng cao hiệu năng của giải pháp nén về cải thiện chất lượng ảnh, giảm độ phức tạp tính toán. 3. Nghiên cứu phân tích các ưu và nhược điểm của các giải pháp nén ảnh đã có. Từ đó đề xuất xây dựng các giải pháp nén mới thể hiện được nhiều ưu điểm vượt trội về chất lượng ảnh, tỷ số nén, độ phức tạp tính toán hay sơ đồ thực hiện, có khả năng thích nghi theo sự thay đổi của tín hiệu ảnh, tránh mắc phải các khuyết điểm về thị giác. 1.4. Phƣơng pháp nghiên cứu - Xác định rõ mục tiêu và phạm vi nghiên cứu. - Phương pháp nghiên cứu kế thừa và phát triển trên cơ sở nghiên cứu phân tích tổng quan các giải pháp đã đề xuất, cải tiến nâng cao hiệu năng và phát triển đề xuất giải pháp mới. - Phương pháp nghiên cứu kết hợp giữa lý thuyết và nghiên cứu thực nghiệm cài đặt chương trình kiểm chứng kết quả, biện luận và giải thích. 1. Về nghiên cứu lý thuyết:  Nghiên cứu cơ sở lý thuyết về tín hiệu ảnh và các phép biến đổi tín hiệu ảnh: Kỹ thuật thay đổi tần số lấy mẫu của tín hiệu (Downsampling, Upsampling) dùng kỹ thuật lọc số (Filter), chuyển đổi không gian màu (RGB, YCbCr), phép biến đổi cosin rời rạc DCT (Discrete Cosine Transform), biến đổi sóng con rời rạc DWT (Discrete Wavelet Transform), kỹ thuật Lifting.  Nghiên cứu cơ sở lý thuyết về lượng tử hóa và một số phương pháp lượng tử như: Phương pháp tối ưu sai số trung bình bình phương hay lượng tử hóa 5 Lloyd-Max, phương pháp lượng tử hóa tối ưu với đầu vào có phân phối đều, các phương pháp lượng tử hóa thích nghi.  Dùng một số độ đo đánh giá chất lượng nén: Độ đo sai số trung bình bình phương MSE (Mean Squared Error), độ đo tỷ số tín hiệu mức đỉnh /nhiễu PSNR (Peak Signal-to-Noise Ratio). 2. Về nghiên cứu thực nghiệm:  Đã tiến hành cài đặt lập trình thực nghiệm trên môi trường máy tính PC cho hầu hết các giải pháp nén tiên tiến được xem xét và đánh giá trong luận án  Tạo lập môi trường thực nghiệm phù hợp với môi trường thực tế của bài toán thông qua công cụ Simulink để có những quan sát trực quan và đưa ra những đánh giá phù hợp với bài toán.  Thực nghiệm đo lường, thống kê số liệu tạo cơ sở cho các phân tích đánh giá 1.5. Ý nghĩa khoa học và thực tiễn của đề tài Ý nghĩa khoa học của luận án được thể hiện trong đề xuất hai giải pháp tiên tiến nén ảnh khung hình, nâng cao về hiệu năng nén nhằm áp dụng cho hệ thống màn hình tinh thể lỏng, “Advanced Robust Adaptive Image Coding” và “Wavelet Lifting Transform base Multi-Adaptive Image Coding”, tương ứng với hai hướng tiếp cận khác nhau mà luận án đã thực hiện. Đề xuất phát triển về kỹ thuật lượng tử hóa, kỹ thuật tối ưu hóa quá trình lượng tử các khối ảnh thông qua giải pháp phân phối bit, những kỹ thuật mới được đề xuất này không bị bó hẹp trong lĩnh vực nén ảnh khung hình cho màn hình tinh thể lỏng mà chúng có khả năng áp dụng cho lĩnh vực nén ảnh nói chung. Ý nghĩa thực tiễn của luận án được thể hiện qua các giải pháp nén đề xuất hướng áp dụng vào công nghệ màn hình tinh thể lỏng cho phép sản xuất thế hệ màn hình tinh thể lỏng có độ phân giải cao, chất lượng hiển thị hình ảnh tốt với một giá thành thấp hơn. Ví dụ với chuẩn công nghệ màn hình UHD 8K (Ultra High Definition). Đến thời điểm này, năm 2015, nhiều nhà sản xuất màn hình tinh thể lỏng trên thế giới đã cho ra đời thế hệ màn hình chuẩn UHD 8K có độ phân giải 7680×4320 với tốc độ khung hình là 120fps (frames per second), dẫn đến yêu cầu về tốc độ truy xuất dữ liệu bộ nhớ khung hình bị đẩy lên đến mức 178 GB/s, một tốc độ quá cao so với nền tảng công nghệ sản xuất bộ nhớ DRAM hay DDRAM hiện tại, khiến cho giá thành thiết kế bộ nhớ khung hình trở nên rất đắt đỏ. Từ đó vấn đề nén ảnh khung hình càng trở nên bức thiết hơn nhằm giảm tốc độ truy xuất dữ liệu bộ nhớ, tiến đến hạ giá thành sản phẩm. Để trong tương lai gần sản phẩm thật sự phù hợp với túi tiền của đa số người tiêu dùng. Giúp người tiêu dùng có cơ hội bắt kịp được với sự chuyển mình của ngành công nghiệp sản xuất nội dung truyền hình và video, khi mà phần 6 lớn các hãng truyền thông và sản xuất nội dung video lớn trên thế giới, các hãng truyền hình lớn trên các châu lục đã và đang bắt đầu quá trình chuyển đổi sang chuẩn UHD. Tóm lại, có thể khẳng định rằng đề tài của luận án này thật sự mang nhiều ý nghĩa khoa học và thực tiễn. 1.6. Bố cục luận án Bố cục của luận án gồm 5 chương, ngoài hai chương MỞ ĐẦU và KẾT LUẬN, ba chương còn lại tập trung vào trình bày lý thuyết tổng quan cũng những kết quả nghiên cứu mà luận án đã đạt được, cụ thể: Chương 2: Trình bày sơ lược về lịch sử phát triển của công nghệ màn hình tinh thể lỏng và kỹ thuật tăng tốc overdrive giúp tăng tốc độ đáp ứng của các phần tử tinh thể lỏng. Một số cơ sở lý thuyết áp dụng trong bài toán nén ảnh khung hình. Nghiên cứu tổng quan về lĩnh vực nén ảnh khung hình trong hệ thống overdrive. Phân tích và thực nghiệm nhằm đánh giá ưu và nhược điểm của một số giải pháp nén ảnh tiên tiến đã được đề xuất áp dụng cho màn hình tinh thể lỏng. Trên cơ sở đó đưa ra một số định hướng nghiên cứu cải tiến. Chương 3: Nghiên cứu và phân tích sâu hơn các khuyết điểm trong một số giải pháp nén ảnh tiên tiến sử dụng nền tảng cơ bản là các kỹ thuật mã hóa khối và biến đổi không gian màu. Từ đó đề xuất các kỹ thuật khắc phục áp dụng vào trong các sơ đồ giải pháp cải tiến nhằm nâng cao hiệu năng nén. Nghiên cứu đề xuất áp dụng lý thuyết phân phối bít vào nén ảnh khung hình cùng một số kỹ thuật lượng tử hóa tối ưu, dựa vào đó từng bước nâng cao chất lượng nén và giảm độ phức tạp tính toán qua từng giải pháp. Kết quả đã đạt được một số đề xuất cải tiến có tính kế thừa từng bước một nhằm nâng cao chất lượng ảnh hay cải thiện độ phức tạp tính toán. Sau cùng, luận án đã đi đến được một giải pháp nén ảnh khung hình có tính tiên tiến về hiệu năng với tên gọi ARAIC, mang lại sự cải tiến vượt trội về chất lượng ảnh, giảm độ phức tạp tính toán và sơ đồ kiến trúc thực thi có phần tinh gọn. Tất cả các đề xuất trong chương này đều được cài đặt thực nghiệm, phân tích, so sánh và đánh giá. Chương 4: Nghiên cứu và phân tích các nhược điểm của giải pháp nén ảnh DAMS. Từ đó tìm kiếm giải pháp khắc phục thông qua các đề xuất như kỹ thuật ngưỡng thích nghi, kỹ thuật biến đổi wavelet lifting integer to integer, và một số điều chỉnh về sơ đồ giải pháp. Trải qua hai giai đoạn nghiên cứu cải tiến và phát triển có tính kế thừa: Giai đoạn một luận án đã đưa ra đề xuất cải tiến DAMS bằng cách tích hợp kỹ thuật ngưỡng thích nghi để hình thành nên giải pháp DBMAIC cho khả năng thích nghi cao và mang lại chất lượng ảnh vượt trội; Giai đoạn hai là cải thiện độ phức tạp tính toán của DBMAIC với kỹ thuật biến đổi tín hiệu ảnh Wavelet Lifting Integer to Integer, cùng một số cải tiến về mặt lượng tử để 7 hình thành nên giải pháp WLT-MAIC. Những phân tích và đánh giá cho thấy tính tiến tiến của WLT-MAIC thể hiện qua hiệu năng vượt trội của nó so với giải pháp gốc DAMS. Trong chương này cũng đồng thời đưa ra các so sánh và đánh giá giữa hai hướng tiếp cận trong luận án. Tập trung một số phân tích và đánh giá so sánh trên hai kết quả tốt nhất của hai hướng tiếp cận là ARAIC và WLT-MAIC, các so sánh và đánh giá nhằm thể hiện rõ những ưu - khuyết điểm và đưa ra những nhận định hay khuyến nghị đối với nhà sản xuất khi chọn lựa giải pháp. Cuối cùng là phần so sánh đánh giá với 2 giải pháp nén tiên tiến nổi bật nhất mới được đề xuất trên thế giới vào cuối giai đoạn nghiên cứu của luận án là LTC [22] và SAMS [11]. Chương 5: Tóm tắt các nội dung nghiên cứu chính của luận án. Trình bày cô đọng các kết quả mới mà luận án đã đạt được, và cuối cùng là nêu lên hướng phát triển tiếp theo của luận án. 8 CHƢƠNG 2: TỔNG QUAN VỀ VẤN ĐỀ NÉN ẢNH CHO MÀN HÌNH TINH THỂ LỎNG Trong chương này luận án sẽ trình bày sơ lược về lịch sử phát triển của màn hình tinh thể lỏng và kỹ thuật tăng tốc overdrive, vấn đề nén ảnh áp dụng cho hệ thống overdrive của của màn hình tinh thể lỏng, mối tương quan giữa chất lượng nén và chất lượng ảnh hiển thị trên màn hình, một số yêu cầu đặc trưng cho hệ thống nén ảnh trên màn hình tinh thể lỏng, tổng quan về nén ảnh nhằm giảm bộ nhớ khung hình trong màn hình tinh thể lỏng. Và sau cùng là một số cơ sở lý thuyết có liên quan. Kỹ thuật nén ảnh trình bày trong chương này sẽ được giới hạn trong không gian hai chiều (chiều rộng và chiều cao). 2.1. Lịch sử phát triển của màn hình tinh thể lỏng và vấn đề chất lƣợng hiện thị hình ảnh động 2.1.1. Lịch sử phát triển của màn hình tinh thể lỏng Ngày nay, trong giai đoạn phát triển bùng nổ của các thiết bị kỹ thuật số thì màn hình tinh thể lỏng trở nên quá gần gũi với chúng ta. Chúng ta có thể thấy màn hình tinh thể lỏng được lắp đặt trong khá nhiều thiết bị. Từ đồng hồ kỹ thuật số, cho đến máy tính cá nhân, điện thoại di động, ti-vi LCD và ti-vi LED trong các hộ gia đình, hay các thiết bị giải trí đang rất thời thượng và được đông đảo giới trẻ đón nhận như máy tính bảng, máy đọc sách,…v.v. Để có được sự phát triển và ứng dụng mãnh mẽ như ngày nay thì màn hình tinh thể lỏng đã có một lịch sử phát triển lâu dài qua nhiều giai đoạn. Mốc lịch sử đầu tiên phải kể đến đó là và năm 1888, nhà thực vật học và hóa học người Áo, Friedrich Reinitzer, đã tìm ra các phần tử tinh thể (liquid-crystal) trong chất béo được chiết xuất từ cà-rốt. Đến năm 1962, nhà nghiên cứu Richard Williams đã tạo mẫu dạng sọc (stripe-patterns) trong một lớp mỏng của vật liệu tinh thể lỏng bằng cách ứng dụng tác động điện áp lên các tinh thể. Hiệu ứng này được dựa trên sự tạo hình bất ổn định điện-thủy động lực (electrohydrodynamic instability forming). Năm 1958, Dr. Glenn Brown là người viết bài báo đầu tiên nghiên cứu về màn hình tinh thể lỏng ở Mỹ. Giữa những năm 1964 và 1968, tại trung tâm nghiên cứu RCA David Sarnoff ở Princeton, bang New Jersey của Mỹ, một nhóm các kỹ sư và các nhà khoa học dẫn đầu bởi George Heilmeier với Louis Zanoni và Lucian Barton, đã phát minh ra một phương pháp sử dụng điện áp để điều khiển ánh sáng phản xạ từ các phần tử tinh thể lỏng, nó minh chứng cho màn hình tinh thể lỏng đầu tiên. Công việc 9 của họ đã mở ra một ngành công nghiệp toàn cầu sản xuất hàng triệu màn hình tinh thể lỏng từ đó đến nay. Màn hình tinh thể lỏng của Heilmeier sử dụng phương pháp tán xạ động mà ông gọi là DSM (Dynamic Scattering Method), trong đó một vật mang điện được áp dụng để sắp xếp lại các phân tử vì thế chúng có thể tán xạ ánh sáng. Thiết kế DSM làm việc kém và đã được chứng minh là quá tốn năng lượng. Nó đã được thay thế bởi một phiên bản cải tiến, sử dụng các tinh thể dạng xoắn hay còn gọi là các tinh thể nematic hoạt động hiệu quả hơn, phát minh bởi James Fergason vào năm 1969. Nhà phát minh sáng chế James Fergason nắm giữ một số bằng sáng chế cơ bản trong lĩnh vực màn hình tinh thể lỏng vào đầu những năm 1970, bao gồm cả bằng sáng chế ở Mỹ có tính then chốt mang số hiệu US3,731,986 cho "Display Devices Utilizing Liquid Crystal Light Modulation". Năm 1972, Công ty International Liquid Crystal (ILIXCO) thuộc sở hữu của James Fergason đã sản xuất đồng hồ màn hình tinh thể lỏng hiện đại đầu tiên dựa trên bằng sáng chế của James Fergason. Đến năm 1973, Hãng Sharp đã sản xuất ra chiếc máy tính di động đầu tiên sử dụng màn hình màn hình tinh thể lỏng theo công nghệ DSM (nguồn [4], [27]). Hình 2.1. Mô tả cấu tạo màn hình TFT-LCD Năm 1979, Walter Spear và Peter LeComber đã tạo ra màn hình màu đầu tiên dùng công nghệ TFT (Thin-Film Transistor). Năm 1985, Seiko-Epson công bố sản phẩm “TV set” màu thương mại đầu tiên, nó có kích thước hiển thị là 2 inch. Năm 1992, Sharp đã phát triển thành công sản phẩm màn hình tinh thể lỏng kích thước 16.5 inch tương thích với việc hiển thị hình ảnh đa phương tiện (multimedia-compatible). Năm 2004, hãng Philips đã trưng bày một màn hình tinh thể lỏng 20 inch theo công nghệ hiện thị ba chiều (3-D) tại hội chợ thương mại CeBIT ở Hannover nước Đức. Năm 2005, hãng Sammung đã phát triển màn hình lớn nhất thế giới lúc bấy giờ có kích thước 82 inch hiển thị theo chuẩn định dạng có độ phân giải cao “Full HD” dùng công nghệ TFT. Cho đến thời điểm hiện nay, năm 2014, thì hầu hết các hãng sản xuất màn hình tinh thể lỏng lớn trên thế giới đều đã cho ra đời các sản phẩm màn hình tinh thể lỏng độ phân giải UHD 4K, mặc dù hiện tại 10 giá thành của chúng còn rất đắt. Và trong một tương lai không xa, các sản phẩm màn hình tinh thể lỏng độ phân giải UHD 8K có thể sẽ trở nên phổ biến. 2.1.2. Vấn đề chất lƣợng hiển thị hình ảnh động trên màn hình tinh thể lỏng Như đã nói ở trên, màn hình tinh thể lỏng đã trở nên rất phổ biến trên thị trường thiết bị giải trí gia dụng cũng như trong công nghiệp. Tuy nhiên, điểm yếu của nó là hiện tượng hiển thị không rõ nét, hay bị nhòe, đối với các cảnh động, được gọi là hiệu ứng motionblur, được minh họa qua Hình 2.2. Nguyên nhân là do các phần tử tinh thể lỏng đáp ứng lại sự thay đổi độ sáng khi chuyển đổi từ khung hình trước sang khung hình sau với một tốc độ chậm (slow response). Trong tình huống xấu nhất, các phần tử tinh thể xoắn nematic có thể phải mất khoảng 67-84ms để hoàn thành việc chuyển đổi độ sáng [25], trong khi đó theo chuẩn hiển thị hình ảnh chuyển động thì mỗi giây cần hiển thị tối thiểu 30 khung hình, hay nói cách khác là tốc độ đáp ứng của các phần tử phải không vượt quá 33ms. Để giải quyết vấn đề trên, người ta đã từng nghiên cứu và phát triển các chất tinh thể lỏng mới có thời gian đáp ứng nhanh hơn. Tuy nhiên, rất đáng tiết là những kết quả mang lại không đủ để cải thiện tốc độ đáp ứng chậm đối với các mức xám, vì vấn đề thời gian đáp ứng chậm liên quan đến động lực của tinh thể (LC operation dynamics) [25]. Một vài phương pháp tiếp cận khác để giải quyết vấn đề tốc độ đáp ứng chậm là phát triển và hoàn thiện mô hình tinh thể lỏng mới như “OCB” hay “MVA Driven by Oblique Electric Field”. Tuy nhiên, những mô hình mới này có yêu cầu khác biệt về thiết kế (design), xử lý (process), và nguyên liệu. Bởi vậy, chúng có một số bất lợi như ảnh hưởng đến hiệu năng hiển thị với lợi nhuận và năng suất. Do đó, những mô hình mới này vẫn không thành công trong việc Illustration of Motion Blur chuyển đổi thành các sản phẩm. Hình 2.2. Minh họa hiện tượng Motion-Blur trên màn hình tinh thể lỏng Một hướng nghiên cứu khác có tính thực tiễn hơn nhằm giải quyết vấn đề trên đã được K. Nakanishi, S. Takahashi, H. Oura và các đồng nghiệp đề xuất trong [25] với tên gọi kỹ thuật FFD (Feedforward Driving). Kỹ thuật này giúp cải thiện tốc độ đáp ứng của các phần tử tinh thể xuống dưới 20ms, bằng cách ghép thêm vào hệ thống một mạch FFD trên nền kiến trúc truyền thống của màn hình tinh thể lỏng sử dụng các tinh thể xoắn nematic. Kỹ thuật FFD có thể được mô ta qua Hình 2.3. Kỹ thuật FFD còn được biết đến với tên gọi khác là kỹ thuật “overdrive” cho màn hình tinh thể lỏng. 11 Hình 2.3. Sơ đồ khối của màn hình tinh thể lỏng 15inch XGA dùng kỹ thuật FFD [25]. 2.2. Overdrive – một kỹ thuật tăng tốc độ đáp ứng cho các phần tử tinh thể lỏng Như đã đề cập ở phần trước, kỹ thuật overdrive giúp tăng tốc độ đáp ứng cho các phần tử tinh thể. Khả năng tăng tốc cho các phần tử tinh thể của overdrive dựa trên ý tưởng khá đơn giản là: điện áp liên quan đến động lực chuyển động của các tinh thể, vì vậy điện áp càng lớn thì tốc độ chuyển động càng cao, hay nói cách khác là các phần tử tinh thể sẽ đáp ứng nhanh hơn khi điện áp được tăng lên. Vì vậy hệ thống overdrive sẽ sinh ra một điện áp hợp lý cao hơn mức điện áp vốn được áp dụng trong kỹ thuật cũ trước đây để cải thiện tốc độ đáp ứng xuống mức dưới 20ms. Hình 2.4. Đồ thị độ chói - thời gian đáp ứng mô tả cách thức xác định điện áp tăng tốc. Hình 2.4 mô tả cách thức để xác định điện áp tăng tốc. Giả sử rằng độ chói hiện tại đang thể hiện tại một điểm ảnh (x,y) nào đó trên màn hình là 105 cd/m2, và sang khung hình tiếp theo chúng ta cần giảm về mức 60 cd/m2, thì mức điện áp được áp dụng sẽ lần lượt là 1.31V và 1.75V. Dưới điều kiện điện áp thay đổi đơn giản từ 1.31V đến 1.75V thì thời gian đáp ứng sẽ kéo dài đến 45ms. Để hoàn thành việc chuyển đổi từ mức độ chói hiện tại (105 cd/m2) sang mức độ chói kế tiếp (60 cd/m2) với ngưỡng thời gian đáp ứng mong muốn là 16.7ms thì mức điện áp cần áp dụng phải tăng từ 1.75V lên mức 2.27V như trong Hình 2.4. Và Bảng 2.1 cho phép chúng ta xác định được mức điện áp tăng tốc cần phải áp 12 dụng để chuyển đổi từ một trong các mức độ chói hiện tại sang mức độ chói tiếp theo ở mức 60cd/m2 với thời gian đáp ứng là 16.7ms (nguồn [25]). Bảng 2.1. Điện áp tăng tốc áp dụng để chuyển đổi từ mức độ chói hiện tại sang mức độ chói tiếp theo ở mức 60cd/m2 với thời gian đáp ứng 16.7ms (nguồn [25]) Độ chói hiện tại [cd/m2] 105 93 81 Điện áp tăng tốc [V] 2.27 2.07 1.95 Từ đó chúng ta thấy rằng kỹ thuật overdrive được thực hiện dựa vào một bảng tra (Lookup Table) được chứa trong ROM (xem Hình 2.3) nhằm xác định ra mức điện áp tăng tốc cần áp dụng trên một điểm ảnh, dựa vào cặp giá trị mức chói của điểm ảnh đó trong quá khứ và hiện tại, với thời gian chuyển đổi trong ngưỡng 16.7ms. Khái niệm overdrive được minh họa một cách khái quát và trực quan hơn qua Hình 2.5 dưới đây: 1 frame time Overdriving correction Driving voltage Destination level Optical response Initial level Response time Response time Time Hình 2.5. Minh họa giải pháp tăng tốc độ chuyển đổi mức xám (hay độ chói) thông qua cơ chế hiệu chỉnh tăng ngưỡng điện áp. Hình 2.6. So sánh thời gian đáp ứng (nguồn [25]). (a) Kỹ thuật điều khiển (dẫn động) thông thường (b) Kỹ thuật overdrive. Hình 2.6 cho thấy khả năng cải thiện thời gian chuyển đổi mức sáng trên màn hình tinh thể lỏng khi áp dụng kỹ thuật tăng tốc overdrive (hình (b)) so với khi không áp dụng 13 kỹ thuật tăng tốc overdrive (hình (a)). Dễ thấy là thời gian chuyển đổi giữa hai mức sáng bất kỳ đã được cải thiện xuống dưới mức 16.7ms. 2.3. Mô hình hệ thống Overdrive và yêu cầu nén ảnh giảm bộ nhớ khung hình 2.3.1. Mô hình hệ thống overdrive Kỹ thuật overdrive có thể được áp dụng trên các hệ thống màn hình tinh thể lỏng với mô hình đơn giản thể hiện qua Hình 1.2 (trang 2). Có thể mô tả hoạt động của hệ thống overdrive đơn giản như sau: Khi giá trị một điểm ảnh trong khung hình hiện tại (Fn) được chuyển đến thì nó cần tham chiếu đến giá trị cũng của điểm ảnh đó nhưng trong khung hình thời điểm trước đó (Fn-1) được lưu trữ trong bộ nhớ khung hình (Frame Memory), sử dụng cặp giá trị này làm chìa khóa tìm kiếm trong một bảng tra (Lookup table), để cho ra kết quả là giá trị hiệu điện thế tăng tốc cần áp dụng lên phần tử tinh thể tại điểm ảnh đang xét để tăng tốc độ đáp ứng của nó, giúp cho điểm ảnh hiển thị chính xác trong khoảng thời gian chuyển đổi ngắn. Với sự ra đời của các chuẩn định dạng truyền hình và video độ phân giải cao (HD) và siêu cao (UHD) đã đẩy yêu cầu về dung lượng bộ nhớ lưu trữ khung hình tăng lên mức cao hay rất cao, cùng với yêu cầu về băng thông bộ nhớ cũng tăng vọt theo sự tăng trưởng của độ phân giải và khả năng hiển thị khung hình với tốc độ cao của thiết bị màn hình. Bảng 2.2 thể hiện yêu cầu về dung lượng và băng thông của bộ nhớ dùng trong màn hình tinh thể lỏng, theo các chuẩn định dạng HD 720p/1080p hay UHD 4K/8K khi thiết kế tốc độ hiển thị khung hình ở các mức 30, 60 hay 120 khung hình trên một giây. Bảng 2.2. Yêu cầu dung lượng và tốc độ truyền tải dữ liệu của bộ nhớ khung hình trên Ti-vi chuẩn HD và UHD. Chuẩn định dạng Số cột Số dòng Dung lƣợng Băng thông (Mbit) (Gbit/s) HD 720p /30fps 1280 720 21.1 1.2 HD 720p /60fps 1280 720 21.1 2.5 HD 1080p /30fps 1920 1080 47.5 2.8 HD 1080p /60fps 1920 1080 47.5 5.6 UHD 2160p /60fps (4K) 3840 2160 189.8 22.2 UHD 2160p /120fps (4K) 3840 2160 189.8 44.5 UHD 4320p /60fps (8K) 7680 4320 759.4 89.0 UHD 4320p /120fps (8K) 7680 4320 759.4 178.0 14 Trong hệ thống overdrive hoạt động ở tốc độ 120 khung hình một giây, thì sẽ cần 120 lần ghi dữ liệu ảnh khung hình vào bộ nhớ và 120 lần đọc dữ liệu ảnh khung hình từ bộ nhớ một cách đồng bộ. Vậy tổng số dữ liệu trao đổi với bộ nhớ trong một giây là: (120+120) * Dung lượng dữ liệu ảnh khung hình. Từ đó cho chúng ta công thức tính yêu cầu dung lượng và băng thông đối với bộ nhớ khung hình cho bảng trên là: Yêu cầu dung lượng: (Số cột × Số dòng) × 24bit; Yêu cầu băng thông: (Tốc độ khung hình × 2) × Yêu cầu dung lượng. Ví dụ với UHD 4320p /120fps (8K): Yêu cầu dung lượng = 7680×4320×24(bit)/220  759.4Mbit; Yêu cầu băng thông = (120×2) × Yêu cầu dung lượng /230  178Gbit. Thông thường bộ nhớ khung hình được thiết kế bởi bộ nhớ DRAM [25][18], mà giá thành của DRAM lại phụ thuộc vào dung lượng và tốc độ trao đổi dữ liệu [18]. Khi yêu cầu về dung lượng và tốc độ trao đổi dữ liệu của bộ nhớ DRAM bị đẩy lên cao đã làm tăng giá thành của sản phẩm màn hình. Điều đó làm nảy sinh nhu cầu áp dụng kỹ thuật nén ảnh khung hình vào hệ thống overdrive để giảm yêu cầu về dung lượng và tốc độ trao đổi dữ liệu của bộ nhớ DRAM, tiến đến giảm giá thành của sản phẩm màn hình tinh thể lỏng. 2.3.2. Vấn đề yêu cầu nén ảnh khung hình cho màn hình tinh thể lỏng Dữ liệu khung hình Dữ liệu khung hình hiện tại Fn Codec module Frame encoder Frame memory Overdrive Frame decoder 𝐹𝑛−1 (LUT) Overdriven Frame Dữ liệu khôi phục của khung hình thời điểm trước Hình 2.7. Mô hình một hệ thống overdrive có sử dụng kỹ thuật nén ảnh nhằm giảm yêu cầu về dung lượng và tốc độ truy xuất dữ liệu của bộ nhớ khung hình. Mô hình của một hệ thống overdrive trong màn hình tinh thể lỏng có sử dụng kỹ thuật nén ảnh nhằm giảm yêu cầu về dung lượng và tốc độ trao đổi dữ liệu của bộ nhớ khung hình được thể hiện qua Hình 2.7. Trong đó, dữ liệu của ảnh khung hình hiện tại (Fn) được nén lại bởi bộ nén (frame encoder) để giảm dung lượng trước khi chuyển vào frame memory, đồng thời bộ giải nén (frame decoder) sẽ đọc dữ liệu nén trong frame memory để 15 khôi phục lại dữ liệu ảnh khung hình ở thời điểm trước đó (Fn-1) cung cấp cho bộ overdrive, nhằm phối hợp với dữ liệu của ảnh khung hình hiện tại để tìm ra điện áp tăng tốc. Hình 2.8. thể hiện phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể lỏng là ở khâu tái tạo và hiển thị. Áp dụng các chuẩn nén ảnh/video thông dụng: JPEG, MPEG, AVI,... Quan sát không gian đối tượng chụp, quay (camera) Tái tạo và hiển thị trên màn hình tinh thể lỏng Truyền trực tiếp qua các kênh: vệ tinh, cáp,... Vấn đề nén ảnh cho màn hình tinh thể lỏng phục vụ cho khâu tái tạo và hiển thị Nén dữ liệu File ảnh/video Giải nén dữ liệu Hình 2.8. Phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân giải cao. Ở đây có một số khái niệm cần làm rõ: + Ảnh khung hình trong hệ thống overdrive, chính là một ảnh để có thể hiện thị đầy đủ trên màn hình tinh thể lỏng, có số điểm ảnh tương ứng với độ phân giải màn hình được xác định bởi nhà sản xuất. Do đó ảnh khung hình của màn hình tinh thể lỏng độ phân giải cao sẽ có số điểm ảnh rất lớn, và đòi hỏi cao về dung lượng frame memory để lưu trữ. + Tốc độ hiển thị khung hình của màn hình tinh thể lỏng được xác định bởi nhà sản xuất chứ không phụ thuộc vào định dạng video cần hiển thị. Hiện nay hầu hết các nhà sản xuất đều đã cho ra đời các sản phẩm màn hình có tốc độ khung hình là 120fps, độ phân giải siêu cao (4K đến 8K), các sản phẩm này thường có bộ chuyển đổi cho phép chuyển đổi độ phân giải và tốc độ khung hình của nguồn dữ liệu đầu vào cho phù hợp với các thông số của màn hình trước khi được chuyển đến hệ thống hiện thị. Vấn đề đặt ra cho bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân giải cao là: - Đầu vào là ảnh khung hình có độ phân giải cao, với rất nhiều điểm ảnh cần xử lý. Đầu ra để phục vụ cho khâu hiện thị ảnh trên màn hình. 16 - - Bộ nén (codec) phải thực hiện đồng thời hai nhiệm vụ nén dữ liệu (encode) và giải nén dữ liệu (decode) với khối lượng dữ liệu lớn trong một khoảng thời gian ngắn, ví dụ với màn hình có tốc độ 120fps thì khoảng thời gian chỉ ở mức 1/120 giây. Vì vậy bộ nén phải đảm bảo tốc độ xử lý cao. Chất lượng ảnh phải cao để đảm bảo độ trung thực cho hệ thống hiển thị. Tỷ số nén lớn và độ phức tạp tính toán không cao để đảm bảo tính thực tiễn khi triển khai áp dụng thực tiễn. Với những yêu cầu trên, có thể thấy giải quyết bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân giải cao là một nhiệm vụ không đơn giản. Cần có những nghiên cứu để có thể đưa ra được các giải pháp nén phù hợp với những yêu cầu nói trên. Để có thể triển khai áp dụng vào thực tiễn nhằm giảm giá thành cho hệ thống overdrive. 2.3.3. Các đặc trƣng của phƣơng pháp nén ảnh áp dụng cho hệ thống Overdrive Từ bối cảnh thực tế của bài toán nén ảnh khung hình và mô hình hệ thống overdrive có áp dụng các khối nén và giải nén ở trên, có thể rút ra một số đặt trưng của phương pháp nén ảnh áp dụng cho hệ thống Overdrive như sau: 1. Bài toán nén ảnh khung hình trong màn hình tinh thể lỏng là nhằm mục đích giảm yêu cầu về dung lượng và tốc độ trao đổi dữ liệu (hay băng thông) của bộ nhớ khung hình trong hệ thống overdrive, giúp giảm giá thành chế tạo hệ thống overdrive tiến đến giảm giá thành sản phẩm. Khác với phần lớn các phương pháp nén ảnh hay video thông thường vốn nhằm mục đích giảm dung lượng lưu trữ trên các thiết bị nhớ hoặc giảm băng thông trên đường truyền mạng. 2. Tỷ số nén đạt được phải có tính ổn định, ví dụ Cr = 2, 3, 4, hay 6, để các nhà sản xuất có thể xác định được chính xác thông số cần chế tạo. Đây cũng là điểm khác biệt so với các phương pháp nén ảnh thông thường nhằm giảm dung lượng lưu trữ như chuẩn JPEG hay JPEG2000, với tỷ số nén phụ thuộc phần lớn vào nội dung của ảnh và mức độ tổn hao mà người dùng chọn lựa. 3. Sự tổn hao do nén phải ở mức thấp để giảm thiểu ảnh hưởng (gián tiếp qua hệ thống overdrive) đến chất lượng hiện thị hình ảnh trên màn hình. Từ đó yêu cầu đặt ra cho các giải pháp nén ảnh khung hình là chất lượng ảnh khôi phục phải cao. Đồng thời hình ảnh hiện thị trên màn hình phải đảm bảo tính trung thực về thị giác trong bối cảnh các hình ảnh được hiển thị liên tục (60fps hay 120fps), tránh hay giảm thiểu các hiện tượng nhiễu (noise), rung (vibrate effect), khối (blocking effect) vốn rất nhạy cảm với mắt người xem khi quan sát chuỗi hình ảnh liên tục. Đây là điểm khác biệt so với các chuẩn nén ảnh JPEG hay JPEG2000. Bối cảnh áp dụng thông thường của JPEG hay JPEG2000 là nén các bức ảnh rời rạc (không thể hiện tính liên tục của chuyển động như trong video), các hình ảnh giải nén sau đó thường được in ấn hay hiển thị rời rạc, do đó một số khiếm khuyết về đường nét chi tiết trên ảnh nén cũng khó được người xem nhận ra khi quan sát thông thường. 17 Đây chính là một trong các yêu tố giúp những chuẩn nén ảnh như JPEG hay JPEG2000 nâng tỷ số nén lên rất cao, đổi lại bằng sự suy giảm chất lượng ảnh khôi phục, nhưng vẫn dễ dàng nhận được sự chấp nhận của người dùng. 4. Đảm bảo khả năng thực hiện theo thời gian thực (real time), hay nói cách khác là tốc độ xử lý phải đảm bảo sự đồng bộ giữa các bộ phận trong hệ thống overdrive theo đúng tốc độ được đặt ra cho toàn bộ hệ thống. Đồng thời yêu cầu độ phức tạp tính toán và kiến trúc thực thi cho giải pháp phải ở mức chấp nhận được theo nghĩa: không yêu cầu một kiến trúc phần cứng cồng kềnh phức tạp, năng lực xử lý mạnh (High-Powered Processors), vì như thế sẽ làm cho giá thành của hệ thống overdrive tăng lên, làm giảm hay mất đi tính khả thi về mặt kinh tế. Đây cũng là điểm khác biệt so với các giải pháp nén ảnh thông thường, vốn chỉ nén các bức ảnh rời rạc để lưu trữ nên chủ yếu đặt nặng vấn đề tỷ số nén, không đòi hỏi quá cao về mặt tốc độ, và có thể chấp nhận các thuật toán khá phức tạp vì không đòi hỏi sự đồng bộ khắc khe. 2.4. Mô hình hệ thống nén ảnh dùng cho hệ thống overdrive 2.4.1. Hệ thống nén ảnh khung hình Từ các đặc trưng của giải pháp nén ảnh áp dụng cho hệ thống overdrive là phải có tỷ số nén ổn định, theo nghĩa phải đạt được tỷ số nén luôn nhỏ hơn hoặc bằng một hằng số. Và hơn thế nữa là một tỷ số nén cao nhằm tối đa hóa hiệu xuất cải thiện dung lượng bộ nhớ và băng thông, vì vậy các giải pháp nén ảnh đề xuất áp dụng cho hệ thống overdrive nói chung đều ở dạng có mất mát thông tin (lossy) hoặc mất mát rất ít thông tin (near-lossless), thường áp dụng kỹ thuật mã hóa với độ dài từ mã cố định (Fixed-Length Codeword) để luôn đạt được một tỷ số nén ở mức đáng kể và có tính ổn định, có thể áp dụng lên phần cứng (hardware). Dựa trên mô hình áp dụng cho các giải pháp nén ảnh trong truyền thông nói chung với ba thành phần chính gồm: Biến đổi, Lƣợng tử hóa, và Mã hóa (Hình 2.9). Cùng với sự phân tích các đặc trưng riêng mà một giải pháp nén áp dụng cho hệ thống overdrive cần có. Chúng tôi đề nghị mô hình khái quát chung với ít nhiều chi tiết dễ hiểu cho giải pháp nén ảnh áp dụng vào hệ thống overdrive như thể hiện trong Hình 2.10 sau đây: Dữ liệu ảnh nguồn (Image source) Biến đổi (Transformation) Lượng tử hóa (Quantization) Mã hóa (Encode) Dữ liệu nén (Data coded) Hình 2.9. Mô hình với ba thành phần chính trong một hệ thống nén ảnh áp dụng trong truyền thông. 18 Dữ liệu ảnh đầu vào cho LCD (dạng tuần tự) Bộ đệm dòng (N-Line buffer) Biến đổi (Transformation) Lượng tử hóa (Quantization) Gán từ mã có cùng độ dài Dữ liệu nén (Uniform-Length Codeword (Data coded) Assignment ) Hình 2.10. Mô hình khái quát với bốn thành phần chính trong một hệ thống nén ảnh áp dụng cho overdrive trong màn hình tinh thể lỏng. Về mặt nguyên lý, mô hình chung giải pháp nén ảnh áp dụng cho hệ thống overdrive trong màn hình tinh thể lỏng sử dụng ba thành phần chính như đã nêu trong mô hình chung của giải pháp nén cho truyền thông. Tuy nhiên có một số điểm khác sau: - - Mã hóa: có hai kỹ thuật mã hóa chính là gán từ mã có cùng độ dài (uniform-length hay fixed-length) vốn rất đơn giản và sẽ cho ra một tỷ số nén cố định. và gán từ mã với độ dài biến đổi (variable-length) dựa trên số liệu thống kê hay độ đo entropy của thông tin với độ phức tạp tính toán khá cao và không đảm bảo một tỷ số nén ổn định cần thiết cho mô hình nén trong hệ thống overdrive. Qua nghiên cứu các giải pháp nén ảnh cho màn hình tinh thể lỏng đã được đề xuất, tất cả đều sử dụng kỹ thuật gán từ mã cố định. Đó chính là lý do cho đề xuất chỉ sử dụng dạng uniform-length codeword assignment trong luận án này. Bộ đệm dòng: để nhấn mạnh số dòng cần tích lũy (không thể là toàn bộ bức ảnh) trước khi thực hiện các công đoạn biến đổi hay lượng tử, được xem xét như một phần của sự phức tạp trong kiến trúc thực thi của giải pháp nén. Một số tính chất sau cũng cần được đảm bảo khi nghiên cứu đề xuất một giải pháp nén ảnh cho hệ thống ovedrive trong màn hình tinh thể lỏng:  Các phép biến đổi và lượng tử hóa xử lý với dữ liệu đầu vào là các dòng ảnh (line image) hoặc khối ảnh (block image), và việc lựa chọn kích thước của dòng ảnh hay khối ảnh luôn cần được cân nhắc và đánh giá, bởi ngoài mối liên hệ đến chất lượng và tỷ số nén nó còn liên quan đến kích thước bộ đệm dòng (N-line buffer), vốn được thiết kế bởi SRAM nhằm đảm bảo tốc độ liên kết giữa memory (cache) và bộ xử lý ảnh được đồng bộ. Vì vậy việc xem xét đánh giá hay nghiên cứu đề xuất các giải pháp nén ảnh cho overdrive rất cần xem xét đến yếu tố kích thước bộ đệm dòng như là một phần chủ đề của sự phức tạp cho phần cứng.  Để tăng hiệu quả của giải pháp nén ảnh, thông thường người ta có xu hướng sử dụng kết hợp một vài phép biến đổi với nhau, song trong lựa chọn này nhất thiết phải chú ý đến độ phức tạp tính toán và khả năng thực hiện thời gian thực.  Việc chọn lựa giải pháp mã hóa cũng cần có chú ý tương tự. Để đảm bảo độ phức tạp tính toán chung của cả giải pháp nén, và khả năng thực hiện thời gian thực. Như đã được đề cập ở trên, rõ ràng phương pháp nén ảnh áp dụng cho hệ thống overdrive có những đặc trưng riêng, chuyên biệt cho bài toán nén nhằm giảm dung lượng 19 cũng như tốc độ truyền tải dữ liệu của bộ nhớ khung hình. Trong phần tiếp theo luận án sẽ trình bày chi tiết về một số độ đo hiệu năng giải pháp nén ảnh khung hình làm công cụ cho việc xem xét và đánh giá các giải pháp nén ảnh khung hình. 2.4.2. Các độ đo hiệu năng giải pháp nén ảnh khung hình 2.4.2.1. Tỷ số nén Tỷ số nén ảnh là một số đo dung lượng (DL) của ảnh gốc (ảnh chưa nén) chia cho dung lượng ảnh đã được nén (hay mã hóa) và được kí hiệu là Cr (Compression Ratio): ( 𝑛 𝑛 𝑛) ( 𝑛 𝑛 𝑛) (2.1) Đối với phần lớn các giải pháp nén ảnh cho màn hình tinh thể lỏng sử dụng phương pháp mã hóa khối ảnh, có nghĩa là ảnh được chia ra theo các khối bằng nhau rồi lần lượt mã hóa từng khối theo thứ tự, với đầu vào bằng nhau sẽ luôn tạo đầu ra là dòng bit dữ liệu đã được mã hóa có kích thước giống nhau, vì thế tỷ số nén còn được tính bởi công thức: ( 𝑛 𝑛) ( 𝑛 𝑛) (2.1 c) Ví dụ: Trên một ti-vi LCD chuẩn full HD, thì ảnh khung hình của nó sẽ là một ảnh màu có kích thước 1920×1080 với 3 kênh màu RGB-24bit. Khi được áp dụng giải pháp nén theo khối với kích thước khối là 32×4 sẽ được chia ra làm 16200 khối. Giả sử mỗi khối đầu vào sẽ được nén lại với 512bit dữ liệu mã hóa, thì tỷ số nén sẽ được tính là: ( ) ( ) Trong một số trường hợp, khi mà kích thước của ảnh khung hình không phải là bội số của kích thước khối ảnh (block), thì người ta thường sử dụng phương án bổ sung thêm các dòng ảnh hoặc cột ảnh (hoặc cả hai) để sau đó ảnh có thể chia thành các khối đồng kích thước. 2.4.2.2. Chất lƣợng nén - Các độ đo sai số Để đánh giá sự khác biệt của ảnh khôi phục sau khi nén so với ảnh gốc qua một đại lượng đo lường thể hiện bằng một con số, giúp dễ dàng đánh giá và so sánh đối chiếu, người ta thường sử dụng một số độ đo sau:  Sai số trung bình bình phương (Mean Squared Error -MSE)  Tỷ số tín hiệu mức đỉnh /nhiễu (Peak Signal-to-Noise Ratio - PSNR) Gọi 𝐹 và 𝐹 lần lượt là các ma trận dữ liệu ảnh gốc và dữ liệu ảnh khôi phục sau khi nén. Trong không gian màu RGB ảnh được biểu diễn bởi ba ảnh đơn sắc tương ứng với ba thành phần màu Red, Green và Blue, vì vậy 𝐹 (𝐹 𝐹 𝐹 ) và 𝐹 (𝐹 𝐹 𝐹 ) trong đó 20 mỗi thành phần là một ma trận hai chiều có kích thước M dòng và N cột tương ứng với kích thước của ảnh. Gọi L là giá trị mức đỉnh của tín hiệu ảnh, với ảnh màu RGB-24bit hay 8bit cho mỗi kênh màu thì L = 28 – 1 = 255. Các độ đo MSE và PSNR cho mỗi thành phần ảnh đơn sắc cũng như ảnh màu RGB được tính theo các công thức sau: ( ∑ ∑ (𝐹 ( 𝑛) − 𝐹 ( 𝑛)) ) (2.2) ( ∑ ∑ (𝐹 ( 𝑛) − 𝐹 ( 𝑛)) ) (2.3) ( ∑ ∑ (𝐹 ( 𝑛) − 𝐹 ( 𝑛)) ) (2.4) ( ) ( ) ( ( (2.6) ) ( (2.5) ) (2.7) (2.8) ) (2.9) Trong hai độ đo trên, độ đo PSNR được sử dụng phổ biến hơn cả trong lĩnh vực nén ảnh nhờ tính dễ hiểu và dễ so sánh hợp lý của nó so với MSE. Có thể nói độ đo PSNR được sử dụng trong hầu hết các đánh giá khoa học về chất lượng nén ảnh. Có thể lý giải điều này qua đồ thị biến thiên của PSNR theo MSE như Hình 2.11 dưới đây: PSNR function PSNR (dB) 100 80 60 40 20 0 0 2000 4000 6000 8000 MSE Hình 2.11. Đồ thị biến thiên của PSNR theo MSE (với L=255). Có thể nói PSNR chính là một phiên bản đảo chiều của MSE và kéo giãn những giá trị MSE rất bé (hay ứng với ảnh nén chất lượng cao, hình đẹp) ra trên một khoảng rộng để dễ bề so sánh đánh giá, và ngược lại những giá trị MSE lớn (hay ứng với ảnh nén chất lượng 21 thấp, hình xấu) sẽ được nén lại trên một khoảng hẹp. Theo các chuyên gia, với thang đo PSNR thì ảnh khoảng từ 30dB trở lên có thể xem là có chất lượng; dưới 30dB, chất lượng tương đối thấp. 2.4.3. Mối tƣơng quan giữa chất lƣợng nén và chất lƣợng ảnh hiển thị trên màn hình tinh thể lỏng Để thấy được sự tác động của những sai số khi nén ảnh lên chất lượng hình ảnh hiển thị trên màn hình tinh thể lỏng chúng ta hãy xem xét trên một thành phần tín hiệu màu R trong 3 tín hiệu màu RGB của ảnh, và tại thời gian t. Với ký hiệu dữ liệu hình ảnh tại thời điểm t và (t-1) ứng với thành phần màu R là các ma trận dữ liệu được biểu diễn dưới dạng hàm tín hiệu số ( ( 𝑛) và 𝑛), trong đó m và n xác định tọa độ của điểm ảnh trên khung hình, và R xác định thành phần màu. Theo cơ chế hoạt động của hệ thống overdrive có áp dụng kỹ thuật nén ảnh (Hình 2.7), thì ảnh khung hình tại thời điểm (t-1) là ( 𝑛) được nén (tất nhiên là cùng với các kênh màu còn lại) rồi ghi lên vùng bộ nhớ khung hình, và đến thời điểm t sẽ thực hiện giải nén để thu được ̂ ( giữa 𝑛) và ̂ ̂ ( với ( ( ( 𝑛). Mối liên hệ 𝑛) được xác định qua công thức: ( 𝑛) 𝑛) ( 𝑛) (2.10) 𝑛) là sai số phát sinh do mã hóa trên thành phần màu R của ảnh. Xét tại một điểm ảnh ( 𝑛 ) bất kỳ trên màn hình trên kênh màu R. Đến thời điểm t ( điểm ảnh này cần phải chuyển đổi từ mức 𝑛 ) lên mức ( 𝑛 ). Vậy giá trị chênh lệch để tham chiếu tăng ngưỡng điện áp sẽ là: ( 𝑛 ) ( 𝑛 )− ( 𝑛 ) (2.11) Nhưng trên thực tế, hệ thống sẽ hoạt động theo cơ chế tham chiếu bộ nhớ nên sẽ chỉ có được giá trị khôi phục ̂ ( ̂ 𝑛 ), giá trị chênh lệch tham chiếu để tăng áp là: ( 𝑛 ) lên mức ( ( Giá trị 𝑛 ) 𝑛 ), và nó sẽ điều khiển để chuyển đổi từ mức 𝑛 )− ̂ ( ( 𝑛 ) (2.12) xác định theo công thức (2.12) sẽ là cơ sở để tham chiếu đến ngưỡng điện áp tăng tốc. Từ (2.10), (2.11) và (2.12) chúng ta có: ( 𝑛 ) ( 𝑛 )− ( 𝑛 ) (2.13) Rõ ràng: 22  ( Nếu ( 𝑛 ) : thì độ chênh lệch tham chiếu để điều khiển tăng tốc sẽ là 𝑛 ) ( 𝑛 ), là một giá trị chính nên màn hình sẽ được điều khiển tăng áp chính xác. Dẫn đến hiển thị điểm ảnh chuẩn xác.  Nếu sẽ là ( 𝑛 ) ( : thì độ chênh lệch tham chiếu để điều khiển tăng tốc 𝑛 ) ( 𝑛 ) − , là một giá trị sai lệch nên tất yếu sẽ dẫn đến điện áp tham chiếu sai lệch, làm cho điểm ảnh trên màn hình không hiển thị chính xác giá trị điểm ảnh ( 𝑛 ) như mong muốn. Từ đó chúng ta có thể kết luận rằng, mọi khác biệt giữa ảnh gốc và ảnh khôi phục (hay chính là sai số mã hóa) sẽ tác động gián tiếp lên hình ảnh hiển thị trên màn hình tinh thể lỏng thông qua hệ thống overdrive, và nó làm suy giảm chất lượng hình ảnh hiển thị trên màn hình. Sự suy giảm này sẽ tác động trực tiếp lên cảm nhận của người xem thông qua thị giác, vì vậy chúng ta cần xem xét chất lượng nén không chỉ qua các đại lượng đo lường như MSE hay PSNR mà còn phải xem xét đến các hiện tượng mà ảnh nén có thể mắc phải như hiệu ứng nhiễu khối (blocking effect), hiện tượng rung động (vibration) tại một cường độ mức xám cố định, hay hiện tượng các đường nét có tính giả tạo (false contours) vốn không được xem xét đánh giá đúng mức trong các đại lượng đo lường MSE hay PSNR. 2.4.4. Một số yêu cầu đặc trƣng và tiêu chí đánh giá hệ thống nén ảnh cho màn hình tinh thể lỏng 2.4.4.1. Một số yêu cầu đặc trƣng của hệ thống nén ảnh cho màn hình tinh thể lỏng Sau đây chúng tôi xin liệt kê một số yêu cầu đặc trưng đối với một giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng: 1. Đảm bảo tỷ số nén cố định: giải pháp nén phải đạt được tỷ số nén có cố định, để từ đó xác định được chính xác dung lượng bộ nhớ cần thiết kế cho hệ thống ovedrive. Bởi vậy phương pháp nén dữ liệu ảnh cho màn hình tinh thể lỏng thường dùng mã hóa với từ mã có độ dài cố định (fixed-length/uniform-length codeword). 2. Độ phức tạp tính toán hay kiến trúc thực thi ở mức chấp nhận đƣợc và đảm bảo xử lý thời gian thực: độ phức tạp tính toán (hay kiến trúc thực thi) của giải pháp nén phải ở một mức độ vừa phải xem xét trong mối liên hệ với tỷ số nén và chất lượng ảnh đạt được. Bởi nếu độ phức tạp tính toán quá cao sẽ đòi hỏi phải được xử lý bởi các bộ xử lý mạnh (High-Powered Processors), mà một bộ xử lý như vậy sẽ có giá thành cao, làm cho bài toán mất tính khả thi về mặt kinh tế. Theo các nhận định của chuyên gia, để đảm bảo khả năng thực thi theo thời gian thực một cách 23 giản tiện, thì thuật toán xử lý nên ở dạng tuyến tính, tránh sử dụng các phương pháp lặp với số lần không xác định hay số bước lặp lớn. 3. Chất lƣợng ảnh cao - Hạn chế các hiệu ứng tiêu cực về mặt thị giác: Chất lượng ảnh khôi phục phải ở mức cao để tránh hiện tượng hệ thống overdrive hoạt động quá sai lệch làm ảnh hưởng lớn đến chất lượng hình ảnh hiển thị trên màn hình, sẽ khiến sản phẩm khó được người tiêu dùng chấp nhận. Chất lượng ảnh khôi phục không chỉ phải đạt chất lượng cao theo các thang đo chất lượng ảnh như MSE hay PSNR, mà còn phải hạn chế được các hiệu ứng tiêu cực về mặt thị giác như hiệu ứng nhiễu khối (blocking effect), hiện tượng rung động hay lay động (vibration effect) của vùng ảnh không hoặc rất ít thay đổi, hay hiện tượng giả tạo (false contours) các đường nét trong ảnh. Các hiệu ứng tiêu cực này tuy không làm suy giảm đáng kể chất lượng ảnh khi đánh giá theo các độ đo MSE hay PSNR, song chúng lại mang lại cảm giác khó chịu khi quan sát bằng thị giác một khi nó tác động lên hình ảnh hiển thị trên màn hình tinh thể lỏng thông qua cơ chế overdrive, khiến người tiêu dùng khó có thể chấp nhận. Trong luận án này, một vài tiêu chuẩn khách quan (objective) có thể gắn với tiêu chuẩn thị giác chủ quan (subjective) như SSIM [32], sẽ không được đề cập đến. Lý do chính là những tiêu chuẩn này phải được cục bộ hóa một cách đặc biệt vào từng vùng trong ảnh. Một đánh giá mang tính toàn cục cho nguyên một khung hình sẽ không định nổi sự khác biệt. 4. Kích thƣớc bộ đệm dòng (line-buffer): Là thành phần đầu tiên trong mô hình của một hệ thống nén ảnh áp dụng cho overdrive (Hình 2.10). Khi xem xét tỷ số nén cần được đặt trong mối tương quan với bộ đệm dòng, bởi đây là thành phần khá đắt đỏ trong thiết kế phần cứng. Nên một giải pháp nén có đạt được tỷ số nén cao song lại đòi hỏi kích thước bộ đệm dòng lớn sẽ làm giảm đi một phần tính hiệu quả. Hiện nay, ngưỡng tỷ số nén mà các giải pháp nén ảnh tiên tiến áp dụng cho màn hình tinh thể lỏng đạt được là Cr = 6:1. Nếu tăng tỷ số nén lên các mức giá trị cao hơn như 8:1 hay 12:1 thì các giải pháp hiện tại cho chất lượng ảnh quá thấp nên không thể đáp ứng được yêu cầu. Từ thực tế đó, luận án này sẽ tập trung nghiên cứu cải thiện hai đặc trưng chính yếu trong bốn đặc trưng nêu trên đó là: (1). Cải thiện chất lượng nén - Hạn chế các hiệu ứng tiêu cực về mặt thị giác như nhiễu khối hay hiện tượng giả tạo của các đường nét trong ảnh (false contours); (2). Cải thiện độ phức tạp tính toán hay kiến trúc thực thi của giải pháp nén nhằm mang đến khả năng thực thi trên một phần cứng đơn giản. 2.4.4.2. Một số tiêu chí đánh giá giải pháp nén ảnh cho màn hình tinh thể lỏng Để đánh giá giải pháp nén ảnh cho hệ thống overdrive của màn hình tinh thể lỏng, chúng tôi dựa trên 3 tiêu chí cơ bản là: Chất lượng ảnh, tỷ số nén, và cuối cùng là độ phức 24 tạp tính toán được xem xét trong mối liên hệ với yêu cầu kiến trúc thực thi. 1. Chất lƣợng ảnh nén: Như đã được đề cập trong mục 2.4.3, chất lượng ảnh nén (cách gọi vắn tắt của chất lượng ảnh khôi phục sau quá trình nén và giải nén) ảnh hưởng gián tiếp đến chất lượng hình ảnh hiện thị trên màn hình, vì vậy chất lượng ảnh nén được xem xét không chỉ qua giá trị số đo chất lượng ảnh như MSE hay PSNR (công thức (2.5) và(2.9)), mà còn phải được xem xét đến các triệu chứng mà ảnh nén có thể mắc phải như hiệu ứng nhiễu khối (blocking effect), hiện tượng rung động (vibration) tại một cường độ mức xám cố định, hay hiện tượng giả tạo của các đường nét trong ảnh (false contours) vốn không được đánh giá hiệu quả và đúng mức trong các đại lượng đo lường như MSE hay PSNR, song lại rất nhạy cảm với mắt người, dễ khiến cho người tiêu dùng có những đánh giá tiêu cực về chất lượng hiển thị hình ảnh của màn hình tinh thể lỏng. 2. Tỷ số nén: là một trong những yếu tố quan trọng chủ chốt để đánh giá hiệu năng của một giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng, bởi nó tác động trực tiếp lên giá thành sản phẩm hệ thống overdrive thông qua mức độ cải thiện dung lượng và tốc độ truyền tải của bộ nhớ khung hình. Hiển nhiên là một giải pháp nén cho tỷ số nén cao chưa hẳn là một giải pháp tối ưu, giải pháp đó có thể sẽ không có tính thực tiễn nếu chất lượng ảnh mà nó mang lại quá thấp khiến đa số người tiêu dùng không chấp nhận cho dù giá thành có rẻ hơn đáng kể đi chăng nữa. Bên cạnh đó tỷ số nén đạt được còn phải xem xét trong mối tương quan với độ phức tạp của kiến trúc thực thi, bởi khiến trúc thực thi càng phức tạp (hay yêu cầu càng cao về hiệu năng tính toán) thì giá thành của hệ thống nén càng đội lên cao, làm giảm đi tỷ suất cải thiện về giá thành trên tổng thể. 3. Độ phức tạp tính toán và kiến trúc thực thi: Khái niệm độ phức tạp tính toán trong bài toán nén ảnh áp dụng cho màn hình tinh thể lỏng nhằm giảm giá thành sản phẩm sẽ có những đặc điểm khác so với cách đánh giá độ phức tạp tính toán cho các thuật giải thông thường, vốn có mục tiêu là tiết kiệm thời gian thực hiện chương trình phần mềm. Ở đây các giải pháp nén ảnh phải được triển khai trong môi trường hệ nhúng trên thiết bị màn hình. Vì vậy, độ phức tạp tính toán ở đây không chỉ được đánh giá đơn thuần trên số lượng phép toán cần thực hiện, mà các khía cạnh khác như: yêu cầu xử lý tuần tự hay song song, yêu cầu về kiến trúc và xung nhịp của bộ xử lý để đảm bảo khả năng xử lý thời gian thực cũng là những yếu tố quan trọng trên thực tiễn. Lấy một ví dụ minh họa về vấn đề này: Cho hai giải pháp nén A và B với giả thiết rằng chúng có số phép toán và quy trình xử lý gần như nhau, ngoại trừ giải pháp A yêu cầu một số phép tính toán phải được xử lý trên dữ liệu nguyên 32 25 bit, trong khi giải pháp B chỉ yêu cầu thực hiện trên dữ liệu nguyên 8 bit, và chất lượng ảnh nén là xấp xỉ nhau cùng với tỷ số nén ngang nhau. Từ giả thiết đó có thể dễ dàng nhận thấy, hệ thống xử lý nén của giải pháp A phải được trang bị vi xử lý 32 bit với giá thành đắt hơn khi so sánh với vi xử lý 8 bit cần trang bị cho giải pháp B. Kết quả là giá thành hệ thống overdrive trang bị giải pháp nén A đắt hơn so với hệ thống overdrive trang bị giải pháp B trong khi chất lượng là xấp xỉ nhau. Từ đó, trong đánh giá về độ phức tạp tính toán luận án luôn xem xét trên cả ba khía cạnh: số phép toán, khiến trúc thực hiện là tuần tự hay song song, và yếu tố cuối cùng là định dạng dữ liệu cho các phép toán cần thực hiện trên kiến trúc vi xử lý nguyên hay thực và độ rộng bit. 2.5. Một số cơ sở lý thuyết trong nén ảnh Mục tiêu chính của nén ảnh là để biểu diễn một hình ảnh với càng ít bit càng tốt trong khi vẫn đảm bảo yêu cầu về mức độ chất lượng và tính dễ hiểu cho các ứng dụng nhất định [16]. Mô hình khái quát của một bộ mã hóa ảnh có ba thành phần, như thể hiện trong Hình 2.9. Thành phần đầu tiên và quan trọng nhất là phép biến đổi (transformation) thực hiện biến đổi dữ liệu hình ảnh vào một miền không gian (domain) nào đó sao cho thích hợp với quá trình lượng tử hóa và mã hóa entropy, nhằm hướng đến hiệu năng nén cao nhất có thể. Về bản chất, thành phần này sẽ quyết định chính xác những gì được mã hoá. Ví dụ một hình ảnh có thể được biến đổi sang một miền không gian khác như biến đổi Fourier hay Cosin, mà những không gian mới này có khác biệt đáng kể so với không gian gốc là không gian cường độ, và sau đó các hệ số biến đổi sẽ được mã hóa. Hiệu suất và độ phức tạp của thuật toán mã hóa rất khác nhau, tùy thuộc vào những gì cụ thể được mã hoá. Thành phần thứ hai trong bộ mã hóa hình ảnh là lượng tử hóa (Quantization). Để biểu diễn một hình ảnh với một số hữu hạn bit, cường độ hình ảnh, các hệ số biến đổi, hoặc các thông số mô hình phải được lượng tử hóa. Lượng tử bao hàm đến việc phân chia các mức lượng tử hóa, các giá trị khôi phục và các ranh giới quyết định. Thành phần thứ ba trong các bộ mã hóa hình ảnh là “codeword assignment”, sẽ thực hiện gán các chuỗi bit khác nhau để đại diện cho các cấp độ lượng tử. Sau đây chúng ta sẽ lần lượt xem xét một số cơ sở lý thuyết có liên quan đến đề tài luận án, bao gồm:  Một số phép biến đổi tiên tiến áp dụng trong nén ảnh (Transform)  Lượng tử hoá (Quantization) 26  Gán từ mã dạng Uniform-Length (Uniform-Length Codeword assignment)  Khái quát về một số phương pháp nén ảnh 2.5.1. Các phép biến đổi áp dụng trong nén ảnh Các phép biến đổi áp dụng trong nén ảnh nhằm cố gắng để giảm sự tương quan tồn tại giữa các giá trị cường độ điểm ảnh. Khi mối tương quan giảm, thông tin dư thừa không còn phải mã hóa nhiều lần. Kỹ thuật biến đổi còn nhằm khai thác khả năng tập trung năng lượng tín hiệu ảnh vào các hệ số biến đổi miền tần số thấp. Thuộc tính này được gọi là “energy compaction property”. Với thuộc tính đó sẽ cho phép mã hóa chỉ một phần nhỏ của các hệ số biến đổi mà không ảnh hưởng nghiêm trọng đến hình ảnh. Điều này cho phép chúng ta mã hóa hình ảnh với tỷ số bit/pixel thấp, có thể dưới 1 bit/pixel với một số chuẩn nén tiên tiến, với một sự hy sinh tương đối nhỏ trong chất lượng hình ảnh. Sau đây chúng ta sẽ xem xét một số kỹ thuật biến đổi cơ bản cần thiết cho nghiên cứu của luận án. 2.5.1.1. Biến đổi Cosin rời rạc Biến đổi Cosin rời rạc DCT (Discrete Cosine Transform) là cơ sở cho nhiều thuật toán nén ảnh và video, đặc biệt là nén ảnh tĩnh chuẩn JPEG trong chế độ mất mát thông tin và chuẩn nén video MPEG-1, MPEG-2, và MPEG-4. Công thức biến đổi cosine rời rạc hai chiều được viết [2]: C f ( k1 , k 2 )  f ( n1 , n 2 )  N 1 1 N 2 1 2  ( k 1 ) ( k 2 )  N1N 2 2 N1N 2  f ( n1 , n 2 ) cos n1  0 n 2  0 N 1 1 N 2 1    (k 1 ) ( k 2 ) C f ( k 1 , k 2 ) cos k1  0 k 2  0 ( 2 n1  1) k 1 cos 2 N1 ( 2 n1  1) k 1 2 N1 ( 2 n 2  1) k 2 2N2 cos ( 2 n 2  1) k 2 2N2 (2.14) (2.15) Trong đó: 1 / 2  (k )    1 ,k  0 ,k  0 (2.16) Hình 2.12 cho chúng ta thấy 64 hàm cơ sở của biến đổi DCT với tín hiệu đầu vào hai chiều kích thước 8×8. Về mặt kỹ thuật, biến đổi DCT hai chiều có thể được thực hiện thông qua biến đổi DCT một chiều theo chiều ngang, để thu được kết quả trung gian, rồi tiếp đến là biến đổi DCT một chiều theo chiều dọc trên kết quả trung gian để thu được kết quả sau cùng. Kỹ thuật biến đổi DCT một chiều có thể được thực hiện thông qua kỹ thuật biến đổi FFT (Fast 27 Fourier Transform). Theo phương pháp này, thì độ phức tạp tính toán cho biến đổi DCT hai chiều chỉ còn là Nlog2(N). Hình 2.12. Minh họa 64 hàm cơ bản của 8×8 DCT. 2.5.1.2. Biến đổi Wavelet rời rạc và kỹ thuật đa phân giải DWT Biến đổi wavelet rời rạc DWT đã trở thành một công cụ xử lý tín hiệu rất linh hoạt sau đề xuất của Mallat [29] về biểu diễn đa phân giải của tín hiệu dựa trên wavelet decomposition. Phương pháp đa phân giải là để biểu diễn một hàm (hay tín hiệu) với một bộ sưu tập của các hệ số, mà mỗi phần tử cung cấp thông tin về vị trí cũng tốt như thông tin tần số của tín hiệu (hay hàm). Biến đổi wavelet rời rạc (DWT) có lợi thế hơn biến đổi Fourier ở chỗ nó thực hiện phân tích đa phân giải của tín hiệu với sự xác định vị trí của thời gian và tần số, được biết đến phổ biến như sự định vị time-frequency. Kết quả là, các phân tích DWT (hay DWT decomposes) một tín hiệu số vào trong các băng tần con khác nhau để các băng tần con tần số thấp hơn có độ phân giải tần số tốt hơn và độ phân giải thời gian kém hơn (hay thô hơn) so với các băng tần con tần số cao hơn. DWT ngày càng được sử dụng nhiều hơn để nén hình ảnh do thực tế rằng DWT hỗ trợ các tính năng thích hợp với hình thức truyền ảnh (như chất lượng hay độ phân giải), sự dễ dàng trong thao tác nén ảnh, mã hóa vùng ảnh quan tâm, và nhiều lợi thế khác. Bởi vì những đặc điểm đó, mà DWT là cơ sở của chuẩn nén ảnh JPEG2000 [30]. Năm 1989, Mallat đề xuất phương pháp tiếp cận đa phân giải cho phân tích wavelet của tín hiệu sử dụng một cấu trúc lọc dạng kim tự tháp của các cặp “quadrature mirror filter” (QMF). Wavelet được phát triển bởi Daubechies [7][8], trong điều kiện thời gian rời rạc (discrete-time) để khôi phục hoàn hảo những băng tần qua bộ lọc, tương đương với bộ lọc FIR. Trong phân tích đa phân giải, nó có thể chứng minh rằng phân tích của tín hiệu dùng biến đổi wavelet rời rạc có thể biểu diễn trong mối quan hệ với các bộ lọc FIR và đi 28 đến công thức (2.17) cho sự tính toán các hệ số wavelet cho tín hiệu ( ). Chi tiết được trình bày trong bài báo gốc của Mallat [29]. ( ) ( ) Ở đây và ( ) ∑ ( ) } ) ( ) , trái lại (− ) ( ) là các hệ số miêu tả hình chiếu . Trên thực tế, của hàm ( ) trong không gian vector con giải (2.17) theo thứ tự là bộ lọc thông cao và bộ lọc thông thấp, ∫ ( − ) ( và ∑ ( nghĩa là một xấp xỉ của hàm trong phân là những hệ số wavelet (hay thông tin chi tiết) tại phân giải ). Nếu tín hiệu đầu vào ( ) là ở trong dạng thức lấy mẫu rời rạc, thì chúng ta có thể xem xét những mẫu đó như là thứ bậc phân giải cao nhất xấp xỉ các hệ số ( ) và công thức (2.17) mô tả thuật toán phân tách (phân rã) băng tần con đa phân giải để xây dựng ( ) và ( ), mà ( ) tại mức m với một bộ lọc thông thấp và bộ lọc thông cao từ ( ) được sinh ra tại mức m-1. Những bộ lọc đó được gọi là những bộ lọc phân tích. Thuật toán đệ quy cho phép tính DWT trong các mức khác nhau dùng công thức (2.17) là phổ biến với tên gọi thuật toán kim tự tháp của Mallat. Từ đó các bộ lọc phân tích và có nguồn gốc từ những hàm cơ sở trực giao và , những bộ lọc đó cho khôi phục chính xác ( ) ∑ ( ) ∑ ( ) Hầu hết các hàm cơ sở wavelet trực giao có hỗ trợ các hàm bộ lọc và (2.18) vô hạn và vì thế những có thể là nhiều “taps” hay hệ-số và không giới hạn. Tuy nhiên, với thực tiễn và tính toán hiệu năng thực hiện của DWT cho các ứng dụng xử lý ảnh, mong ước để có được bộ lọc có đáp ứng xung hữu hạn (FIR) với một số “tap” nhỏ. Nó là có thể xây dựng như những bộ lọc bằng cách giảm bớt những yêu cầu về tính trực giao và sử dụng các hàm cơ sở song trực giao. Chú ý rằng các bộ lọc wavelet là trực giao khi ( ngược lại là song trực giao. Trong đó một trường hợp những bộ lọc ) ( ), , được gọi là các bộ lọc tổng hợp, cho việc khôi phục của tín hiệu có thể là khác hơn các bộ lọc phân tích cho phân tích phân rã của tín hiệu. Để đạt được khôi phục chính xác, chúng ta có thể xây dựng các bộ lọc để nó đáp ứng được các mối liên hệ của bộ lọc tổng hợp với bộ lọc phân tích như công thức sau: 29 (− ) (− ) (2.19) ∑ } Nếu ( ) ( ), các bộ lọc wavelet được gọi là trực giao, ngược lại chúng được gọi là song trực giao. Sự phổ biến bộ lọc wavelet (9, 7) áp dụng trong JPEG2000 là một ví dụ cho bộ lọc song trực giao. Tín hiệu vẫn được phân tách dùng công thức (2.17), nhưng công thức khôi phục được thực hiện bằng cách sử dụng các bộ lọc tổng hợp và như thể hiện trong công thức (2.14) sau đây: ( ) ∑ ( ) ∑ ( ) (2.20) Tóm lại, tính toán DWT được thực hiện qua kỹ thuật lọc với các bộ lọc số FIR đơn giản. Cho tín hiệu rời rạc đầu vào (𝑛) ( thể hiện trong Hình 2.13 là a(0,n) ), nó được lọc song song bởi một bộ lọc thông thấp ( ) và một bộ lọc thông cao ( ) tại mỗi mức biến đổi. Hai dòng dữ liệu đầu vào được giảm nhịp bằng cách đơn giản là lấy các mẫu đầu ra xen kẽ trong mỗi dòng để thu được sản phẩm đầu ra là băng tần thấp là a(1,n)) và băng tần cao (thể hiện trong Hình 2.13 (thể hiện trong Hình 2.13 là c(1,n) ). Về mặt tính toán số học có thể biểu diễn như sau: Hình 2.13. Phân tích đa phân giải 3 mức và khôi phục của tín hiệu dùng cấu trúc lọc kiểu kim tự tháp (pyramidal filter structure) (𝑛) Trong đó, ∑ ( ) ( 𝑛− ) và (𝑛) ∑ ( ) ( 𝑛− ) (2.21) lần lượt là độ dài của bộ lọc thông thấp ( ) và thông cao ( ). Từ đó băng tần thấp a(1,n) là một xấp xỉ của tín hiệu đầu vào, chúng ta có thể áp dụng cách tính trên một lần nữa trên a(1,n) để được băng tần con a(2,n) và c(2,n) và cứ tiếp tục theo cách đó. Phương pháp phân tích đa phân giải này được thể hiện qua sơ đồ trong Hình 2.13 với 30 ba mức phân tách. Trong quá trình biến đổi ngược để khôi phục lại tín hiệu, cả hai a(3,n) và c(3,n) trước hết được tăng nhịp (tăng số mẫu – upsampling) bằng cách chèn giá trị 0 vào giữa hai mẫu, và rồi chúng được lọc bởi bộ lọc thông thấp ( ) và thông cao ( ). Dòng dữ liệu đầu ra của hai bộ lọc được cộng lại với nhau để khôi phục a(2,n) như thể hiện trong Hình 2.13. Tiếp tục theo cách này cho đến khi chúng ta khôi phục lại được tín hiệu gốc a(0,n). Row-wise DWT L LL1 HL1 LH1 HH1 Column-wise DWT H (a) First level of decomposition LL2 HL2 HL1 LH2 HH2 LH1 LL3 HL3 LH3 HH3 LH2 HH1 HL2 HL1 HH2 LH1 (b) Second level of decomposition HH1 (c) Third level of decomposition Hình 2.14. Quy trình xử lý dòng-cột của DWT hai chiều. Mở rộng DWT trên hai chiều là cần thiết cho biến đổi của tín hiệu 2 chiều như ảnh số. Một tín hiệu số hai chiều có thể biểu diễn bởi một mảng hai chiều X[M, N] với M hàng và N cột, ở đây M và N là các số nguyên không âm. Phương pháp giải quyết đơn giản cho DWT thực hiện trên 2 chiều là tiến hành DWT một chiều theo hàng để đem lại kết quả trung gian, rồi tiến hành DWT một chiều theo cột trên kết quả trung gian để được kết quả sau cùng (như thể hiện trong Hình 2.14 (a) ). Điều này là có thể làm được vì các hàm tỷ lệ hai chiều có thể biểu diễn như những hàm có thể phân tách (separable), nghĩa là hàm biểu diễn được như tích của hai hàm tỷ lệ một chiều như cũng đúng cho các hàm wavelet ( ( ) ( ) ( ). Điều này ). Áp dụng biến đổi một chiều trên mỗi hàng, chúng ta nhận được hai băng tần con trên mỗi hàng. Khi các băng tần con tần số thấp của tất cả các hàng (L) được xếp đặt cùng nhau, nó trông giống như một phiên bản mỏng (kích thước ) của tín hiệu đầu vào như trong Hình 2.14 (a). Tương tự, chúng ta xếp đặt cùng nhau các băng tần con tần số cao của tất cả các hàng để được băng tần con H có kích thước , nó chứa chủ yếu thông tin tần số cao xung quanh chỗ gián đoạn (hay các cạnh trong một ảnh) trong tín hiệu đầu vào. Tiếp đến, chúng ta áp dụng DWT một chiều theo cột trên những băng tần con L và H (là kết quả trung gian), chúng ta nhận được bốn băng tần con LL, LH, HL, và HH với kích thước , như thể hiện trong Hình 2.14 (a). LL là một 31 phiên bản xấu hơn của tín hiệu gốc đầu vào. LH, HL, và HH là băng tần con tần số cao chứa thông tin chi tiết. Cần chú ý rằng chúng ta có thể áp dụng DWT một chiều theo cột trước và theo hàng sau để đạt được cùng một kết quả. Hình 2.15 mô tả chi tiết hơn quy trình thực hiện DWT hai chiều với cặp bộ lọc phân tích là (Lo_D, Hi_D) và cặp bộ lọc tổng hợp là (Lo_R, Hi_R). columns Lo_D rows Lo_D 2↓1 columns Hi_D columns Lo_D rows 2↓1 xLL xLL columns 1↑2 Lo_R 1↑2 columns Hi_R 1↑2 columns Lo_R xL x Hi_D 1↓2 1↓2 1↓2 xLH xLH xHL xHL xH columns Hi_D 1↓2 xHH xHH columns 1↑2 + xL rows 2↑1 Lo_R + + xH x rows 2↑1 Hi_R Hi_R Hình 2.15. Sơ đồ phân tích và tổng hợp tín hiệu hai chiều theo cấu trúc băng tần con. Giải thích một số ký hiệu trong sơ đồ của Hình 2.15: Lo_D: Hi_D: Lo_R: Hi_R: 2↓1: 1↓2: Bộ lọc phân tách thông thấp (Decomposition low-pass filter) Bộ lọc phân tách thông cao (Decomposition high-pass filter) Bộ lọc khôi phục thông thấp (Reconstruction low-pass filter) Bộ lọc khôi phục thông cao (Reconstruction high-pass filter) Giảm nửa số cột (Downsample columns) Giảm nửa số dòng (Downsample rows) Hình 2.16 là một kết quả cụ thể thu được qua quá trình biến đổi DWT hai chiều với ảnh đầu vào là MobileCalendar định dạng CIF2 ở Hình 2.16 (a), qua Hình 2.16 (b) cho thấy bốn băng tần con của ảnh đầu vào lần lượt là LL, LH, HL, và HH. Như được chỉ ra về mặt lý thuyết ở phần trên, ảnh băng tần con LL là một phiên bản của ảnh đầu vào MobileCalendar nhưng có độ phân giải thấp hơn (xấu hơn), các ảnh băng tần con còn lại như LH, HL, và HH chứa phần thông tin các chi tiết của hình ảnh mà nó đã bị mất đi ở phiên bản LL. Hình 2.16 (c) là kết quả thu được sau ba mức biến đổi. (a) Ảnh MobileCalendar gốc (b) Kết quả phân tích theo một mức (c) Kết quả phân tích theo ba mức Hình 2.16. Kết quả biến đổi DWT trên ảnh số hai chiều theo kiến trúc kim tự tháp sử dụng bộ lọc Wavalet Daubechies 4 - hệ số. 2 Chuẩn định dạng hình ảnh với độ phân giải 352 × 288 áp dụng cho truyền hình hội nghị phiên bản H.261(Common Intermediate Format - CIF) 32 2.5.2. Lƣợng tử hoá 2.5.2.1. Các phƣơng pháp lƣợng tử vô hƣớng Gọi Q là một phép lượng tử hóa (Quantization) biến đổi giá trị x (liên tục/rời rạc) vào trong một tập hữu hạn L các giá trị {y1,…,yL} dựa trên tập L+1 mức quyết định {d1,…,dL+1}, sẽ gồm hai bước: Bước mã hóa: Q(x) = k, sao cho x[dk; dk+1). Bước giải mã: Q-1(k) = yk Các giá trị k được gọi là mã hay từ mã (code, codeword), và các giá trị yk được gọi là giá trị khôi phục hay mức khôi phục (reconstruction level). Luôn tồn tại sai số giữa giá trị đầu vào x và giá trị khôi phục yk tùy thuộc vào phương pháp thiết kế bộ lượng tử. Để tối ưu hóa sai số chúng ta cần nghiên cứu một số phương pháp thiết kế bộ lượng tử, qua việc xác định các giá trị có liên quan. Sau đây là phần trình bày một số phương pháp lượng tử vô hướng (Scalar Quantization) kinh điển. a) Phương pháp tối ưu trung bình bình phương sai số (MSE) hay lượng tử hóa Lloyd-Max Output y8 y7 Quantizer error y6 d2 d3 y5 d4 d5 d6 y4 y3 d7 d8 Input y2 y1 Hình 2.17. Ánh xạ vào – ra của một bộ lượng tử hóa dạng Midrise. Với x là một giá trị liên tục, Px(x) là hàm phân bố xác suất của x. Chúng ta mong muốn tìm ra các mức quyết định dk (decision) và giá trị mức khôi phục yk (reconstruction) của một bộ lượng tử L mức sao cho độ biến dạng biến dạng (distortion) được cực tiểu hóa. Nếu độ được đo bằng MSE thì: [( − ) ] ∫ ( − ) ( ) (2.22) Chúng ta có thể viết lại công thức (2.22) dưới dạng: 33 ∑ ∫ ( − Điều kiện cần thiết để cực tiểu hóa ) ( ) (2.23) là đạo hàm riêng của theo dk và yk phải bằng không: ( ) − ∫ ( − Mặt khác, do ( )−( ) ( ) ) ( ) (2.24) (2.25) nên chúng ta có: ( Với − ) ∫ ( ) ∫ ( ) [ (2.26) ] (2.27) là khoảng chia thứ k [dk, dk+1). Công thức (2.26) chỉ ra rằng giá trị quyết định dk (hay còn gọi là điểm biên) sẽ nằm chính giữa 2 giá trị khôi phục tối ưu yk và yk-1. Cặp công thức (2.26) và (2.27) là những hàm phi tuyến. Trong thực tế, chúng ta có thể giải bằng một sơ đồ lặp, như phương pháp Newton chẳng hạn, để tìm ra các giá trị tối ưu dk và yk. Khi số mức lượng tử hóa lớn (nhiều mức), một giải pháp xấp xỉ có thể thu được bằng mô hình xấp xỉ hàm phân phối Px(x) bởi hàm hằng số piecewise như Hình 2.18. ( ) (̂ ) ̂ ( ) (2.28) Áp dụng xấp xỉ này vào công thức (2.23) và thực hiện yêu cầu cực tiểu hóa, một giải pháp xấp xỉ của các mức quyết định thu được như sau: [ ( )] ∫ ∫ Trong đó, − [ ( )] và ( ) (2.29) . Phương pháp này yêu cầu d1 và dL+1 (còn được gọi là overload points) phải hữu hạn. Những giá trị đó xác định ra vùng giới hạn động (dynamic range) A của bộ lượng tử hóa, phải giả định trước khi sắp đặt các giá trị mức quyết định (dk) và mức khôi phục (yk). Một khi các giá trị {dk} được xác định, thì các giá trị khôi phục {yk} có thể được xác định dễ dàng bằng trung bình của dk và dk+1. Độ biến dạng của bộ lượng tử sẽ là: 34 { ∫ [ ( )] } (2.30) Đây là một công thức thường được sử dụng bởi nó cho một ước lượng về sai số của bộ lượng tử hóa trực tiếp từ hàm mật độ xác suất và số mức lượng tử. Kết quả này là chính xác cho những hàm mật độ xác xuất có dạng hằng piecewise. Px(x) d1 d2 dL dL+1 x Hình 2.18. Xấp xỉ của hàm Px(x) bởi các hằng số phân đoạn (Piecewise constant approximation of Px(x)) Hai hàm mật độ hay được sử dụng trong xử lý ảnh là hàm Gaussian và Laplacian có công thức dạng: Gaussian: ( ) Laplacian: −( − ) ( ) √ ( ) Trong đó: (− (2.31) ) − (2.32) được định nghĩa là giá trị trung bình và phương sai của x. Phương và sai của Laplacian được cho bởi (2.33) Bảng 2.3 là danh sách các giá trị được thiết kế cho bộ lượng tử Lloy-Max với xác suất Gaussian (đề xuất năm 1960), được Paez và Glisson phát triển với xác xuất Laplacien và Gamma (đề xuất năm 1972) (nguồn [1]). Bảng 2.3. Lượng tử hóa tối ưu MSE cho mật độ Gaussian với giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1. − (giá trị quyết định) và − (giá trị khôi phục), Levels 2 3 4 5 6 7 8 MSE 0.3634 0.1902 0.1175 0.0799 0.0580 0.0440 0.0345 SNR (dB) 4.3964 7.2085 9.3003 10.972 12.367 13.565 14.616 Entropy 1.0000 K dk 1 0 1.5385 yk dk 0.7979 0.6120 1.9111 yk dk 0 0 2.2029 yk dk 0.4528 0.3823 2.4428 yk dk 0 0 2.6469 yk dk 0.3177 0.2803 2.8248 yk dk yk 0 0 0.2451 35 2 1.2240 0.9816 1.5104 1.2444 0.7646 0.6589 1.0001 0.8744 0.5606 0.5006 0.7561 3 1.7242 1.4469 1.8936 1.6108 1.1882 1.0500 4 1.344 2.0334 1.7480 2.1520 Levels 9 10 11 12 13 14 15 MSE 0.2790 0.0229 0.0192 0.0163 0.0141 0.0122 0.0107 SNR (dB) 15.551 16.395 17.163 17.868 18.519 19.125 19.691 Entropy 2.9826 3.1245 3.2534 3.3716 3.4806 3.5819 3.6765 K dk yk dk 1 0.2218 0 0 yk dk 2 0.6813 0.4437 0.4048 0.6099 0.5600 0.3675 0.3402 3 1.1977 0.9189 0.8339 1.0579 0.9657 0.7525 0.6944 0.8769 0.8127 0.6384 0.5960 0.7506 0.7031 0.5549 4 1.8656 1.4765 1.3247 1.5914 1.4359 1.1789 1.0814 1.2859 1.1843 0.9871 0.9182 1.0858 1.0132 0.8513 5 2.2547 1.9683 2.3452 2.0593 1.6928 1.5345 1.7832 1.6231 1.3314 1.2768 1.4677 1.3607 1.1751 6 2.4259 2.1409 2.4986 2.2147 1.8647 1.7033 1.9388 1.7765 1.5463 7 2.5647 2.2820 2.6253 2.3439 2.0067 8 2.6811 0.1996 0.1838 yk dk 0 0 yk dk 0.1685 0.1569 yk dk 0 0 yk dk 0.1457 0.1370 yk 0 0.5119 0.4761 0.3138 0.2936 0.4414 0.4144 0.2739 b) Phương pháp lượng tử hóa tối ưu với đầu vào có phân phối đều Đối với phân phối đều (uniform distributions), những công thức lượng tử hóa LlodMax là (2.26) và (2.27) trở nên tuyến tính. Trường hợp này còn được gọi là lượng tử tuyến tính (linear quantizer). Hàm phân phối xác suất trong trường hợp này sẽ có giá trị là: ( ) { − Từ (2.27), chúng ta thu được ( ( − − ) ) (2.34) Từ (2.26) và (2.34) chúng ta có: (2.35) Từ đó đưa đến: − − 𝑛 𝑛 ( 𝑛 ) (2.36) Cuối cùng chúng ta thu được: − (2.37) Như vậy, tất cả các mức quyết định (dk) và giá trị khôi phục (yk) đều có khoảng cách bằng nhau và bằng bước lượng tử hóa q (quantifier step size). Sai số trong lượng tử hóa − cũng có phân phối đều trong khoảng (– ). Vì thế, trung bình bình phương giá trị sai số MSE được cho bởi công thức: 36 ∫ Phương sai (2.38) của một biến ngẫu nhiên có phân phối đều có vùng giới hạn A là . Đối với một bộ lượng tử hóa dùng B bít, chúng ta có . Điều này đưa đến kết quả sau: ( ) ( ) ( ) (2.39) Theo cách đó, tỷ số SNR (signal-to-noise ratio) đạt được bởi bộ lượng tử hóa tối ưu trung bình bình phương sai số cho phân phối đều là xấp xỉ 6 dB trên bít. Hình 2.19 minh họa ánh xạ vào - ra của một bộ lượng tử hóa tối ưu cho đầu vào có phân phối đều trong khoảng [-A, +A], và sai số sinh ra do lượng tử hóa. Dễ thấy mức độ sai số của quá trình lượng tử hóa đều phụ thuộc vào giá trị bước lượng tử. Output +A Code=7 3.5q Code=6 2.5q Code=5 1.5q -4q -3q -2q Code=3 -A Code=2 Code=1 Code=0 q -1q Code=4 0.5q -0.5q 1q 2q 3q +A 4q Error = x-Q(x) Input -1.5q 0.5q -A +A -2.5q -4q -3q -2q -1q -0.5q 1q 2q 3q 4q Input -3.5q -A Hình 2.19. Ánh xạ vào – ra của một bộ lượng tử hóa tối ưu, dạng Midrise 3 bit với đầu vào có phân phối đều trong khoảng [-A, +A], và sai số lượng tử. 2.5.3. Gán từ mã dạng độ dài đồng nhất Do đặc thù của bài toán nén dữ liệu cho màn hình tinh thể lỏng mà chúng ta chỉ xem xét phương pháp gán từ mã dạng độ dài đồng nhất (hay uniform-length, fixed length). Như đã đề cập ở phần đầu chương mục này, kết quả của quá trình lượng tử ở bộ mã hóa (hay transmiter) chúng ta thu được các mức khôi phục k, để chuyển mức khôi phục này đi đến bộ giải mã (hay reciever) chúng ta cần thiết phải gán một từ mã (codeword) riêng biệt (là một chuỗi các bit 0 và 1) cho mỗi mức khôi phục k trong L mức khôi phục mà bộ lượng tử có thể sản sinh. Vào lúc nhận được từ mã, bộ giải mã có thể nhận biết được mức khôi phục bằng cách tìm kiếm mục thích hợp trong một bảng mã (codebook). Để bộ giải mã có thể xác định duy nhất mức khôi phục thì mỗi mức khôi khục phải được gán cho một từ mã 37 riêng biệt. Ngoài ra, để nhiều hơn một mức khôi phục có thể được chuyển đi trong một chuỗi dữ liệu, thì các từ mã phải được gán sao cho chúng có thể được nhận diện (hay xác định) khi bộ giải mã nhận chuỗi dữ liệu. Một mã có được những đặc điểm đó sẽ được gọi là có khả năng giải mã duy nhất (hay uniquely decodable). Tiện lợi hơn khi xem kết quả của quá trình lượng tử hóa vô hướng hay vector như một thông điệp (message) mà nó có L trạng thái khác nhau ai , 1≤ i ≤ L, với mỗi trạng thái tương ứng với một mức khôi phục. Phương pháp lựa chọn từ mã đơn giản là sử dụng từ mã có độ dài thống nhất. Trong phương pháp này mỗi trạng thái của thông điệp (message) được mã hóa bởi một từ mã (codeword) mà từ mã này có cùng độ dài như tất cả các từ mã còn lại, hay nói cách khác là tất cả các từ mã là có cùng độ dài. Một ví dụ cho phương pháp gán từ mã dạng có độ dài đồng nhất với L=8 được thể hiện trong Bảng 2.4. Chiều dài của . Chúng ta sẽ xem số bit yêu cầu để mỗi từ mã trong ví dụ này là mã hóa một message như tốc độ dòng bit (bit rate). Trong ví dụ của chúng ta bit rate là 3bit/message. Nếu chúng ta mã hóa nhiều hơn một thông điệp (message), tốc độ dòng bit trung bình được định nghĩa như tổng số bit cần thiết chia cho số thông điệp. Với phương pháp gán độ dài đồng nhất, tốc độ dòng bit trung bình cũng bằng với tốc độ dòng bít. Bảng 2.4. Một ví dụ gán từ mã dạng độ dài đồng nhất cho thông điệp với 8 trạng thái. Message a1 a2 a3 a4 a5 a6 a7 a8 Codeword 000 001 010 011 100 101 110 111 2.5.4. Khái quát về một số phƣơng pháp mã hóa ảnh thực hiện cho màn hình Nói chung các thuật toán mã hóa ảnh khung hình cho màn hình tinh thể lỏng được chia làm hai loại chính: Mã hóa trực tiếp hàm tín hiệu ảnh hay thuật ngữ là “Waveform Coding”, và mã hóa dựa trên phép biến đổi hay thuật ngữ là “Transform Coding”. Sau đây chúng ta sẽ lần lượt tìm hiểu về những hình thức mã hóa này [16]. 2.5.4.1. Mã hóa trực tiếp hàm tín hiệu ảnh (Waveform Coding) “Waveform Coding” là một hình thức mã hóa trực tiếp trên hàm tín hiệu ảnh, hay nói cụ thể hơn chính là mã hóa giá trị điểm ảnh. Chúng ta mã hóa cường độ của điểm ảnh (hay giá trị mẫu tín hiệu sau khi số hóa) một cách trực tiếp, hoặc một số biến thể đơn giản của cường độ ảnh như sự khác biệt giữa hai cường độ điểm ảnh liên tiếp, hay sự khác biệt của 38 các điểm ảnh trong một khối so với một giá trị thống kê trong khối như min, mean,... Một lợi thế lớn của Waveform coding so với Transform coding là sự đơn giản. Về nguyên tắc, chúng ta có thể sử dụng bất kỳ phương pháp lượng tử và gán từ mã nào trong mã hóa dạng sóng. Tuy nhiên, lượng tử vô hướng và gán từ mã uniform-length đã được sử dụng chủ yếu do tính đơn giản của nó. Trong tất cả các trình bày của chúng ta trong mục này, chúng ta sẽ mặc định cho việc sử dụng lượng tử vô hướng và gán từ mã uniform-length trừ những trường hợp ngoại lệ nếu có. a) Mã hóa lượng tử thích nghi (Adaptive Quantization Coding) Những thiết kế lượng tử hóa đã được đề cập trong mục 2.5.2 có miêu tả đầu vào và đầu ra bất biến theo thời gian (time-invariant). Chúng không dành cho các tín hiệu có tính không ổn định. Trong trường hợp tín hiệu có tính ổn định nhưng hàm phân phối xác suất pdf bị lệch so với thiết kế thì tất yếu dẫn đến suy giảm hiệu năng của bộ lượng tử hóa. Có hai loại không phù hợp khi áp dụng: • Thứ nhất là phương sai không phù hợp • Thứ hai là hàm phân phối xác suất không phù hợp Mã hóa lượng tử hóa thích nghi là một nỗ lực để thiết kế bộ lượng tử hóa thích ứng với các số liệu thống kê đầu vào khác nhau nhằm đạt được hiệu năng tốt hơn. Các giá trị thống kê có thể được sử dụng gồm: min, max, mean, phương sai,… và kiểu của hàm phân phối xác suất đầu vào. Có hai loại mã hóa lượng tử thích nghi khác nhau, một là “forward adaptation” và hai là “backward adaptation”. Trong đó “backward adaptation” cho tỷ số nén cao nhưng không khống chế được sai số ở trong một ngưỡng cố định nhằm kiểm soát chất lượng, vì thế nó không phù hợp với bài toán nén ảnh khung hình nên sẽ không được xem xét trong luận án. Phương pháp mã hóa lượng tử thích nghi chuyển tiến được sử dụng phổ biến trong nén ảnh khung hình dưới một số dạng khác nhau, và thường được gọi ngắn gọn là mã hóa lượng tử thích nghi hay AQC (adaptive quantization coding). Mô hình khái quát cho một bộ mã hóa lượng tử thích nghi được thể hiện qua Hình 2.20. Trong đó, bộ mã hóa cần thiết lập các tham số thống kê, các thông tin này còn được gọi là “side information”, và việc chọn lựa kích thước của khối dữ liệu (block size) để xử lý là vấn đề quan trọng.   Nếu kích thước block nhỏ, sự thích nghi theo các giá trị thống kê cục bộ sẽ hiệu quả, nhưng “side information” cần được gửi đi thường xuyên, vậy nên nhiều bít được sử dụng cho việc chuyển “side information”. Nếu kích thước block lớn, lượng bít dùng để chuyển tải “side information” sẽ chiếm tỷ 39  trọng nhỏ trong tổng số bit dùng để mã hóa, do đó tỷ số nén sẽ cao. Nhưng sự thích nghi theo các giá trị thống kê cũng giảm. Trong thực tế, một chọn lựa kích thước block tốt là một chọn lựa dung hòa được cả hai yếu tố: tỷ trọng bit dùng cho “side information” và tính hiệu quả trong thích nghi. Hình 2.20. Mô hình khái quát cho một bộ mã hóa lượng tử thích nghi 2.5.4.2. Mã hóa dựa trên phép biến đổi (Transform Coding) Trong mã hóa dựa trên phép biến đổi (Transform Coding), một hình ảnh được chuyển từ miền cường độ hình ảnh đến một miền không gian khác mà giữa hai miền có sự khác biệt đáng kể, và các hệ số biến đổi sau đó được mã hóa. Trong các ứng dụng tốc độ bit thấp (dưới 1 hoặc 2 bit/pixel) như hội nghị truyền hình, Transform Coding sử dụng lượng tử vô hướng thường hoạt động tốt hơn đáng kể so với các kỹ thuật waveform coding sử dụng lượng tử vô hướng. Tuy nhiên Transform Coding đòi hỏi độ phức tạp tính toán cao hơn. a) Phép biến đổi (Transforms) Một sơ đồ nguyên tắc của phương pháp mã hóa ảnh dựa trên phép biến đổi được thể hiện trong Hình 2.21. Tại transmitter, ảnh (𝑛 𝑛 ) được biến đổi thành hệ số của ( ( ), và các ) được lượng tử hóa rồi tiếp đến chúng được mã hóa thành các từ mã để chuyển đến receiver. Tại receiver các từ mã nhận được sẽ được giải mã và lượng tử khôi phục để có được ( Transform ), tiếp đến là biến đổi ngược để có được ̂(𝑛 𝑛 ). Q Entropy Coding Q-1 Inverse Transform Hình 2.21. Sơ đồ mã hóa ảnh sử dụng biến đổi Một số tính chất là được kỳ vọng trong biến đổi. Từ đó chúng ta thực hiện tính toán biến đổi tại transmitter và thực hiện tính toán biến đổi ngược tại receiver. Các biến đổi đã được xem xét cho mã hóa ảnh là những biến đổi tuyến tính, nó có thể biểu diễn dưới dạng: 40 ( ) (𝑛 𝑛 ) ∑ ∑ (𝑛 𝑛 ) ( 𝑛 𝑛 ∑ ∑ ( ) (𝑛 𝑛 ) (2.40) ) (2.41) Trong đó ký hiệu (𝑛 𝑛 ) là ma trận dữ liệu có kích thước cũng có kích thước (𝑛 𝑛 và biểu diễn các hệ số biến đổi, còn , và (𝑛 𝑛 ( ) ) và ) là những hàm cơ bản thỏa mãn công thức (2.40) và (2.41). Từ công thức (2.40) và (2.41) có thể suy luận ra rằng (𝑛 𝑛 ) là một kết hợp tuyến tính của các hàm cơ bản (𝑛 𝑛 ( ) và các hệ số biến đổi ) là các biên độ của các hàm cơ bản trong công thức tuyến tính. Khi các hàm cơ sở có dạng thức của hàm sin, các hệ số biến đổi có thể được thể hiện như biên độ của những thành phần phổ phổ biến. Từ sự xem xét về mặt tính toán, các hàm cơ bản được sử dụng phổ biến trong mã hóa ảnh dùng biến đổi (transform) là chia tách được (separable), vì thế công thức (2.40) và (2.41) có thể được biểu diễn như sau: ( ) (𝑛 𝑛 ) ∑ ∑ (𝑛 𝑛 ) ∑ ∑ ( ) (𝑛 ) (𝑛 ) (2.42) (𝑛 ) (𝑛 ) (2.43) Ví dụ minh họa cho công thức (2.33) chính là hai phép biến đổi ảnh phổ biến nhất: Biến đổi Fourier và biến đổi Cosine. Hình 2.22. Sơ đồ cơ bản của chuẩn nén ảnh JPEG ([30]). (a) Bộ nén. (b) Bộ giải nén. 41 Điển hình cho phương pháp mã hóa biến đổi trong thực tiễn chính là chuẩn nén JPEG (biến đổi Cosine) và JPEG 2000 (biến đổi wavelet) được thể hiện qua Hình 2.22 và Hình 2.23. Hình 2.23. Sơ đồ thuật toán bộ nén JPEG2000 ([30]). 2.6. Tổng quan về các giải pháp nén ảnh cho màn hình tinh thể lỏng Trong khoảng thời gian từ 2002 đến nay đã có khá nhiều các nghiên cứu và đề xuất các giải pháp nén ảnh áp dụng cho hệ thống overdrive trong màn hình tinh thể lỏng, từ những giải pháp đơn giản chỉ áp dụng duy nhất kỹ thuật lượng tử hóa (dạng PCM cơ bản) với hiệu năng thấp được đề cập trong [12], cho đến những giải pháp khá phức tạp áp dụng đồng thời nhiều phép biến đổi, biến đổi không gian màu và biến đổi wavelet, cùng với mô hình lượng tử hóa đa chế độ, BTC (block truncation coding) và AQC (Adaptive Quantization Coding), nhằm nâng cao hiệu năng nén được đề cập trong [5]. Để có được cái nhìn tổng quan về các giải pháp nén đã được nhiều tác giả trên thế giới nghiên cứu đề xuất, cũng như những vấn đề còn tồn đọng trong các nghiên cứu đó, từ đó có thể hình thành định hướng nghiên cứu cải tiến và phát triển nên các giải pháp nén hiệu quả hơn. Trong phần này luận án sẽ trình bày hai nội dung chính: một là tổng quan về các giải pháp nén ảnh cho màn hình tinh thể lỏng; hai là tập trung phân tích đánh giá các ưu và nhược điểm còn tồn tại trong một số giải pháp nén tiên tiến để từ đó có định hướng nghiên cứu cải tiến hay phát triển giải pháp mới. 2.6.1. Khái quát về các giải pháp nén ảnh cho hệ thống overdrive Đã có khá nhiều giải pháp nén ảnh cho hệ thống overdrive của màn hình tinh thể lỏng được đề xuất. Các giải pháp này sử dụng nhiều kỹ thuật mã hóa khối, nhiều kỹ thuật biến đổi đa dạng, có giải pháp khá đơn giản song cũng có giải pháp khá phức tạp về mặt sơ đồ cấu trúc. Nhưng nhìn chung chúng ta có thể chia chúng ra làm hai hướng chính: 1. Hướng 42 áp dụng kỹ thuật mã hóa khối và biến đổi không gian màu; 2. Hướng áp dụng phép biến đổi ảnh kết hợp các kỹ thuật mã hóa khối và biến đổi không gian màu. Sau đây chúng tôi xin được trình bày sơ lược cho phần lớn các giải pháp nén tiêu biểu trong số các giải pháp đã được đề xuất: 2.6.1.1. Các giải pháp nén ảnh áp dụng kỹ thuật mã hóa khối và biến đổi không gian màu (1) Giải pháp nén sử dụng biến đổi không gian màu (color space conversion) được đề xuất bởi J. K. Sung, C. G. Kim, J. K. An, M. H. Park và S. D. Yeo vào tháng 5 năm 2005 [10]. Giải pháp này thực hiện chuyển đổi dữ liệu ảnh đầu vào màn hình từ RGB sang không gian màu YCbCr (YCbCr là chuẩn định dạng màu dựa trên một thành phần tín hiệu độ chói (Luminance) Y và hai thành phần tín hiệu màu (Chrominance) là Cb và Cr), sau đó lợi dụng đặt tính thị giác của con người là rất nhạy cảm với thành phần tín hiệu độ chói Y và kém nhạy cảm với các thành phần màu Cb và Cr, để từ đó áp dụng mã hóa khối cho thành phần độ chói Y với tỷ số thấp nhằm tránh mất mát nhiều thông tin, và áp dụng mã hóa khối với Cb và Cr với tỷ số nén cao hơn. Kết quả mang lại khả năng cải thiện sai số có dạng hiệu ứng khối (blocking effect) trong ảnh giải nén, tỷ số nén đạt được ở mức 3:1 [19]. (2) Giải pháp nén với mô hình lai HIC (Hybrid Image Coding) được đề xuất bởi J. Wang, K. Y. Min và J. W. Chong vào tháng 9 năm 2007 [17]. Giải pháp này thực hiện chuyển đổi không gian màu RGB về YCbCr và tiếp đến giảm số mẫu trên hai thành phần màu Cb và Cr theo cấu trúc lấy mẫu YCbCr 4:2:0. Sau đó nén thành phần độ chói Y bởi kỹ thuật mã hóa lượng tử thích nghi có tên gọi AQC với tỷ số nén thấp nhằm bảo toàn phần lớn lượng thông tin độ chói, trong khi đó hai thành phần màu Cb và Cr được nén bởi kỹ thuật nén BTC để cho tỷ số nén rất cao. Tỷ số nén mà giải pháp đạt được với chất lượng ảnh giải nén khá tốt là 3.31:1. Cũng chính nhóm tác giả này sau đó đã có những cải tiến cho HIC được trình bày chi tiết trong [18] và [19]. (3) Giải pháp nén sử dụng phép lượng tử hóa vector trên các khối điểm ảnh màu RGB với tên gọi VQ-BTC (Vector Quantizer based Block Truncation Coding), tiếp đến là quá trình chuyển đổi sang không gian màu HSI để tinh chế tăng cường bảo toàn các cạnh cho các khối. Giải pháp này được đề xuất bởi J. W. Han, M.C. Hwang và S.J. Ko vào tháng 11 năm 2008 [24]. Giải pháp này đã mang lại những cải thiện đáng kể so với các giải pháp mã hóa thông thường như BTC hay Basic VQ-BTC. Song theo đánh giá trong nghiên cứu mới hơn sau đó của Jun Wang và các đồng sự, thì giải 43 pháp mới của họ là SBB-BTC luôn cho kết quả tốt hơn VQ-BTC. Cũng có thể nói giải pháp SBB-BTC phần nào đó đã kế thừa ý tưởng lượng tử hóa vector của giải pháp VQ-BTC song theo một cách rất sáng tạo và khá hiệu quả. (4) Giải pháp nén có tỷ số nén cao HCRIC (High Compression Ratio Image Coding) một cải tiến của HIC với tỷ số nén đạt được là 6:1, nó được đề xuất bởi J. Wang, K. Y. Min và J. W. Chong vào năm 2008 [18]. Đây thực chất là một phiên bản nâng cấp của HIC để nâng cao tỷ số nén. Bằng cách giảm số mẫu trên hai thành phần màu Cb và Cr xuống 4 lần theo cả hai chiều (tức là giảm đến 16 lần), cộng với một tích hợp nhỏ trên mô-đul nén thành phần Y. Tỷ số nén cuối cùng mà HCRIC đạt được là khoảng 6:1. (5) Giải pháp nén AHIC (Advanced Hybrid Image Codec), một cải tiến nhỏ của HCRIC, được để xuất bởi J. Wang và J. W. Chong vào tháng 2 năm 2009 [19]. Có thể nói AHIC là một giải pháp nén cho tỷ số nén khá cao khi so sánh với các giải pháp tương đương ứng dụng cho overdrive. Chất lượng mà AHIC đạt được khá tốt trong phần lớn các tình huống kiểm nghiệm trên ảnh, nhất là các ảnh ghi lại cảnh thiên nhiên với độ nét không cao và màu sắc không sắc nét (thể hiện trong phần đánh giá thực nghiệm của [19]). Một ưu điểm nữa của AHIC là cấu trúc khá đơn giản, điều này mang lại khả năng ứng dụng cao trong thực tiễn. Song giải pháp này còn mắc phải một nhược điểm là dễ bị mắc phải hiện tượng nhiễu khối (blocking effect). Chúng ta sẽ đề cập chi tiết về AHIC và vấn đề nhiễu khối mà nó có thể mắc phải ở phần tiếp theo của chương này. (6) Giải pháp nén sử dụng kỹ thuật mã hóa dựa trên thu gọn khối ảnh BTC song chỉ dùng một mặt phẳng bit cho cả 3 thành phần màu R, G và B, nó có tên gọi là SBBBTC (Single Bit Plane based Block Truncation Coding) được đề xuất bởi Jun Wang, Lin-bo Luo, Kyeong-yuk Min, Yeun-Cheul Jeung và Jong-wha Chong vào tháng 1 năm 2010 [20]. Dựa trên ý tưởng rằng các khối ảnh màu RGB có thể được mã hóa với kỹ thuật BTC nhưng thay vì sử dụng 3 mặt phẳng bit (bit plane) để mã hóa cho 3 thành phần màu R, G và B như thông thường thì giải pháp này chỉ sử dụng một mặt phẳng bit chung cho cả 3 màu R, G, và B. Mặt phẳng bit chung đó được sinh ra từ việc phân ngưỡng thành phần độ chói của khối ảnh [20]. Bằng cách này thuật toán trở nên đơn giản hơn so với phương pháp VQ-BTC. Qua thực nghiệm để đánh giá kết quả cho thấy SBB-BTC cho kết quả tốt hơn giải pháp chỉ áp dụng BTC hay VQBTC. (7) Giải pháp nén sử dụng kỹ thuật mã hóa BTC 2 mức hoặc 4 mức một cách thích nghi với tên gọi AM-BTC (Adaptive Multi-level Block Truncation Coding), được J. 44 Wang và J. W. Chong đề xuất vào tháng 5 năm 2010 [21]. Đây là một cải tiến của SBB-BTC bằng cách kết hợp song song hai bộ mã hóa SBB-BTC-2-level và SBBBTC-4-level, đầu ra tốt nhất của một trong hai bộ mã hóa trên sẽ được chọn lựa. Bằng cách này sẽ cải thiện được hơn nữa chất lượng ảnh so với giải pháp SBBBTC, song kiến trúc của nó cũng phức tạp hơn nhiều so với SBB-BTC bởi phải bổ sung thêm một bộ nén và giải nén cho SBB-BTC-4-level, một bộ chọn lựa để chọn lựa một trong hai kết quả đầu ra của hai bộ mã hóa trên. Chúng ta cũng sẽ đi sâu phân tích giải pháp này ở phần tiếp theo của chương này. 2.6.1.2. Các giải pháp nén ảnh áp dụng phép biến đổi ảnh kết hợp các kỹ thuật mã hóa khối và biến đổi không gian màu (1) Giải pháp nén sử dụng biến đổi DCT có thể mở rộng (scalable DCT-base) được đề xuất bởi R. H. M. Wubben và G. J. Hekstra vào tháng 5 năm 2004 [28]. Quy trình xử lý của giải pháp này theo tác giả là gần giống với quy trình xử lý của chuẩn nén JPEG, điểm khác biệt chính là không áp dụng phương pháp mã hóa entropy và kích thước khối . Giải pháp này có thể cho tỷ số nén cao tuy nhiên độ phức tạp tính toán của nó cao hơn nhiều khi so sánh với những kỹ thuật mã hóa thông thường như BTC. Với biến đổi DCT hai chiều thì năng lượng của tín hiệu có xu hướng tập trung miền tần số thấp (gần gốc của hệ trục tần số), vì vậy các hệ số càng gần gốc thì yêu cầu số lượng bit để lưu trữ và xử lý càng lớn, quan trọng nhất là thành phần DC (thành phần hệ số chính ứng với cả hai tần số đều bằng zero). Chẳng hạn nếu giải pháp sử dụng biến đổi DCT kích thước 8x8 thì khi đó hệ số DC sẽ có dung lượng là 8+log2(8x8) = 14 bít, khi đó các quy trình xử lý sau đó sẽ phải xử lý trên dữ liệu 14 bít, đồng thời với sự tăng kích thước bộ đệm dòng lên 8-line, khiến kiến trúc thực thi của hệ thống nén trở nên phức tạp và giá thành cao. (2) Giải pháp nén sử dụng biến đổi nhanh wavelet rời rạc (fast discrete wavelet transform) được đề xuất bởi I. J. Chun, H. Mun, J. H. Sung, S. Y. Park và B. G. Kim vào tháng 7 năm 2006 [9]. Đây là một nỗ lực tốt, song rất tiết nó chỉ đạt được tỷ số nén Cr=2.66:1. Hơn thế nữa, giải pháp này đòi hỏi phải sử dụng một bộ đệm dòng có kích thước 8-line cũng là một yếu điểm so với phần lớn các giải pháp khác. (3) Giải pháp nén thực hiện trên nền tảng biến đổi wavelet rời rạc kết hợp mô hình chọn lựa phương thức mã hóa thích nghi, có tên gọi DWT-based Adaptive Mode Selection (DAMS), được đề xuất bởi Haksub Kim và Sanghoon Lee năm 2011 [5]. Giải pháp này sử dụng biến đổi wavelet hai chiều cho 8 dòng ảnh, do đó đòi hỏi sử dụng một bộ đệm 8-line, dùng bộ lọc Daubechies 4/4 - hệ số định dạng số thực. Sau đó ảnh trên các băng tần LL, LH, HL, HH được chia vào các khối có kích thước 4x8 45 và được sắp xếp theo một trật tự ưu tiên đã định trước. Tiếp đến là áp dụng mô hình nén song song nhiều chế độ (mode) để sau đó chọn lựa ra chế độ mã hóa tốt nhất mà vẫn đảm bảo dung lượng bit nén được kiểm soát chặt, mang lại tỷ số nén ổn định là 6:1. Các kết quả thực nghiệm chỉ ra rằng DAMS cho kết quả khá cao so với các giải pháp SBTC, VQ-BTC và AHIC khi đánh giá theo độ đo PSNR. Tuy nhiêu, cũng qua thực nghiệm cho thấy, rất nhiều tình huống chất lượng ảnh nén bởi DAMS bị hiệu ứng khối (blocking effect) trên thành phần màu sắc một cách nặng nề khó chấp nhận. Lỗi này thường xảy ra trên những vùng ảnh có màu sắc thay đổi mượt (hay tín hiệu màu thay đổi chậm). Kiến trúc khá phức tạp, đòi hỏi đến 6 bộ mã hóa khác nhau tương ứng với 6 cách mã hóa cũng là một nhược điểm nữa của DAMS. Chúng ta sẽ phân tích chi tiết về DAMS trong phần tiếp theo của chương này. Trên cơ sở các đặc điểm kỹ thuật của các giải pháp nén, chúng tôi đã xây dựng nên biểu đồ cây thừa kế thể hiện qua Hình 2.24 (xem ở trang 47). Trong đó mỗi phần tử là một bản tóm tắt sơ lược cho một giải pháp nén với các thông tin cơ bản nhất. Tóm lại, đã có khá nhiều giải pháp nén được nghiên cứu đề xuất áp dụng cho màn hình tinh thể lỏng, với nhiều cách tiếp cận và xử lý khá khác nhau và hiệu năng mà mỗi giải pháp đạt được cũng mỗi khác. Xu hướng thông thường là giải pháp nén có tỷ số nén càng cao thì độ phức tạp tính toán sẽ tăng lên và ngược lại. Điều này khiến cho việc so sánh đánh giá giữa những giải pháp nén có tỷ số nén khác nhau trở nên khó khả thi hay phiến diện. Bên cạnh đó, việc đi sâu vào phân tích đánh giá khiến trúc phần cứng thực thi không nằm trong phạm vi của luận án này. Do đó các phân tích so sánh giữa các giải pháp chỉ thực hiện trên các giải pháp gần tương đương nhau về tỷ số nén hoặc độ phức tạp kiến trúc thực thi. 2.6.2. Một số hƣớng tiếp cận các giải pháp nén và định hƣớng nghiên cứu Trong phần này luận án tập trung phân tích đánh giá ưu và nhược điểm của một số giải pháp nén tiên tiến và nổi bật về mặt hiệu năng áp dụng cho màn hình tinh thể lỏng, trên cơ sở kết hợp các phương pháp nén ảnh cơ sở và các phương pháp nén ảnh tiên tiến. Các giải pháp được đưa ra phân tích đánh giá qua hai hướng tiếp cận: - Mã hóa khối và biến đổi không gian màu: Gồm hai giải pháp nén được đề xuất bởi cùng một nhóm tác giải J. Wang và J. W. Chong đó là các giải pháp AHIC [19] (đề xuất năm 2009) và AM-BTC [21] (đề xuất năm 2010). Cả hai giải pháp này đều cho chất lượng ảnh nén khá cao khi so sánh với các giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng cùng giai đoạn được đề xuất trở về trước, cộng với một kiến trúc không quá phức tạp. 46 Sơ lược về các giải pháp nén ảnh cho màn hình tinh thể lỏng và sự kế thừa Giải pháp đơn giản trong [12]  Sử dụng phép biến đổi không gian màu  Sử dụng kỹ thuật mã hóa BTC  Tỷ số nén CR=3.0 đến 3.42 phụ thuộc vào kích thước block được sử dụng 5/2003 Giải pháp VQ-BTC trong [23] Sử dụng kỹ thuật mã hóa VQ-TBC  Biến đổi từ không gian màu RGB sang HSI để tinh chỉnh  CR=6 11/2008 Giải pháp lai (HIC) trong [16]  Sử dụng phép biến đổi không gian màu RGB 4:4:4 sang YCbCr 4:2:0  Sử dụng kỹ thuật mã hóa thích nghi (AQC) cho thành phần độ chói (Y), và kỹ thuật BTC cho màu (Cb&Cr)  CR=3.31 9/2007    Giải pháp biến đổi không gian màu trong [9]  Sử dụng phép biến đổi không gian màu RGB sang YCbCr.  Kỹ thuật mã hóa không được tác giả đề xuất cụ thể  CR=3 5/2005  Giải pháp HCRIC trong [17] Biến đổi RGB sang YCbCr rồi Downsampling 4↓1 với hai thành phần U&V  Sử dụng kỹ thuật AQC cho thành phần Y, và BTC cho màu (Cb&Cr)  CR=6 2008   SBB-BTC trong [19] Sử dụng kỹ thuật mã hóa BTC với chỉ một mặt phẳng bít biểu diễn bản đồ mã cho cả 3 thành phần R,G,B CR=6 1/2010 AM-BTC trong [20] Kế thừa SBB-BTC song tích hợp đến 2 bộ mã hóa TBC2level và BTC-4level và chọn lựa kết quả đầu ra một cách thích nghi CR=6 5/2010    Giải pháp “Scalable DCTbased” trong [26] Sử dụng biến đổi Scalable DCT-based. Sử dụng mã hóa Runlength coding,… (Like JPEG, not use entropy coding) CR = 12, 16, 20 tùy theo kích thước block được sử dụng 5/2004   Giải pháp “fast discrete wavelet” trong [8] Sử dụng biến đổi nhanh wavelet rời rạc Tỷ số nén CR = 2.66 7/2006  Giải pháp AHIC trong [18] Kế thừa gần như hoàn toàn HCRIC với một khác biệt nhỏ ở bộ giảm mẫu.  CR=6 2/2009  Nhóm Nhóm các các giải giải pháp pháp nén nén có có kiến kiến trúc trúc đơn đơn giản giản hay hay không không quá quá phức phức tạp. tạp. Chủ Chủ yếu yếu áp áp dụng dụng phép phép biến biến đổi đổi không không gian gian màu màu và và mã mã hóa hóa khối khối  Giải pháp DAMS trong [4]  Sử dụng phép biến đổi không gian màu RGB sang YCbCr, cùng với biến đổi wavelet rời rạc 2 chiều (DWT)  Sử dụng mã hóa hỗn hợp song song nhiều kỹ thuật khác nhau như: Mean, BTC, AQC-4Level, AQC8Level, AQC-16Level  CR=6 5/2011 Giải pháp SAMS trong [11] Kế thừa của DAMS với sự cải tiến cơ chế ngưỡng cố định bằng cơ chế ngưỡng động dựa trên độ đo SSIM  CR=6 11/2012  Giải pháp LTC trong [22] Sử dụng biến đổi không gian màu RGB sang YCbCr, cùng với các phép biến đổi “lapped transform” và “hadamard transform”. Với cơ chế mã hóa các hệ số của phép biến đổi hadamard theo mặt phẳng bit CR = 6 8/2011 Nhóm Nhóm các các giải giải pháp pháp nén nén có có kiến kiến trúc trúc phức phức tạp. tạp. Chủ Chủ yếu yếu áp áp dụng dụng các các phép phép biến biến đổi đổi không không gian gian và và các các phép phép biến biến đổi đổi sang sang miền miền tần tần số số như như biến biến đổi đổi DCT DCT hay hay biến biến đổi đổi Wavelet. Wavelet. Hình 2.24. Những giải pháp nén đã được đề xuất áp dụng trong hệ thống overdrive của màn hình tinh thể lỏng. Những đặc điểm chính và tính kế thừa trong một số giải pháp. 47 - Mã hóa dựa trên biến đổi DWT và lựa chọn thích nghi: Một giải pháp nén được đề xuất bởi nhóm tác giải Haksub Kim và Sanghoon Lee là giải pháp DAMS [5] (đề xuất 2011). Giải pháp này cho chất lượng ảnh nén vượt trội khi so sánh với các giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng cùng giai đoạn được đề xuất trở về trước, tuy vậy độ phức tạp tính toán của giải pháp cũng ở mức khá cao với một kiến trúc khá phức tạp khi so sánh với những giải pháp như AHIC hay AM-BTC là những giải pháp đã được đề xuất trước đó. Sau đây là phần trình bày chi tiết về các giải pháp nén theo các hướng tiếp cận trên cùng với các phân tích đánh giá. 2.6.2.1. Mã hóa khối cùng biến đổi không gian màu và định hƣớng cải tiến a) Đánh giá giải pháp nén AHIC – Định hướng nghiên cứu cải tiến Vào tháng 2 năm 2009, hai tác giả J. Wang và J. W. Chong đề xuất một giải pháp nén có tên AHIC (Advanced Hybrid Image Codec) dựa trên sự kế thừa và phát triển của hai giải pháp nén đã được chính họ đề xuất trước đó là HIC (Hybrid Image Coding) và HCRIC (High Compression Ratio Image Coding). Quy trình xử lý trong sơ đồ AHIC encoder gồm các công đoạn chính (xem Hình 2.27, trang 50) sau: (1) Chuyển đổi không gian màu từ RGB sang YCbCr (2) Giảm độ phân giải của thành phần tín hiệu màu Cb và Cr xuống 4 lần theo cả hai chiều (Downsampling 4 lần theo cột và 4 lần theo dòng), kết quả số mẫu tín hiệu (hay điểm ảnh) trên Cb và Cr giảm đi 16 lần. Hay nói cách khác là cứ 4×4 điểm màu Cb hay Cr đầu vào sau quá trình downsampling chỉ còn lại 1 điểm. (3) Nén 8 khối dữ liệu ảnh độ chói Y (kích thước mỗi khối là 4×4) bởi phương pháp AQC 3bit/value nhằm giữ cho thành phần độ chói Y có chất lượng cao. Sơ đồ khối bộ mã hóa AQC do J. Wang và J. W. Chong đề xuất được mô tả khá chi tiết qua Hình 2.25, với mỗi khối ảnh đầu vào kích thước 4x4. Các bước gồm: tìm giá trị Min và Max của khối, xác định giá trị khác biệt Diff = Max-Min và Qstep = Diff/7. Từ đó các giá trị đầu vào được lượng tử hóa qua công thức Code = (Input – Min)/Qstep. Giá trị khôi phục được tính qua công thức Decode = Min + Code*Qstep (nguồn [23]). Đầu ra của bộ mã hóa AQC sẽ gồm 16 giá trị mã hóa điểm ảnh (mỗi giá trị 3bit) và giá trị Min (8bit) cùng bước lượng tử Qstep (5bit). Với 8 khối đầu vào bộ AQC sẽ có 8 giá trị Min sau mã hóa AQC. Tiếp đến là công đoạn nén 8 giá trị Min với dung lượng 64 bit bởi bộ AQC thứ hai để chỉ còn 37 bit. 48 Song song với công đoạn xử lý Y là công đoạn nén các khối dữ liệu màu Cb và Cr (kích thước mỗi khối là 8x1), với phương pháp BTC (ở đây là phương pháp BTC tối ưu hóa MSE hay còn được nhiều tác giải gọi là New BTC) với kết quả chỉ còn lại chỉ 24 bit cho mỗi thành phần màu. Hình 2.25. Sơ đồ khối của bộ mã hóa AQC ([23]) Kết quả, từ khối dữ liệu đầu vào với kích thước 32 cột × 4 dòng, dung lượng , đầu ra chỉ còn lại ( ) , từ đó AHIC đạt được tỷ số nén là Chất lượng ảnh nén mà AHIC đạt được thể hiện qua Bảng 2.5 [19], có thể thấy AHIC đạt được kết quả vượt trội hơn giải pháp nén ảnh chỉ áp dụng kỹ thuật mã hóa kinh điển BTC khi đánh giá trên độ đo chất lượng PSNR. Đồng thời chất lượng ảnh nén khi quan sát cũng ít bị hiệu ứng nhiễu khối so với giải pháp BTC như thể hiện trong Hình 2.26. Bảng 2.5 Chất lượng nén trung bình của AHIC so với giải pháp chỉ áp dụng kỹ thuật lượng tử hóa BTC [19] (a) (b) (c) (d) Hình 2.26. Chất lượng ảnh nén của giải pháp AHIC được so sánh với giải pháp chỉ áp dụng kỹ thuật BTC [19]. (a) & (b) Ảnh gốc. (c) AHIC. (d) BTC. 49 Có thể nói AHIC đã sử dụng một kiến trúc hỗn hợp (hay lai ghép) của phương pháp lượng tử hóa truyền thống BTC với phương pháp lượng tử thích nghi AQC nhằm đạt được chất lượng ảnh cao trên thành phần ảnh độ chói vốn rất nhạy cảm với thị giác người, tỷ số nén đạt được ở thành phần Y chỉ là . Trong khi đó thành phần màu Cb và Cr, vốn kém nhạy cảm với hệ thống thị giác của con người, đã được xử lý qua hai công đoạn là giảm mẫu và mã hóa BTC để đạt được một tỷ số nén rất cao là . Đánh giá các ưu điểm của AHIC: (1) Đạt đƣợc tỷ số nén cao, , (2) Kiến trúc thực thi không quá phức tạp. Chính yếu là các bộ mã hóa và giải mã gồm: 4×4 AQC (xử lý với 16 giá trị Y đầu vào); 8x1 AQC (xử lý với 8 giá trị Min đầu vào); và 8x1 BTC (xử lý với 8 giá trị Cb hoặc Cr đầu vào). Cùng với các môđul biến đổi không gian màu và Down/Up Sampling. Toàn bộ hệ thống có thể được xử lý trên kiến trúc 8 bít. (3) Chất lƣợng nén khá cao. Nhất là khi đánh giá trên độ đo PSNR. Không mắc phải hiện tượng nhiễu khối trầm trọng như giải pháp BTC như thể hiện trong Hình 2.26. Đánh giá một số nhược điểm của AHIC: (1) Hiệu ứng nhiễu khối (blocking effect). Nguyên nhân chính nằm ở công đoạn nén 8 RGBtoYCbCr 32x4 Block Y 4x4 AQC Encoder 8x1 Min 8x1 AQC 37 bits Encoder 424 bits (Qstep & coded data) Cb 1:4 down sampling 8x1 block Cr 1:4 down sampling 8x1 block BTC Encoder 24 bits Coded Cb BTC Encoder 24 bits Coded Cr 4 line buffer RGB (24 bits) 4 line buffer giá trị Min như thể hiện trong Hình 2.27. RGB (24 bits) Encoder 4x4 AQC Decoder Y 24 bits Coded Cb BTC Decoder 8x1 block 1:4 up sampling Cb 24 bits Coded Cr BTC Decoder 8x1 block 1:4 up sampling Cr YCbCrtoRGB 8x1 AQC 8x1 Min Decoder 424 bits (Qstep & coded data) 37 bits 32x4 Block Decoder Hình 2.27. Sơ đồ giải pháp nén AHIC. Với 2 khối 8×1 AQC Encoder và Decoder là nguyên nhân chính gây ra hiện tượng nhiễu khối làm suy giảm chất lượng ảnh. Ở đây 8 giá trị Min chính là giá trị thống kê cục bộ của tín hiệu Y trong một vùng ảnh kích thước 4×4, xét về mặt tín hiệu thì giá trị thống kê cục bộ Min là một giá trị kém ổn định so với các giá trị thống kê khác như mean (trung bình) hay median (trung vị). Chính vì tính kém ổn định nên 8 giá trị Min sẽ có xu hướng khác biệt nhau rất lớn, mà 50 khi 8 giá trị khác biệt càng lớn thì lượng tử hóa 8 giá trị này với bộ lượng tử 8x1 AQC 3bit/value sẽ phát sinh sai số càng cao. Sử dụng các giá trị Min khôi phục để giải nén cho các khối 4×4 sẽ khiến những sai số tiềm ẩn trong giá trị Min tác động đồng thời lên 16 giá trị điểm ảnh trong khối, khi giá trị sai số lớn sẽ tạo ra những khối nhiễu 4×4 trên ảnh, các khối nhiễu này xuất hiện một cách ngẫu nhiên làm suy giảm đáng kể chất lượng ảnh nén trên phương diện độ đo chất lượng ảnh PSNR cũng như trên phương diện thị giác khi quan sát ảnh khôi phục, nhất là khi quan sát trên một chuỗi hình chuyển động thì các khối nhiễu sẽ ẩn hiện ngẫu nhiên nên rất nhạy cảm với mắt người. Hình 2.28 thể hiện rõ sự xuất hiện ngẫu nhiên của nhiễu khối trên ảnh. (a) Ảnh gốc (b) Ảnh khôi phục của AHIC (c) Ảnh sai số được khuếch đại 12 lần và hiển thị với kích thước 50% Hình 2.28. Hiện tượng nhiễu khối (blocking effect) trên ảnh khôi phục của AHIC. Ảnh (c) là sai số giữa ảnh gốc và ảnh khôi phục được khuếch đại 12 lần và biến đổi âm bản. (2) Chất lƣợng nén đánh giá trên hai thành phần màu Cb và Cr trong nhiều tình huống cho chất lƣợng thấp. Nhất là với các ảnh có độ nét cao và nhiều chi tiết màu sắc như trong Hình 2.29. Nguyên nhân xuất phát từ quá trình xử lý giảm độ phân giải cho Cb và Cr với tỷ số quá lớn. Cộng với kỹ thuật mã hóa BTC áp dụng cho tín hiệu Cb và Cr cũng làm phát sinh sai số lớn trên ảnh khôi phục. 51 (a) Ảnh gốc (b) Ảnh khôi phục của AHIC (c) Ảnh sai số được khuếch đại 12 lần và hiển thị với kích thước 50% Hình 2.29. Hiện tượng kém chất lượng trên thành phần màu sắc (Cb và Cr) trên ảnh khôi phục của AHIC. Ảnh (c) là sai số giữa ảnh gốc và ảnh khôi phục được khuếch đại 12 lần và biến đổi âm bản. Định hướng nghiên cứu cải tiến cho AHIC: (1) Nghiên cứu cải tiến kỹ thuật lượng tử AQC thích nghi theo giá trị Min, vốn là một giá trị thiếu tính ổn định trong tín hiệu, thành kỹ thuật lượng tử thích nghi theo giá trị Mean có tính ổn định cao. Từ đó sẽ giúp khắc phục hiện tượng nhiễu khối như đã được chỉ ra ở phần trên. (2) Nghiên cứu kết hợp với các giải pháp lượng tử hóa tối ưu nhằm tối ưu chất lượng ảnh. (3) Nghiên cứu cải tiến giải pháp cho phép tránh việc hạ thấp độ phân giải quá mức ở hai thành phần màu Cb và Cr song vẫn giữ được tỷ số nén cao vốn có của AHIC, để có được điều này chúng ta cần tránh cố định tỷ số nén thấp cho Y và rất cao cho Cb và Cr như cách làm của AHIC. b) Đánh giá giải pháp nén AM-BTC 52 Giải pháp nén AM-BTC (Adaptive Multi-level Block Truncation Coding), được J. Wang và J. W. Chong đề xuất vào tháng 5 năm 2010 [21]. Đây là một cải tiến của SBBBTC bằng cách kết hợp song song hai bộ mã hóa SBB-BTC-2-level và SBB-BTC-4-level, đầu ra tốt nhất của một trong hai bộ mã hóa trên sẽ được chọn lựa. Bằng cách này sẽ cải thiện được hơn nữa chất lượng ảnh so với giải pháp SBB-BTC, song kiến trúc của nó cũng phức tạp hơn nhiều so với SBB-BTC bởi phải bổ sung thêm một bộ nén và giải nén cho SBB-BTC-4-level, một bộ chọn lựa để chọn lựa một trong hai kết quả đầu ra của hai bộ mã hóa trên. Sơ đồ khối cũng như kiến trúc của bộ mã hóa AM-BTC được thể hiện trong Hình 2.30. Có thể thấy AM-BTC là một cách tiếp cận hoàn toàn khác với AHIC, và là một cách áp dụng sáng tạo kỹ thuật BTC cho lượng tử hóa ảnh màu nhằm đạt được tỷ số nén cao, và chất lượng vượt trội hơn so với những giải pháp trước đó như thể hiện trong Bảng 2.6. (a) Sơ đồ khối của AM-BTC (b) Kiến trúc của bộ mã hóa AM-BTC Hình 2.30 Sơ đồ khối và kiến trúc của AM-BTC Bảng 2.6. Chất lượng ảnh khôi phục của một số giải pháp nén – đánh giá theo độ đo PSNR (dB) [21]. Sau đây luận án sẽ phân tích đánh giá một số ưu và nhược điểm của AM-BTC. Đánh giá các ưu điểm của AM-BTC: (1) Đạt đƣợc tỷ số nén cao, . 53 (2) Kiến trúc thực thi không quá phức tạp. Có thể thấy rằng nếu đem so sánh với những giải pháp có tỷ số nén tương đương đã được đề xuất trước đó như AHIC hay VQ-BTC thì độ phức tạp của kiến trúc thực thi cho AM-BTC không quá chênh lệch. Độ phức tạp tính toán khá cao trong kỹ thuật BTC-2-level và BTC-4-level cho một khối ảnh màu, cũng như yêu cầu phải có đến 2 bộ lượng tử để thực hiện song song cùng lúc cho cùng một tín hiệu đầu vào. Nhưng bù lại kiến trúc AM-BTC lại không yêu cầu các bộ chuyển đổi không gian màu và các bộ Down/Up sampling như trong AHIC. (3) Chất lƣợng ảnh nén khá cao. Nhất là khi đánh giá trên độ đo PSNR thì AM-BTC có giá trị vượt trội so với AHIC, VQ-BTC, FBTC và BTC. Đánh giá một số nhược điểm của AM-BTC: (1) Hiệu ứng khối: (a) Ảnh gốc (b) Ảnh khôi phục của AHIC (c) Ảnh sai số khuếch đại 12 lần Hình 2.31. Ảnh khôi phục của AM-BTC và sai số của nó. Ảnh (c) là sai số giữa ảnh gốc và ảnh khôi phục được khuếch đại 12 lần và biến đổi âm bản. Các hình ảnh được hiển thị với kích thước 50%. Do BTC-2-level và BTC-4-level là một dạng kỹ thuật BTC cải tiến để tăng tỷ số nén trên ảnh màu. Nên cũng giống như BTC, kỹ thuật BTC-2-level và BTC-4-level sẽ cho chất lượng cao ở những vùng ảnh chi tiết đường nét (chuyển đổi đột ngột) hoặc những vùng ảnh nền (không thay đổi), song lại cho chất lượng thấp ở những vùng ảnh có sự thay đổi liên tục về màu sắc hay độ sáng một cách mượt mà. Điều đó khiến cho mắt người dễ cảm nhận trạng thái hình ảnh bị phân khối, không được trơn mượt ở những vùng ảnh có sự biến thiên mượt mà, ví dụ như phần ảnh trên khuôn mặt trong Hình 2.31 chẳng hạn. (2) Hiệu ứng rung động (vibration). Khi quan sát trên một chuỗi khung hình thì hiện tượng rung động bập bùng, như khi chúng ta nhìn xuyên qua vùng không khí nóng gần đống lửa, xảy ra ở những vùng ảnh có nhiều chi tiết nhỏ nhưng gần như đứng yên (có nghĩa là chỉ số ít các điểm ảnh có sự thay đổi nhỏ về mặt cường độ, còn phần lớn các điểm ảnh còn lại giữ nguyên giá trị theo thời gian), ví dụ như vùng 54 ảnh nền sân cỏ trong chuỗi khung hình Footbal hay Cheerleaders (là những chuỗi khung hình được tham chiếu trong cơ sở dữ liệu [34]). Hình 2.32 cho thấy hiện tượng rung động trong giải pháp nén AM-BTC, sự rung động được thể hiện qua sự khác biệt lớn giữa hai khung hình khôi phục so với sự khác biệt giữa hai khung hình gốc. Điều tương tự không xảy ra với giải pháp nén AHIC. Nguyên nhân của hiện tượng rung động này bắt nguồn từ cơ chế lựa chọn kết quả mã hóa đầu ra tối ưu từ hai bộ mã hóa BTC-2-level và BTC-4-level của AM-BTC. Chỉ cần một thay đổi nhỏ trong khối 4×4 đầu vào có thể sẽ làm đảo ngược kết quả lựa chọn đầu ra giữa BTC2-level và BTC-4-level, trong khi khối khôi phục của BTC-2-level và BTC-4-level nói chung là sẽ khác biệt nhau khá lớn. Đó là lý do tạo nên sự rung động trên một số vùng ảnh. (a) Sự khác biệt giữa hai khung hình gốc (c) Sự khác biệt giữa hai khung hình khôi phục của giải pháp nén AM-BTC (khuếch đại lên 6 lần) (b) Khuếch đại (a) lên 6 lần (d) Sự khác biệt giữa hai khung hình khôi phục của giải pháp nén AHIC (khuếch đại lên 6 lần) Hình 2.32. Minh chứng cho hiện tượng rung động trong giải pháp nén AM-BTC. Sự rung động được thể hiện qua sự khác biệt lớn giữa hai khung hình khôi phục so với sự khác biệt giữa hai khung hình gốc. Điều tương tự không xảy ra với giải pháp nén AHIC. Ảnh được lấy từ khung hình thứ 300 và 301 trong chuỗi khung hình 3inrow tham chiếu trong [34]. 55 (3) Chất lƣợng thành phần độ chói trên ảnh khôi phục không cao. Trong khi độ chói lại rất nhạy cảm với hệ thống thị giác của con người. Có hai nguyên nhân dẫn đến điều này: thứ nhất là do cơ chế nén xử lý trực tiếp trên ba thành phần màu R, G, và B một cách bình đẳng mà không có sự phân biệt và ưu tiên cho thành phần độ chói so với thành phần màu. Thứ hai đó là trong cơ chế chọn lựa kết quả tối ưu giữa BTC-2-level và BTC-4-level đã không sử dụng độ đo MSE mà sử dụng độ đo SAD (the sum of the absolute difference of original and decoded images), nói cách khác là việc chọn lựa đầu ra phụ thuộc vào tổng của trị tuyệt đối của sự khác biệt giữa ảnh gốc và ảnh giải nén. Với một khối có N điểm được nén và giải nén để thu được , thì độ đo SAD trên hai khối này sẽ là: ∑ | ( ) − ( )| Ở đây chúng ta thấy hai tác giả đã chọn lựa độ đo SAD để đánh giá chất lượng nén của hai bộ phận BTC-2-level và BTC-4-level thay vì sử dụng độ đo thông dụng trong lĩnh vực nén ảnh nói riêng và xử lý ảnh nói chung là MSE (Mean Squared Error) có dạng: ∑ ( ( ) − ( )) Độ đo SAD mà hai tác giả sử dụng có ưu điểm là tính toán đơn giản do không phải thực hiện phép tính lũy thừa N lần như trong độ đo MSE. Song đó cũng chính là nhược điểm của nó. Bởi SAD không lũy thừa các sai số mà chỉ cộng các trị tuyệt đối sai số lại. Cách tính này sẽ dẫn đến khả năng chấp nhận những khối ảnh được mã hóa với sai số rất lớn trên một vài điểm ảnh, trong khi lại loại bỏ kết quả nén với sai số bé trên nhiều điểm ảnh. Ví dụ một khối có kích thước 4×4 được mã hóa và giải mã theo hai cách để cho ra hai kết quả với sai số lần lượt là: E1 = [1 1 0 -1 0 1 0 0 1 1 0 1 1 1 0 1] E2 = [0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0] Lúc này SAD(E1) = 12, SAD(E2) = 10, MSE(E1) = 12/16 = 0.75 và MSE(E2) = 100/16 = 6.25. Nếu sử dụng độ đo SAD chúng ta sẽ đi đến chọn lựa kết quả nén thứ 2 làm kết quả nén khối ảnh tốt nhất. Đây là một chọn lựa không phù hợp với thị giác người, bởi thị giác người rất kém nhạy cảm với những khác biệt nhỏ về độ sáng (hay màu sắc), song với những giá trị khác biệt tương đối lớn thì mắt người dễ dàng nhận thấy chúng trên ảnh. Vì vậy kết quả tốt nhất theo thị giác người mà chúng ta nên chọn không phải là kết quả giải nén thứ hai, với sai số bên trong E2 được tạo ra bởi một giá trị sai số có độ lớn 10, là một giá trị khá lớn nên có thể dễ dàng nhận thấy trên ảnh, mà phải là kết quả nén thứ nhất với sai số E1, dù nó có nhiều sai số bên 56 trong song hầu như những sai số với biên độ ±1 thì mắt người không thể nhận thấy. Độ đo MSE thể hiện rõ khả năng đánh giá chất lượng phù hợp với thị giác của con người. Với MSE, sai số tác động lên kết quả đánh giá theo dạng lũy thừa, từ đó đưa đến chiến lược: “thà chấp nhận nhiều sai số nhỏ dễ bỏ qua còn hơn chỉ một sai số nhưng lớn đến mức có thể làm nhức mắt!”. Với độ đo SAD đã đưa đến kết quả nén xuất hiện nhiều giá trị sai số lớn, gây tác động xấu lên độ chói của ảnh khôi phục. (4) Một ưu điểm song cũng là nhược điểm nữa của giải pháp nén AM-BTC đó là xử lý trực tiếp trên ảnh màu RGB, bởi kỹ thuật mã hóa BTC 2-level hoặc 4-level với lập luận rằng cả 3 thành phần R, G và B có thể dùng chung một mặt phẳng bit mã hóa (Bit Plane). Lập luận này không có cơ sở lý luận nào ngoài nhận định chủ quan của tác giả, vì thế qua thực nghiệm có thể thấy chất lượng ảnh chưa thật sự tốt trong nhiều tình huống. Hơn nữa giải pháp này không chú trọng đến chất lượng thành phần độ chói, vốn là thành phần rất nhạy cảm với mắt người. 2.6.2.2. Mã hóa dựa trên phép biến đổi wavelet (DWT) và lựa chọn thích nghi Nổi bật theo hướng tiếp cận này là giải pháp DAMS. Đây là giải pháp nén thực hiện trên nền tảng biến đổi wavelet rời rạc hai chiều kết hợp với mô hình chọn lựa phương thức mã hóa thích nghi với tên gọi DAMS (DWT-Based Adaptive Mode Selection), được đề xuất bởi Haksub Kim và Sanghoon Lee vào tháng 5 năm 2011 [5]. (a) (b) Hình 2.33. Mô hình hệ thống của DAMS và bộ mã hóa thích nghi. (a) Mô hình hệ thống. (b)bộ mã hóa thích nghi DAMS khi chưa có bộ phận kiểm soát nhằm ổn định tỷ số nén (nguồn [5]). Mô hình hệ thống DAMS được thể hiện qua Hình 2.33 (a), với các bộ phận xử lý cơ bản gồm: hai khối lần lược thực hiện biến đổi không gian màu thuận (RGB to YCbCR) và nghịch (YCbCr to RGB); hai khối thực lần lượt hiện biến đổi wavelet rời rạc hai chiều thuận (DWT) và nghịch (IDWT); hai khối thực lần lượt hiện mã hóa (Encoder) và giải mã (Decoder) theo cơ chế lựa chọn thích nghi trên cơ sở đa chế độ lượng tử như thể hiện trong Hình 2.33 (b), trong đó Threshold là giá trị ngưỡng giúp lựa chọn kết quả nén đầu ra của 57 mode thấp nhất (tức tỷ số nén cao nhất) có sai số đo theo độ đo RMSE (Root Mean Square Error) thấp hơn giá trị ngưỡng, và giá trị ngưỡng được xác định là Rth = 4.5 (nếu đổi sang độ đo PSNR sẽ tương ứng với 35 dB). Để có thể áp dụng giải pháp nén vào hệ thống overdrive trong màn hình tinh thể lỏng các tác giả đã đưa ra một giải thuật kiểm soát số bit đầu ra của bộ mã hóa (Encoder) nhằm cố định tỷ số nén , thuật toán xử lý được hai tác giả đưa ra chi tiết trong bài báo. Có thể thấy DAMS là một giải pháp nén có quy trình xử lý khá phức tạp. Giải pháp này sử dụng biến đổi wavelet hai chiều cho 8 dòng ảnh, đo đó đòi hỏi sử dụng một bộ đệm 8-line, đồng thời sử dụng bộ lọc Daubechies 4/4 - hệ số định dạng số thực. Sau đó ảnh trên các băng tần LL, LH, HL, HH được chia vào các khối có kích thước 4x8 rồi được sắp xếp theo một trật tự ưu tiên đã định trước. Tiếp đến là áp dụng mô hình nén song song nhiều chế độ (mode) để sau đó chọn lựa ra chế độ mã hóa có tỷ số nén cao nhất và chất lượng nén thỏa mãn giá trị ngưỡng Rth=4.5. Cùng với cơ chế kiểm soát chặt để đảm bảo dung lượng bit nén không vượt quá giá trị được cho phép bởi tỷ số nén 6:1. Các kết quả thực nghiệm chỉ ra rằng DAMS cho kết quả khá cao so với các giải pháp SBTC, VQ-BTC và AHIC khi đánh giá trên thang đo PSNR (nguồn [5]). Qua phân tích lý thuyết và thực nghiệm chúng tôi nhận thấy DAMS có một số ưu và nhược điểm sau: Đánh giá các ưu điểm của DAMS: (1) Đạt đƣợc tỷ số nén cao , . (2) Chất lƣợng nén vƣợt trội, khi so sánh với các giải pháp nén có tỷ số nén tương đương. (3) Có khả năng thích nghi theo sự thay đổi của tín hiệu ảnh. Với cơ chế chọn lựa chế độ (mode) mã hóa lượng tử một cách thích nghi cộng với khả năng kiểm soát tỷ số nén phù hợp đã tạo ra khả năng thích nghi của giải pháp nén theo sự biến đổi của nội dụng ảnh. Đây chính là ưu điểm nổi bật của DAMS. Đánh giá một số nhược điểm của DAMS: (1) Bị hiệu ứng khối (blocking) và nhiễu đốm (noise). Trong phần lớn các trường hợp ảnh có sự chuyển biến màu sắc chậm và liên tục trên một vùng ảnh (hay còn được gọi là gradient màu) thì kết quả nén đều mắc phải hiệu ứng khối (xem Hình 2.34 (b)), điều này có nguyên nhân nằm ở độ ưu tiên thấp của thành phần màu so với thành phần độ chói và cơ chế kiểm soát tỷ số bit có thể sẽ hạ mode mã hóa của các MB (macroblock) màu xuống dưới mức tiêu chuẩn (hay chất lượng thấp hơn mức 58 ngưỡng), khi các MB được mã hóa với chất lượng thấp sẽ tạo nên hiệu ứng khối trên ảnh khôi phục. Trong khi đó tại các vùng ảnh có nhiều chi tiết thì các MB ứng với thành phần độ chói sẽ đòi hỏi phải được nén với tỷ số nén thấp (hay mode cao), đồng nghĩa với việc phải sử dụng một lượng bit lớn để mã hóa những MB này, nhưng vào những thời điểm quỹ bit bị thu hẹp thì yêu cầu này sẽ không thể được đáp ứng, dẫn đến chất lượng nén kém, cộng với tác động của biến đổi wavelet ngược (IDWT) sẽ gây ra hiệu tượng noise (xem Hình 2.34 (e)). Việc tăng hay giảm giá trị ngưỡng Rth luôn mang lại tác động hai mặt, ví dụ khi chúng ta tăng ngưỡng lên Rth=2.55 (tương ứng với mức chất lượng mong đợi trên các MB là PSNR=40dB) thì sẽ cải thiện được hiệu ứng khối nhưng lại làm tăng hiện tượng nhiễu (xem Hình 2.34 (c)&(f)). (2) Độ phức tạp tính toán hay kiến trúc thực thi yêu cầu ở mức cao. Nhất là hệ thống yêu cầu phải thực hiện biến đổi wavelet rời rạc trên hai chiều với bộ lọc Daubechies 4/4 - hệ số trên trường số thực, cùng với chế độ lượng tử hóa thích nghi AQC cũng yêu cầu phải tính toán trên trường số thực dấu phẩy tĩnh (với 2 bit cho phần lẻ). Bên cạnh đó yếu tố kích thước bộ đệm dòng đòi hỏi đến 8-line, một giá trị lớn gấp đôi so với các giải pháp nén thông thường khác. (3) Hiệu xuất sử dụng quỹ bit còn thấp. Như thể hiện qua Hình 2.35, số bit dư thừa còn khá cao. (a) Ảnh Parrots và một vùng trên ảnh gốc được phóng lớn (b) Ảnh khôi phục với Rth= (c) Ảnh khôi phục với Rth= 4.5 (hay PSNR = 35dB) 2.55 (hay PSNR = 40dB) (d) Ảnh Bikes và một vùng trên ảnh gốc được phóng lớn (e) Ảnh khôi phục với Rth= (f) Ảnh khôi phục với Rth= 4.5 (hay PSNR = 35dB) 2.55 (hay PSNR = 40dB) Hình 2.34. Hiệu ứng khối (blocking) và nhiễu (noise) trên ảnh khôi phục của DAMS. 59 Hình 2.35. Số bit dư thừa khi kết thúc quá trình nén của DAMS Định hướng nghiên cứu cải tiến cho DAMS: 1. Nghiên cứu tích hợp kỹ thuật ngưỡng thích nghi thay thế kỹ thuật ngưỡng cố định trong DAMS. Nhằm tăng cường khả năng thích nghi cho giải pháp nén cũng như khắc phục tính hai mặt của giá trị ngưỡng cố định, tăng hiệu suất sử dụng quỹ bit. 2. Nghiên cứu cải thiện độ phức tạp tính toán cũng như kiến trúc thực thi của DAMS thông qua các giải pháp:  Nghiên cứu áp dụng kỹ thuật biến đổi wavelet lifting integer to integer với độ phức tạp tính toán thấp và thực hiện trên trường số nguyên.  Nghiên cứu cải thiện hay thay thế kỹ thuật lượng tử hóa thích nghi AQC tính trên trường số thực bởi một kỹ thuật lượng tử tối ưu hơn và có khả năng xử lý trên trường số nguyên. 60 CHƢƠNG 3: PHÂN TÍCH VÀ ĐỀ XUẤT MỘT SỐ GIẢI PHÁP NÉN ẢNH DỰA TRÊN MÃ HÓA KHỐI VÀ BIẾN ĐỔI KHÔNG GIAN MÀU Điển hình cho các giải pháp nén ảnh áp dụng kỹ thuật mã hóa khối kết hợp biến đổi không gian màu chính là AHIC. Một số hạn chế hay khuyết điểm của nó đã được chỉ ra trong mục 2.6.2.1. Trong chương này, luận án sẽ đi sâu phân tích để tìm nguyên nhân của các khuyết điểm còn tồn đọng, từ đó nghiên cứu phân tích và đề xuất các giải pháp cải tiến theo các định hướng đã được nêu ra trong mục 2.6.2.1 nhằm nâng cao hiệu năng nén. 3.1. Nghiên cứu cải tiến và phát triển giải pháp nén ảnh dựa trên mã hóa khối và biến đổi không gian màu 3.1.1. Tóm tắt 6 giai đoạn nghiên cứu phát triển giải pháp Phần này trình bày tóm tắt 6 giai đoạn nghiên cứu cải tiến và phát triển có tính kế thừa từng bước của luận án, theo hướng nghiên cứu áp dụng mã hóa khối và biến đổi không gian màu, các mục tiếp theo sẽ trình bày chi tiết các phân tích và đề xuất. AHIC Chuyển tín hiệu về dạng zero-mean, áp dụng MUQ thay thế AQC MAIC AAIC AHAIC Cải tiến hàm phân phối CBBDT dựa trên giá trị Max(Bloc) ACAIC Đề xuất hàm phân phối RBBDT, Hàm lượng tử MMAUQC, và mô hình mã hóa MAQC RAIC Áp dụng mô hình đa thích nghi đồng bộ cho cả ba thành phần Y, Cb, và Cr dựa trên cải tiến MAQC ARAIC Hình 3.1. Sơ đồ mô tả sơ lược các bước nghiên cứu phát triển. 61 Theo hướng nghiên cứu áp dụng mã hóa khối và biến đổi không gian màu, luận án đã có nhiều đề xuất cải tiến cũng như đề xuất kết hợp một số kỹ thuật trao đổi hay phân phối bit nhằm tối ưu hóa chất lượng ảnh nén. Trải qua 5 giai đoạn nghiên cứu với dấu mốc là 5 đề xuất cải tiến có tính kế thừa và phát triển từng bước một gồm MAIC (Mean Adaptive Image Coding), AAIC (Advanced Adaptive Image Coding), AHAIC (Advanced HighAdaptive Image Coding), ACAIC (Advanced Content-Adaptive Image Coding), RAIC (Robust Adaptive Image Coding). Giai đoạn sau cùng tập trung cho những nghiên cứu đánh giá ưu nhược điểm của các kết quả đã đạt được ở những giai đoạn trước, phân tích và tổng hợp, nghiên cứu hiệu chỉnh mô hình xử lý để có thể tích hợp các ưu điểm trong các mô hình phát triển trước đó. Từ đó tổng hợp và đề xuất một giải pháp nén ảnh khung hình có hiệu năng vượt trội với tên gọi ARAIC (Advanced Robust Adaptive Image Coding) (xem Hình 3.1). 3.1.2. Môi trƣờng thực nghiệm cài đặt và các bộ dữ liệu Tất cả các nghiên cứu cải tiến trình bày trong sơ đồ Hình 3.1, cũng như các nghiên cứu trình bày trong những phần khác của luận án, đều được cài đặt lập trình và thực nghiệm.  Môi trƣờng lập trình: Matlab và Simulink  Môi trƣờng cài đặt: máy tính PC  Các bộ dữ liệu: Dữ liệu cho quá trình nghiên cứu đánh giá của toàn bộ luận án là một tập hợp các hình ảnh và các chuỗi khung hình (với tổng số 8765 ảnh) chuyên dùng cho việc đánh giá thực nghiệm trong lĩnh vực xử lý ảnh và video, được lấy từ các trung tâm nghiên cứu hàng đầu về xử lý ảnh và video qua các địa chỉ website sau:  http://trace.eas.asu.edu/yuv/index.html: thuộc đại học bang Arizona (Arizona State University) [33] (xem Bảng 3.1).  ftp://vqeg.its.bldrdoc.gov/MM/cif/: thuộc nhóm các chuyên gia trong lĩnh vực chất lượng video (Video Quality Experts Group - VQEG) [34] (xem Bảng 3.1).  http://live.ece.utexas.edu/research/quality/subjective.htm: thuộc phòng thí nghiệm hình ảnh và kỹ thuật video (Laboratory for Image and Video Engineering - LIVE) thuộc đại học Texas [6] (xem Bảng 3.2). Có thể thấy tình huống điển hình của bài toán nén ảnh khung hình, cho hệ thống màn hình tinh thể lỏng độ phân giải cao, chính là yêu cầu nén lần lượt các khung hình trong một chuỗi khung hình động (hay video), mà người dùng đang xem trên ti-vi tinh thể lỏng chẳng hạn, và đấy chính là lý do chúng ta cần phải tiến hành thực nghiệm các giải pháp nén ảnh khung hình không chỉ trên các bức ảnh rời rạc mà cần thiết phải tiến hành nén với 62 các khung hình trong chuỗi khung hình và tái hiện chúng một cách liên tục để quan sát những tác động tiêu cực mà giải pháp nén có thể mang lại đối với thị giác người quan sát. Một lợi điểm của việc nén và tái hiện các hình ảnh trong một chuỗi khung hình là giúp chúng ta dễ dàng nhận ra một số hiệu ứng tiêu cực về thị giác mà một số giải pháp nén có thể mắc phải như nhiễu đốm, nhiễu khối, rung,… mà khi quan sát trên một ảnh tĩnh chúng ta khó nhận ra và đánh giá không đúng mức độ tác động của nó với thị giác người. Các bộ dữ liệu thực nghiệm trong luận án hội tụ đầy đủ các đặc tính thiết yếu cho việc kiểm nghiệm các giải pháp nén ảnh khung hình cho màn hình tinh thể lỏng. Trong đó chứa nhiều hình ảnh và chuỗi khung hình video với độ nét và độ chi tiết cao, chúng sẽ tạo ra những thách thức lớn cho các giải pháp nén ảnh và làm cho nhiều giải pháp nén ảnh khung hình đã được đề xuất bộ lộ rõ những yếu điểm khi các kết quả thực nghiệm được thể hiện đồng thời qua ảnh tĩnh và cả ảnh động. Điển hình trong số đó là các chuỗi khung hình MobileCalendar, Cheerleaders, Paris, và các hình ảnh Parrots, Womanhat, và Building2 (xem Bảng 3.1 và Bảng 3.2). Các mục tiếp theo trong chương này sẽ trình bày chi tiết về các đề xuất kỹ thuật và giải pháp mới của luận án như đã được trình bày trong Hình 3.1. Bảng 3.1. Các chuỗi khung hình định dạng CIF (kích thước 352×288) sử dụng trong thực nghiệm (nguồn [33] và [34]). Foreman Hall Football MobileCalendar Cheerleaders FlowerGarden BetesPasBetes LePoint Paris 3inrow WashDC Vtc1nw Vtc1nw FlamingoHilton Bus Coastguard News MotherDaughter 5row1 vtc2mp CaesarsPalace Redflower Container Waterfall stefan 63 Bảng 3.2. Các hình ảnh sử dụng trong thực nghiệm được lấy từ tập dữ liệu ảnh “LIVE image quality assessment database release 2”(nguồn [6]). Bikes Buildings Building2 Rapids Caps House Lighhouse2 Sailing1 Sailing4 Parrots Monarch Ocean Plane Woman Womanhat Lighhouse2 Sailing2 Sailing3 Statue 3.2. Khắc phục hiện tƣợng nhiễu khối trong AHIC với đề xuất cải tiến MAIC 3.2.1. Nhiễu khối trong AHIC – Nguyên nhân và giải pháp khắc phục Như đã phân tích trong mục 2.6.2.1 a), nguyên nhân chính của hiện tượng nhiễu khối trong AHIC là do sai số phát sinh khi nén 8 giá trị Min. Để tránh hiện tượng này chúng tôi đề xuất cải tiến quy trình xử lý thành phần độ chói Y bao gồm:  Tránh lượng tử hóa kép gây nên nhiễu khối: hay nói cụ thể là tránh tình trạng lượng tử hóa dữ liệu đầu ra của một quy trình lượng tử hóa, như cách đã thực hiện trong AHIC là lượng tự hóa 8 giá trị Min vốn là kết quả của quá trình lượng tử hóa 8 khối ảnh kích thước 4×4 trước đó, sai số phát sinh khi khôi phục lại các giá trị Min đã tác động lên toàn bộ 4×4 phần tử trong một khối được khôi phục từ giá trị Min này và tạo nên sai số dạng khối, sai số dạng khối sẽ trở nên trầm trọng khi giá trị Min khôi phục có sai số lớn so với giá trị gốc (khoảng từ 5 đến 7 đơn vị trở lên) vì lúc này các khối ảnh khôi phục sẽ có khác biệt lớn so với các khối ảnh xung quanh và gây ra hiện tượng nhiễu khối về mặt thị giác. 64  Xây dựng phương pháp lượng tử hóa tối ưu mới dựa trên tham số thống kê trung bình (Mean) có tính ổn định cao hơn, nhằm tối thiểu hóa sai số khi lượng tử hóa các giá trị Mean. 3.2.2. Phát triển phƣơng pháp lƣợng tử tối ƣu sai số “Midrise Uniform Quantizer” Midrise Uniform Quantizer là một phương pháp lượng tử hóa được đề cập trong [3], cho phép lượng tử hóa các giá trị có phân phối xác xuất đều với sai số tối thiểu. Quy trình thực hiện như sau: Lượng tử hóa với b bit, hay L=2b là số mức lượng tử Gọi ZMI là giá trị đầu vào có dạng “zero mean signal” và QS là bước lượng tử (quantifier step size), giá trị lượng tử hóa được xác định bởi: 𝑛 ( ) (3.1) − Giá trị khôi phục: ( ) − (3.2) Hình 3.2 minh họa đồ thị của hàm lượng tử hóa Midrise Uniform Quantizer cho các giá trị đầu vào có phân phối đều trong khoảng (-a; +a) với tám mức lượng tử hóa, hay tương ứng với mức lượng tử 3bit/value, giá trị bước lượng tử hóa QS = a/4. Output +a Code=7 3.5QS Code=6 2.5QS 1.5QS -4QS -3QS -2QS -1QS Code=4 0.5QS Code=3 -a Code=2 Code=1 Code=0 Code=5 -0.5QS 1QS 2QS 3QS +a 4QS Input -1.5QS -2.5QS -3.5QS -a Hình 3.2. Đồ thị hàm lượng tử Midrise Uniform Quantizer với 8 mức lượng tử, các giá trị đầu vào có phân phối xác xuất đều trong khoảng (-a, a). Giá trị bước lượng tử QS = a/4 3.2.3. Đề xuất giải pháp cải tiến MAIC giúp khắc phục nhiễu khối Trên cơ sở nghiên cứu cải tiến quy trình xử lý thành phần độ chói Y trong AHIC theo 65 các định hướng đã nêu ở phần trên, từ đó hình thành nên giải pháp cải tiến MAIC (Mean Adaptive Image Coding) được thể hiện qua các sơ đồ trong Hình 3.3 và Hình 3.4. Có ba điểm khác biệt trong mô hình mới MAIC so với mô hình AHIC như sau: Thứ nhất, thay vì dùng giá trị Min Max là những giá trị thường thiếu ổn định do dễ bị tác động bởi nhiễu, luận án đề xuất dùng giá trị trung bình (mean) là giá trị có tính ổn định cao hơn trong tín hiệu ảnh, nó ít bị tác động bởi nhiễu. Thứ hai, thực hiện trừ giá trị tín hiệu đầu vào bởi giá trị trung bình đã giải mã (mean decoded) để thu được tín hiệu "zero mean" trước khi được lượng tử hóa với 3bit/giá trị, bằng con đường này, sẽ tránh được lượng tử hóa kép gây nên nhiễu khối mà giải pháp AHIC mắc phải. Thứ ba, sử dụng bộ lượng tử hóa MUQ (Midrise Uniform Quantizer) thay thế bộ lượng tử AQC. Mean 4x4 8 Mean &↓4x4 MUQ Encoder 37 bits Coded Mean 8x4x4 block MUQ Decoder ↑4x4 Zero mean signal Decoded mean signal - 4 line buffer RGB (24 bits) RGBtoYCbCr Y 8x4x4 block Cb 8x4x4 Block YCbCr Cr 8x4x4 block + MUQ Encoder 424 bits Coded Data Filter & ↓4x4 8x1x1 block BTC Encoder 24 bits Coded Cb Filter & ↓4x4 8x1x1 block BTC Encoder 24 bits Coded Cr (a) MAIC Encoder 37 bits Coded Mean MUQ Decoder MUQ Decoder + 8x4x4 block Y Y 24 bits Coded Cb BTC Decoder 8x1x1 block Filter & ↑4x4 8x4x4 Cb 8x4x4 block block Cb YCbCr 24 bits Coded Cr BTC Decoder 8x1x1 block Filter & ↑4x4 8x4x4 Cr block Cr YCbCrtoRGB 424 bits Coded Data ↑4x4 4 line buffer Zero mean signal RGB (24 bits) (b) MAIC Decoder Hình 3.3. Sơ đồ khối của giải pháp nén MAIC. (a) Bộ mã hóa. (b) Bộ giải mã. 4x4 Zero mean signal Midrise Uniform Code Quantizer 3bits/value 4x4 block Code 3bits/value Invert Midrise Uniform Quantizer maxv = max(|block|) 4x4 Decoded Zero mean signal qs_send 5 bits qs_send = maxv >> 3 qs_send 5 bits qs_use = (qs_send 3 qs_send 5 bits qs_send 5 bits qs_use = (qs_send và 32 thì gán Qstep = 32 Rồi tính Qstep_send = Qstep-1; và Qstep_use = Qstep_send +1 MUQ encoder  Phần khởi động: Để có được giá trị maxv cần + 1 phép tìm kiếm Max của trị tuyệt đối các giá trị đầu vào với độ phức tạp tuyến tính theo N. + Một phép dịch sang trái 3 bit để thu được giá trị Qstep_send: Qstep_send = maxv >> 3 + Một phép dịch bit và một phép cộng nhằm khôi phục giá trị lượng tử hóa sử dụng cho phần mã hóa: Qstep_use = (Qstep_send 7 thì gán Code = 7 Sẽ gồm: + N phép cộng + N phép chia lấy phần nguyên + Một phép kiểm tra và hiệu chỉnh giá trị AQC decoder  Phần khởi động: MUQ decoder  Phần khởi động: + Tính Qstep_use từ Qstep_send bằng một phép cộng. Qstep_use = Qstep_send +1 + Tính Qstep_use từ Qstep_send bằng phép dịch bit và phép cộng. Qstep_use = (Qstep_send > 1): một nửa giá trị bước lượng tử 98   ZMI   Code =   : Giá trị mã  QS  If (Code > L) then Code = L  Decoded = Code*QS + Half_QS + Min : Giá trị giải mã Trong đó: “>>” and “2 Mean_send=Mean>>2 Selector Kx8 Min_send Kx8 Mean_send If bi≠0 then Mi=Min_sendi else Mi=Mean_sendi Kx8 M value (Kx48 bits) Kx8 bi Calculate Kx8 Min Min & Mean Kx8 Mean of block Range=max(block) R_send=(Range>>2) R_use=(R_send[...]... nghiên cứu các giải pháp nén ảnh áp dụng vào trong công nghệ màn hình tinh thể lỏng vẫn đang cần các nghiên cứu cải tiến và phát triển, để ngày càng có được các giải pháp hoàn thiện hơn với hiệu năng cao hơn 4 1.3 Mục tiêu và phạm vi nghiên cứu của luận án Mục tiêu của luận án là nghiên cứu phát triển các giải pháp tiên tiến nén dữ liệu ảnh khung hình áp dụng cho màn hình tinh thể lỏng độ phân giải cao,... liệu Hình 2.8 Phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân giải cao Ở đây có một số khái niệm cần làm rõ: + Ảnh khung hình trong hệ thống overdrive, chính là một ảnh để có thể hiện thị đầy đủ trên màn hình tinh thể lỏng, có số điểm ảnh tương ứng với độ phân giải màn hình được xác định bởi nhà sản xuất Do đó ảnh khung hình của màn hình tinh thể lỏng độ phân giải. .. giá các giải pháp nén ảnh khung hình 2.4.2 Các độ đo hiệu năng giải pháp nén ảnh khung hình 2.4.2.1 Tỷ số nén Tỷ số nén ảnh là một số đo dung lượng (DL) của ảnh gốc (ảnh chưa nén) chia cho dung lượng ảnh đã được nén (hay mã hóa) và được kí hiệu là Cr (Compression Ratio): ( 𝑛 𝑛 𝑛) ( 𝑛 𝑛 𝑛) (2.1) Đối với phần lớn các giải pháp nén ảnh cho màn hình tinh thể lỏng sử dụng phương pháp mã hóa khối ảnh, có... xuất cải tiến cải thiện hiệu năng Nghiên cứu kế thừa và phát triển đề xuất các giải pháp nén mới nâng cao hiệu năng so với những giải pháp hiện đã được đề xuất Theo một số các tiêu chí đánh giá hiệu năng nén gồm: chỉ số nén, chất lượng nén, và độ phức tạp tính toán Phạm vi nghiên cứu của luận án bao gồm: 1 Nghiên cứu phát triển các giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng độ phân giải cao... của một số giải pháp nén ảnh tiên tiến đã được đề xuất áp dụng cho màn hình tinh thể lỏng Trên cơ sở đó đưa ra một số định hướng nghiên cứu cải tiến Chương 3: Nghiên cứu và phân tích sâu hơn các khuyết điểm trong một số giải pháp nén ảnh tiên tiến sử dụng nền tảng cơ bản là các kỹ thuật mã hóa khối và biến đổi không gian màu Từ đó đề xuất các kỹ thuật khắc phục áp dụng vào trong các sơ đồ giải pháp. .. lên hướng phát triển tiếp theo của luận án 8 CHƢƠNG 2: TỔNG QUAN VỀ VẤN ĐỀ NÉN ẢNH CHO MÀN HÌNH TINH THỂ LỎNG Trong chương này luận án sẽ trình bày sơ lược về lịch sử phát triển của màn hình tinh thể lỏng và kỹ thuật tăng tốc overdrive, vấn đề nén ảnh áp dụng cho hệ thống overdrive của của màn hình tinh thể lỏng, mối tương quan giữa chất lượng nén và chất lượng ảnh hiển thị trên màn hình, một số yêu cầu... sẽ kéo theo sự cải thiện về giá thành của sản phẩm màn hình tinh thể lỏng Xuất phát từ yêu cầu thực tiễn trên, nhiều nghiên cứu đã được triển khai nhằm tìm ra những giải pháp nén ảnh khung hình áp dụng phù hợp và hiệu quả trên hệ thống overdrive của màn hình tinh thể lỏng Kết quả đã có khá nhiều các giải pháp nén ảnh khung hình cho màn hình tinh thể lỏng được đề xuất qua các bài báo [[5], [9], [10],... toán nén ảnh khung hình cho màn hình tinh thể lỏng là ở khâu tái tạo và hiển thị Áp dụng các chuẩn nén ảnh/ video thông dụng: JPEG, MPEG, AVI, Quan sát không gian đối tượng chụp, quay (camera) Tái tạo và hiển thị trên màn hình tinh thể lỏng Truyền trực tiếp qua các kênh: vệ tinh, cáp, Vấn đề nén ảnh cho màn hình tinh thể lỏng phục vụ cho khâu tái tạo và hiển thị Nén dữ liệu File ảnh/ video Giải nén. .. cầu đặc trưng cho hệ thống nén ảnh trên màn hình tinh thể lỏng, tổng quan về nén ảnh nhằm giảm bộ nhớ khung hình trong màn hình tinh thể lỏng Và sau cùng là một số cơ sở lý thuyết có liên quan Kỹ thuật nén ảnh trình bày trong chương này sẽ được giới hạn trong không gian hai chiều (chiều rộng và chiều cao) 2.1 Lịch sử phát triển của màn hình tinh thể lỏng và vấn đề chất lƣợng hiện thị hình ảnh động 2.1.1... hệ thống overdrive, hoặc tiến xa hơn sẽ nghiên cứu đề xuất các giải pháp nén tiên tiến về mặt hiệu năng, nhằm mang lại hiệu quả cao khi áp dụng vào hệ thống overdrive trong màn hình tinh thể lỏng 1.2 Tình hình nghiên cứu trên thế giới Hiện nay, nhiều giải pháp nén ảnh khung hình khác nhau đã được đề xuất áp dụng cho hệ thống overdriver trong màn hình tinh thể lỏng Từ giải pháp đơn giản chỉ áp dụng ... quát số phương pháp mã hóa ảnh thực cho hình 38 2.6 Tổng quan giải pháp nén ảnh cho hình tinh thể lỏng 42 2.6.1 Khái quát giải pháp nén ảnh cho hệ thống overdrive 42 i 2.6.2 Một số hướng... sử phát triển hình tinh thể lỏng vấn đề chất lƣợng thị hình ảnh động 2.1.1 Lịch sử phát triển hình tinh thể lỏng Ngày nay, giai đoạn phát triển bùng nổ thiết bị kỹ thuật số hình tinh thể lỏng. .. tinh thể lỏng cần nghiên cứu cải tiến phát triển, để ngày có giải pháp hoàn thiện với hiệu cao 1.3 Mục tiêu phạm vi nghiên cứu luận án Mục tiêu luận án nghiên cứu phát triển giải pháp tiên tiến nén

Định dạng
Số trang	176
Dung lượng	5,96 MB