Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 176 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
176
Dung lượng
5,96 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN HỮU TÀI
NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ GIẢI PHÁP NÉN
ẢNH TIÊN TIẾN CHO MÀN HÌNH TINH THỂ LỎNG
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
Hà Nội – 2015
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN HỮU TÀI
NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ GIẢI PHÁP NÉN
ẢNH TIÊN TIẾN CHO MÀN HÌNH TINH THỂ LỎNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 62480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC:
1. PGS. TS. NGUYỄN THỊ HOÀNG LAN
2. GS. TS. LÊ ĐÌNH CHƠN TÂM
Hà Nội − 2015
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng
tôi. Các số liệu, kết quả nêu trong luận án là trung thực và
chưa từng được ai công bố trong bất cứ một công trình nào
khác.
TẬP THỂ HƯỚNG DẪN KHOA HỌC
PGS. TS. Nguyễn Thị Hoàng Lan
GS. TS. Lê Đình Chơn-Tâm
Tác giả luận án
Nguyễn Hữu Tài
LỜI CẢM ƠN
Tôi xin gửi lời tri ân đến PGS. TS. Nguyễn Thị Hoàng Lan – Viện Công
nghệ Thông tin và Truyền thông – Đại học Bách khoa Hà Nội và TS. Lê Đình
Chơn Tâm – Giáo sư Đại học Sherbrooke – Canada, công sức và tấm lòng
của Thầy Cô đã giúp cho tôi vượt qua những khó khăn trở ngại để có thể
hoàn thành luận án này.
Tôi cũng xin gửi lời cảm ơn tới các Thầy Cô trong Bộ môn Truyền
thông và Mạng máy tính đã tạo điều kiện giúp đỡ và đóng góp nhiều ý kiến
quý báu giúp tôi hoàn thiện luận án nghiên cứu. Cảm ơn các Thầy Cô trong
Viện Công nghệ Thông Tin và Truyền thông đã truyền thụ những kiến thức bổ
ích trong quá trình tôi học tập và nghiên cứu tại trường.
Cảm ơn các Thầy Cô cùng các Bạn đồng nghiệp trong khoa Công nghệ
Thông tin – Đại học Khoa học Huế đã luôn quan tâm và động viên tôi trong
quá trình tôi làm nghiên cứu sinh.
Cuối cùng, tôi xin gửi tấm lòng ân tình tới Gia đình tôi, đặc biệt đến
người bạn đời của tôi, người luôn sẻ chia và động viên cùng như gánh vác
nhiều khó khăn vất vả trong gia đình để tôi được toàn tâm toàn ý học tập và
nghiên cứu.
Mặc dù đã rất cố gắng nhưng do thời thời gian và kiến thức còn hạn
chế nên luận án chắc còn có nhiều thiếu sót. Tôi rất mong nhận được những ý
kiến đóng góp quý báu từ Quý Thầy Cô, các Bạn đồng nghiệp và những người
quan tâm.
MỤC LỤC
MỤC LỤC .................................................................................................................. i
DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT...................................................... iv
DANH MỤC HÌNH VẼ.......................................................................................... vii
DANH MỤC BẢNG ................................................................................................ xi
CHƢƠNG 1: MỞ ĐẦU......................................................................................... 1
1.1. Đặt vấn đề .................................................................................................................. 1
1.2. Tình hình nghiên cứu trên thế giới ......................................................................... 3
1.3. Mục tiêu và phạm vi nghiên cứu của luận án ........................................................ 5
1.4. Phƣơng pháp nghiên cứu ......................................................................................... 5
1.5. Ý nghĩa khoa học và thực tiễn của đề tài................................................................ 6
1.6. Bố cục luận án ........................................................................................................... 7
CHƢƠNG 2: TỔNG QUAN VỀ VẤN ĐỀ NÉN ẢNH CHO MÀN HÌNH
TINH THỂ LỎNG .................................................................................................... 9
2.1. Lịch sử phát triển của màn hình tinh thể lỏng và vấn đề chất lƣợng hiện thị
hình ảnh động .................................................................................................................. 9
2.1.1. Lịch sử phát triển của màn hình tinh thể lỏng ..................................................... 9
2.1.2. Vấn đề chất lượng hiển thị hình ảnh động trên màn hình tinh thể lỏng ............ 11
2.2. Overdrive – một kỹ thuật tăng tốc độ đáp ứng cho các phần tử tinh thể lỏng . 12
2.3. Mô hình hệ thống Overdrive và yêu cầu nén ảnh giảm bộ nhớ khung hình..... 14
2.3.1. Mô hình hệ thống overdrive .............................................................................. 14
2.3.2. Vấn đề yêu cầu nén ảnh khung hình cho màn hình tinh thể lỏng ...................... 15
2.3.3. Các đặc trưng của phương pháp nén ảnh áp dụng cho hệ thống Overdrive ...... 17
2.4. Mô hình hệ thống nén ảnh dùng cho hệ thống overdrive ................................... 18
2.4.1. Hệ thống nén ảnh khung hình ............................................................................ 18
2.4.2. Các độ đo hiệu năng giải pháp nén ảnh khung hình .......................................... 20
2.4.3. Mối tương quan giữa chất lượng nén và chất lượng ảnh hiển thị trên màn hình
tinh thể lỏng ................................................................................................................. 22
2.4.4. Một số yêu cầu đặc trưng và tiêu chí đánh giá hệ thống nén ảnh cho màn hình
tinh thể lỏng ................................................................................................................. 23
2.5. Một số cơ sở lý thuyết trong nén ảnh .................................................................... 26
2.5.1. Các phép biến đổi áp dụng trong nén ảnh ......................................................... 27
2.5.2. Lượng tử hoá ..................................................................................................... 33
2.5.3. Gán từ mã dạng độ dài đồng nhất ...................................................................... 37
2.5.4. Khái quát về một số phương pháp mã hóa ảnh thực hiện cho màn hình ........... 38
2.6. Tổng quan về các giải pháp nén ảnh cho màn hình tinh thể lỏng ...................... 42
2.6.1. Khái quát về các giải pháp nén ảnh cho hệ thống overdrive ............................. 42
i
2.6.2. Một số hướng tiếp cận các giải pháp nén và định hướng nghiên cứu ............... 46
CHƢƠNG 3: PHÂN TÍCH VÀ ĐỀ XUẤT MỘT SỐ GIẢI PHÁP NÉN ẢNH
DỰA TRÊN MÃ HÓA KHỐI VÀ BIẾN ĐỔI KHÔNG GIAN MÀU ............... 61
3.1. Nghiên cứu cải tiến và phát triển giải pháp nén ảnh dựa trên mã hóa khối và
biến đổi không gian màu ............................................................................................... 61
3.1.1. Tóm tắt 6 giai đoạn nghiên cứu phát triển giải pháp ......................................... 61
3.1.2. Môi trường thực nghiệm cài đặt và các bộ dữ liệu ............................................ 62
3.2. Khắc phục hiện tƣợng nhiễu khối trong AHIC với đề xuất cải tiến MAIC ...... 64
3.2.1. Nhiễu khối trong AHIC – Nguyên nhân và giải pháp khắc phục ...................... 64
3.2.2. Phát triển phương pháp lượng tử tối ưu sai số “Midrise Uniform Quantizer” .. 65
3.2.3. Đề xuất giải pháp cải tiến MAIC giúp khắc phục nhiễu khối ........................... 65
3.2.4. Đánh giá độ phức tạp của MAIC so với AHIC ................................................. 67
3.2.5. Kết quả thực nghiệm và đánh giá ...................................................................... 68
3.3. Cải thiện chất lƣợng ảnh nén với kỹ thuật trao đổi bit theo nội dung CBBET 73
3.3.1. Ưu và nhược điểm khi lượng tử hóa với sự phân phối bit đồng đều ................. 73
3.3.2. Đề xuất kỹ thuật trao đổi bit theo nội dung CBBET ......................................... 75
3.3.3. Đề xuất giải pháp cải tiến AAIC trên cơ sở tích hợp CBBET vào MAIC ........ 79
3.3.4. Đánh giá độ phức tạp của AAIC so với MAIC và AHIC .................................. 80
3.3.5. Kết quả thực nghiệm và đánh giá ...................................................................... 81
3.4. Cải thiện chất lƣợng nén với kỹ thuật phân phối bit CBBDT............................ 84
3.4.1. Ưu và nhược điểm của kỹ thuật trao đổi bit CBBET ........................................ 84
3.4.2. Đề xuất kỹ thuật phân phối bit CBBDT dựa trên giá trị bước lượng tử - giải
pháp AHAIC ................................................................................................................ 85
3.4.3. Cải tiến hiệu năng của AHAIC bằng sơ đồ nén ACAIC ................................... 91
3.5. Đề xuất giải pháp nén RAIC.................................................................................. 96
3.5.1. Cải thiện hiệu năng cho bộ lượng tử hóa với kỹ thuật mã hóa lượng tử
MMAUQC ................................................................................................................... 96
3.5.2. Tối ưu hóa kỹ thuật phân phối bit với RBBDT ................................................. 99
3.5.3. Đề xuất mô hình lượng tử đa thích nghi MAQC ............................................. 101
3.5.4. Đề xuất giải pháp nén RAIC............................................................................ 103
3.5.5. Đánh giá độ phức tạp tính toán của giải pháp nén RAIC ................................ 104
3.5.6. Kết quả thực nghiệm và đánh giá .................................................................... 104
3.6. Đề xuất ARAIC nâng cao hiệu năng nén RAIC ................................................ 108
3.6.1. Giải pháp đề xuất ARAIC ............................................................................... 108
3.6.2. Sơ đồ thuật toán mã hóa/giải mã cho MAQC.................................................. 110
3.6.3. Phân tích đánh giá khả năng nâng cao hiệu năng của giải pháp đề xuất ......... 111
3.6.4. Kết quả thực nghiệm và đánh giá .................................................................... 112
3.7. Kết luận chƣơng 3................................................................................................. 115
ii
CHƢƠNG 4: PHÂN TÍCH VÀ ĐỀ XUẤT MỘT SỐ GIẢI PHÁP NÉN ẢNH
DỰA TRÊN BIẾN ĐỔI WAVELET VÀ LỰA CHỌN THÍCH NGHI........... 117
4.1. Đề xuất cải tiến DAMS với sự tích hợp cơ chế ngƣỡng thích nghi - giải pháp
DBMAIC ...................................................................................................................... 118
4.1.1. Đề xuất kỹ thuật ngưỡng thích nghi ATT ....................................................... 119
4.1.2. Đề xuất thuật toán lượng tử thích nghi AQC .................................................. 121
4.1.3. Thực nghiệm và đánh giá cho giải pháp DBMAIC ......................................... 121
4.2. Đề xuất áp dụng biến đổi “Wavelet Lifting integer to integer” để cải thiện độ
phức tạp - giải pháp WLT-MAIC .............................................................................. 126
4.2.1. Độ phức tạp trong kiến trúc thực hiện của DAMS và DBMAIC .................... 126
4.2.2. Sơ đồ “Wavelet Lifting” .................................................................................. 127
4.2.3. Đề xuất giải pháp WLT-MAIC ....................................................................... 129
4.2.4. Sơ đồ thuật toán mã hóa và giải mã DAMS-AT. ............................................ 130
4.2.5. Phân tích đánh giá khả năng nâng cao hiệu năng của giải pháp đề xuất. ........ 131
4.2.6. Thực nghiệm và đánh giá cho giải pháp WLT-MAIC .................................... 131
4.3. So sánh và phân tích đánh giá hai giải pháp nén theo hai hƣớng tiếp cận ..... 134
4.3.1. So sánh thực nghiệm và phân tích đánh giá .................................................... 134
4.3.2. Một số kết luận và khuyến nghị....................................................................... 142
4.4. So sánh ARAIC và WLT-MAIC với những giải pháp tiên tiến nổi bật trong
thời gian gần đây ......................................................................................................... 143
4.5. Kết luận chƣơng 4................................................................................................. 145
CHƢƠNG 5:
KẾT LUẬN ................................................................................ 146
5.1. Tóm tắt nội dung nghiên cứu và kết quả mới của luận án ............................... 146
5.1.1. Những nội dung nghiên cứu chính của luận án ............................................... 146
5.1.2. Các kết quả mới của luận án ............................................................................ 147
5.2. Hƣớng phát triển .................................................................................................. 148
TÀI LIỆU THAM KHẢO ...................................................................................... 149
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA LUẬN ÁN
................................................................................................................................ 151
PHỤ LỤC 1: THỬ GIẢI PHÉP NÉN WLT-MAIC TRÊN MỘT SỐ VIDEO CLIP
CỦA QUALCOMM CANADA ............................................................................. 152
PHỤ LỤC 2: THỐNG KÊ XÁC XUẤT CỦA “ZERO MEAN SIGNAL” TRONG
MÔ HÌNH AAIC. ................................................................................................... 160
iii
DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu và chữ
viết tắt
AAIC
Giải nghĩa
Mã hóa nén ảnh tiên tiến thích nghi
Advanced Adaptive Image Coding
ACAIC
Mã hóa nén ảnh tiên tiến có tính thích nghi theo nội dung
Advanced Content-Adaptive Image Coding
AHAIC
Mã hóa nén ảnh tiên tiến có tính thích nghi cao
Advanced High-Adaptive Image Coding
AHIC
AM-BTC
AQC
ARAIC
Bộ mã hóa nén ảnh tiên tiến kết hợp (lai)
Advanced Hybrid Image Codec
Mã hóa thu gọn khối nhiều mức thích nghi
Adaptive Multi-level Block Truncation Coding
Mã hóa lượng tử tích nghi
Adaptive Quantization Coding
Mã hóa nén ảnh thích nghi mạnh mẽ tiên tiến
Advanced Robust Adaptive Image Coding
ATC
Bộ điều khiển ngưỡng thích nghi
Adaptive Threshold Controller
ATT
Kỹ thuật ngưỡng thích nghi
Adaptive-Threshold Technique
BTC
Kỹ thuật mã hóa dựa trên thu gọn khối
Block Truncation Coding
CBBDT
Kỹ thuật phân phối bit dựa trên nội dung
Content-Based Bit Distribution Technique
CBBET
Kỹ thuật trao đổi bit dựa trên nội dung
Content-based Bit Exchange Techniques
CF
Khung hình hiện tại
Current Frame
CR
Tỷ số nén
Compression Ratio
DAMS
DBMAIC
Phương pháp nén dựa trên DWT chọn lọc thích nghi.
DWT-based Adaptive Mode Selection
Mã hóa nén ảnh dựa trên phép biến đổi wavelet đa thích nghi.
DWT-Based Multi-Adaptive Image Coding
iv
DCT
Biến đổi cosine rời rạc
Discrete Cosine Transform
DSM
Phương pháp tán xạ động
Dynamic Scattering Method
DWT
Biến đổi sóng con (wavelet) rời rạc
Discrete Wavelet Transform
FFD / Overdrive
FIR
HCRIC
HD
HDTV
Kỹ thuật tăng tốc độ đáp ứng cho các phần tử tinh thể lỏng qua cơ chế
tăng điện áp
Feedforward Driving
Bộ lọc có đáp ứng xung hữu hạn
Finite Impulse Response
Mã hóa nén ảnh tỷ số nén cao
High Compression Ratio Image Coding
Chuẩn định dạng hình ảnh độ phân giải cao
High-Definition
Chuẩn truyền hình độ phân giải cao
High-Definition Television
HIC
Mã hóa nén ảnh kết hợp (lai)
Hybrid Image Coding
LC
Phần tử tinh thể lỏng
Liquid Crystal
LCD
Màn hình tinh thể lỏng
Liquid Crystal Displays
MAIC
Mã hóa nén ảnh thích nghi theo giá trị trung bình
Mean Adaptive Image Coding
MAQC
Mã hóa lượng tử đa thích nghi
Multiple Adaptive Quantization Coding
MMAUQC
Mã hóa lượng tử hóa đều thích nghi theo Min-Max
Min-Max Adaptive Uniform Quantization Coding
MSE
Sai số trung bình bình phương
Mean Squared Error
MUQ
Bộ lượng tử đều dạng Midrise
Midrise Uniform Quantizer
PCM
Mã hóa điều xung
Pulse Code Modulation
PF
Khung hình trước thời điểm hiện tại
Previous Frame
v
PSNR
Tỷ số tín hiệu mức đỉnh trên nhiễu
Peak Signal-to-Noise Ratio
RAIC
Mã hóa nén ảnh thích nghi mạnh
Robust Adaptive Image Coding
RBBDT
SBB-BTC
Kỹ thuật phân phối bit tối ưu dựa trên giá trị phạm vi
Range-based Bit Distribution Technique
Mã hóa cắt khối dựa trên mặt phẳng bit
Single Bit Plane based Block Truncation Coding
TFT
Transistor công nghệ “Thin Film” đối với một phần tử ảnh màn hình
Thin-Film Transistor
UHD
Chuẩn định dạng hình ảnh độ phân giải siêu cao
Ultra High-Definition
VQ-BTC
WLT-MAIC
Mã hóa cắt khối dựa trên lượng tử hóa vector
Vector Quantizer based Block Truncation Coding
Mã hóa nén ảnh đa thích nghi dựa trên biến đổi wavelet số nguyên
Wavelet Lifting integer to integer Transform based Multi-Adaptive
Image Codin
vi
DANH MỤC HÌNH VẼ
Hình 1.1. Minh họa hiện tượng mờ chuyển động .................................................................. 1
Hình 1.2. Mô hình một hệ thống overdrive trong màn hình tinh thể lỏng. ........................... 2
Hình 2.1. Mô tả cấu tạo màn hình TFT-LCD ...................................................................... 10
Hình 2.2. Minh họa hiện tượng Motion-Blur trên màn hình tinh thể lỏng .......................... 11
Hình 2.3. Sơ đồ khối của màn hình tinh thể lỏng 15inch XGA dùng kỹ thuật FFD. .......... 12
Hình 2.4. Đồ thị độ chói - thời gian đáp ứng mô tả cách thức xác định điện áp tăng tốc. .. 12
Hình 2.5. Minh họa giải pháp tăng tốc độ chuyển đổi mức xám thông qua cơ chế hiệu
chỉnh tăng ngưỡng điện áp. .............................................................................. 13
Hình 2.6. So sánh thời gian đáp ứng ................................................................................... 13
Hình 2.7. Mô hình một hệ thống overdrive có sử dụng kỹ thuật nén ảnh nhằm giảm yêu cầu
về dung lượng và tốc độ truy xuất dữ liệu của bộ nhớ khung hình. ................. 15
Hình 2.8. Phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ
phân giải cao. .................................................................................................... 16
Hình 2.9. Mô hình với ba thành phần chính trong một hệ thống nén ảnh áp dụng trong
truyền thông. ..................................................................................................... 18
Hình 2.10. Mô hình khái quát với bốn thành phần chính trong một hệ thống nén ảnh áp
dụng cho overdrive trong màn hình tinh thể lỏng. ........................................... 19
Hình 2.11. Đồ thị biến thiên của PSNR theo MSE. ............................................................ 21
Hình 2.12. Minh họa 64 hàm cơ bản của 8×8 DCT. ........................................................... 28
Hình 2.13. Phân tích đa phân giải 3 mức và khôi phục của tín hiệu dùng cấu trúc lọc kiểu
kim tự tháp (pyramidal filter structure) ............................................................ 30
Hình 2.14. Quy trình xử lý dòng-cột của DWT hai chiều. .................................................. 31
Hình 2.15. Sơ đồ phân tích và tổng hợp tín hiệu hai chiều theo cấu trúc băng tần con. ..... 32
Hình 2.16. Kết quả biến đổi DWT trên ảnh số hai chiều theo kiến trúc kim tự tháp sử dụng
bộ lọc Wavalet Daubechies 4 - hệ số. .............................................................. 32
Hình 2.17. Ánh xạ vào – ra của một bộ lượng tử hóa dạng Midrise. .................................. 33
Hình 2.18. Xấp xỉ của hàm Px(x) bởi các hằng số phân đoạn ............................................. 35
Hình 2.19. Ánh xạ vào – ra của một bộ lượng tử hóa tối ưu và sai số lượng tử.................. 37
Hình 2.20. Mô hình khái quát cho một bộ mã hóa lượng tử thích nghi .............................. 40
Hình 2.21. Sơ đồ mã hóa ảnh sử dụng biến đổi ................................................................... 40
Hình 2.22. Sơ đồ cơ bản của chuẩn nén ảnh JPEG ............................................................. 41
Hình 2.23. Sơ đồ thuật toán bộ nén JPEG2000 ................................................................... 42
Hình 2.24. Những giải pháp nén đã được đề xuất áp dụng trong hệ thống overdrive của
màn hình tinh thể lỏng ...................................................................................... 47
vii
Hình 2.25. Sơ đồ khối của bộ mã hóa AQC ........................................................................ 49
Hình 2.26. Chất lượng ảnh nén của giải pháp AHIC được so sánh với giải pháp chỉ áp dụng
kỹ thuật BTC .................................................................................................... 49
Hình 2.27. Sơ đồ giải pháp nén AHIC. ............................................................................... 50
Hình 2.28. Hiện tượng nhiễu khối (blocking effect) trên ảnh khôi phục của AHIC. .......... 51
Hình 2.29. Hiện tượng kém chất lượng trên thành phần màu sắc (Cb và Cr) trên ảnh khôi
phục của AHIC ................................................................................................. 52
Hình 2.30 Sơ đồ khối và kiến trúc của AM-BTC ................................................................ 53
Hình 2.31. Ảnh khôi phục của AM-BTC và sai số của nó. ................................................. 54
Hình 2.32. Minh chứng cho hiện tượng rung động trong giải pháp nén AM-BTC. ............ 55
Hình 2.33. Mô hình hệ thống của DAMS và bộ mã hóa thích nghi. ................................... 57
Hình 2.34. Hiệu ứng khối (blocking) và nhiễu (noise) trên ảnh khôi phục của DAMS. ..... 59
Hình 2.35. Số bit dư thừa khi kết thúc quá trình nén của DAMS ....................................... 60
Hình 3.1. Sơ đồ mô tả sơ lược các bước nghiên cứu phát triển........................................... 61
Hình 3.2. Đồ thị hàm lượng tử Midrise Uniform Quantizer với 8 mức lượng tử................ 65
Hình 3.3. Sơ đồ khối của giải pháp nén MAIC. .................................................................. 66
Hình 3.4. Sơ đồ bộ lượng tử hóa MUQ (MUQ Encoder & Decoder). ................................ 67
Hình 3.5. So sánh hiệu năng của AHIC với MAIC trên chuỗi hình CIF Foreman. ............ 69
Hình 3.6. So sánh hiệu năng của AHIC với MAIC trên chuỗi hình CIF Bus. .................... 69
Hình 3.7. So sánh sự mất mát thông tin giữa AHIC và MAIC trên một khung hình của
chuỗi khung hình CIF Foreman........................................................................ 70
Hình 3.8. So sánh sự mất mát thông tin (hay error) giữa 2 giải pháp nén AHIC và MAIC
trên một khung hình của chuỗi khung hình CIF Bus. ...................................... 71
Hình 3.9. Minh họa ảnh độ chói Y của 8 bock 4×4 đầu vào cho quá trình lượng tử hóa. .. 74
Hình 3.10. Sai số phát sinh khi lượng tử hóa với phân phối đều bởi bộ lượng tử 4×4-AQC.
Chất lượng ảnh khôi phục đạt được PSNR=33.00 dB. .................................... 74
Hình 3.11. Sai số phát sinh khi lượng tử hóa với phân phối không đồng đều bởi bộ lượng
tử 4×4-AQC. ..................................................................................................... 75
Hình 3.12. Sơ đồ khối cho bộ mã hóa CBBET và bộ Bit Selector ...................................... 76
Hình 3.13. Sơ đồ khối cho bộ mã hóa và giải mã của AAIC. ............................................. 80
Hình 3.14. So sánh chất lượng nén và sự mất mát thông tin giữa 3 giải pháp nén AHIC,
MAIC và AAIC trên một khung hình của chuỗi khung hình CIF Foreman. ... 81
Hình 3.15. So sánh hiệu năng của AAIC với MAIC và AHIC. .......................................... 82
Hình 3.16. So sánh hiệu năng của AAIC với AHIC (chỉ trên thành phần độ chói Y). ....... 83
Hình 3.17. Sai số phát sinh khi lượng tử hóa với phân phối không đồng đều bởi bộ lượng
tử 4×4-AQC. ..................................................................................................... 84
viii
Hình 3.18. Sơ đồ bộ mã hóa và giải mã theo kỹ thuật phân phối bít (CBBDT) dựa trên giá
trị bước lượng tử. .............................................................................................. 86
Hình 3.19. Sơ đồ khối cho bộ mã hóa (encoder) và giải mã (decoder) của giải pháp nén
AHAIC (ở đây Q=2). ........................................................................................ 88
Hình 3.20. So sánh chất lượng ảnh của các giải pháp trên chuỗi khung hình CIF Hall. ..... 89
Hình 3.21. So sánh chất lượng nén và sự mất mát thông tin giữa 3 giải pháp nén AHIC,
AAIC và AHAIC trên một khung hình của chuỗi khung hình CIF Hall ......... 90
Hình 3.22. Sơ đồ bộ mã hóa và giải mã theo kỹ thuật phân phối bít (CBBDT) dựa trên giá
trị tuyệt đối lớn nhất của khối........................................................................... 93
Hình 3.23. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi CIF Hall. ................. 93
Hình 3.24. So sánh chất lượng nén và sự mất mát thông tin giữa AHIC, AHAIC và ACAIC
trên một khung hình của chuỗi khung hình CIF Hall. ...................................... 95
Hình 3.25. Kỹ thuật lượng tử MUQ với 3bit/pixel - Mối liên hệ giữa bước lượng tử hóa
Qstep và sự phân bố các giá trị (hay điểm ảnh) trong một khối....................... 97
Hình 3.26. Kỹ thuật lượng tử MMAUQC với 3bit/pixel - Mối liên hệ giữa bước lượng tử
hóa Qstep và sự phân bố các giá trị trong một khối dạng “zero min signal”. .. 98
Hình 3.27. Mô tả đặc tính vào-ra của một bộ lượng tử hóa đều 3bit/pixel với đầu vào dạng
“zero min signal”. ............................................................................................. 99
Hình 3.28. Sơ đồ khối của mô hình lượng tử đa thích nghi MAQC ................................. 102
Hình 3.29. Sơ đồ khối của bộ mã hóa và giải mã RAIC. .................................................. 104
Hình 3.30. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi khung hình CIF
Foreman. ......................................................................................................... 105
Hình 3.31. So sánh chất lượng ảnh nén và sai số một cách trực quan trên ảnh Foreman. 106
Hình 3.32. Sơ đồ bộ nén (Encoder) và giải nén (Decoder) của ARAIC. .......................... 108
Hình 3.33. Sơ đồ bộ nén và giải nén MAQC áp dụng trong ARAIC. ............................... 109
Hình 3.34. Sơ đồ thuật toán mã hóa và giải mã MAQC. ................................................... 111
Hình 3.35. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi khung hình CIF
MobileCalendar .............................................................................................. 113
Hình 3.36. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi khung hình CIF
Cheerleader ..................................................................................................... 113
Hình 3.37. So sánh chất lượng hình ảnh nén và sai số một cách trực quan trên một khung
hình của chuỗi khung hình CIF MobileCalendar. .......................................... 114
Hình 4.1. Sơ đồ quá trình các đề xuất cải tiến kế thừa và phát triển theo hướng áp dụng
biến đổi wavelet và lựa chọn thích nghi. ........................................................ 117
Hình 4.2. Sơ đồ khối của bộ mã hóa DBMAIC, được tích hợp với một bộ điều khiển
ngưỡng thích nghi........................................................................................... 118
ix
Hình 4.3. Sơ đồ khối của bộ mã hóa DAMS-AT áp dụng trong DBMAIC. ..................... 118
Hình 4.4. Mối liên hệ giữa chất lượng ảnh và các hằng số C2 & C3 của DBMAIC .......... 122
Hình 4.5. Mối liên hệ giữa chất lượng ảnh và các hằng số C1 & C2 của DBMAIC .......... 122
Hình 4.6. Mối liên hệ giữa chất lượng ảnh và các hằng số C1 & C2 của DBMAIC .......... 122
Hình 4.7. Mối liên hệ giữa chất lượng ảnh và các hằng số Min-Threshold & MaxThreshold của DBMAIC ................................................................................ 122
Hình 4.8. Sự thay đổi của ngưỡng (threshold) .................................................................. 123
Hình 4.9. So sánh hiệu năng của các giải pháp nén........................................................... 123
Hình 4.10. So sánh giá trị bit dư thừa trong hai giải pháp DBMAIC và DAMS .............. 124
Hình 4.11. Sự cải thiện hiệu ứng nhiễu khối và nhiễu đốm trên ảnh khôi phục của
DBMAIC ........................................................................................................ 124
Hình 4.12. So sánh trực quan chất lượng ảnh và sai số ..................................................... 126
Hình 4.13. Sơ đồ “Wavelet Lifting” (nguồn [26]). ........................................................... 127
Hình 4.14. Sơ đồ khối cho bộ mã hóa WLT-MAIC .......................................................... 129
Hình 4.15. Sơ đồ khối cho bộ mã hóa DAMS-AT áp dụng cho WLT-MAIC với 6 khối 4×8
đầu vào theo trật tự ưu tiên định trước. .......................................................... 129
Hình 4.16. Sơ đồ thuật toán mã hóa và giải mã DAMS-AT ............................................. 130
Hình 4.17. So sánh hiệu năng của các giải pháp nén......................................................... 132
Hình 4.18. So sánh trực quan chất lượng ảnh và sai số giữa hai giải pháp nén DBMAIC và
WLT-MAIC.................................................................................................... 133
Hình 4.19. So sánh hiệu năng của các giải pháp nén thuộc hai hướng tiếp cận ................ 135
Hình 4.20. So sánh trực quan sai số giữa một số giải pháp nén thuộc hai hướng tiếp cận.
Trị tuyệt đối sai số được khuếch đại lên 12 lần rồi biến đổi âm bản. ............. 137
Hình 4.21. So sánh hiệu năng của các giải pháp nén thuộc hai hướng tiếp cận ................ 138
Hình 4.22. Giá trị PSNR trung bình của các giải pháp nén khi đánh giá trên 25 chuỗi khung
hình với tổng số 8765 hình ảnh. ..................................................................... 138
Hình 4.23.Giá trị Entropy trung bình của mỗi chuỗi khung hình. ..................................... 140
Hình 4.24. So sánh chất lượng ảnh của các giải pháp nén trên chuỗi CIF MobileCalendar.
........................................................................................................................ 140
Hình 4.25. So sánh trực quan sai số giữa một số giải pháp nén thuộc hai hướng tiếp cận 142
Hình 4.26. So sánh hiệu năng nén của 4 giải pháp ARAIC, WLT-MAIC, LTC và SAMS
........................................................................................................................ 144
Hình 5.1. Sơ đồ quá trình đề xuất cải tiến và phát triển các giải pháp nén ảnh của luận án
trên cơ sở kế thừa hai giải pháp AHIC và DAMS cùng một số lý thuyết nền
tảng. ................................................................................................................ 147
x
DANH MỤC BẢNG
Bảng 2.1. Điện áp tăng tốc áp dụng để chuyển đổi từ mức độ chói hiện tại sang mức độ
chói tiếp theo ở mức 60cd/m2 với thời gian đáp ứng 16.7ms ........................... 13
Bảng 2.2. Yêu cầu dung lượng và tốc độ truyền tải dữ liệu của bộ nhớ khung hình trên Tivi chuẩn HD và UHD. ...................................................................................... 14
Bảng 2.3. Lượng tử hóa tối ưu MSE cho mật độ Gaussian ................................................. 35
Bảng 2.4. Một ví dụ gán từ mã dạng độ dài đồng nhất cho thông điệp với 8 trạng thái. .... 38
Bảng 2.5 Chất lượng nén trung bình của AHIC so với giải pháp chỉ áp dụng kỹ thuật lượng
tử hóa BTC [19] ............................................................................................... 49
Bảng 2.6. Chất lượng ảnh khôi phục của một số giải pháp nén .......................................... 53
Bảng 3.1. Các chuỗi khung hình định dạng CIF sử dụng trong thực nghiệm ..................... 63
Bảng 3.2. Các hình ảnh sử dụng trong thực nghiệm được lấy từ tập dữ liệu ảnh “LIVE
image quality assessment database release 2”. ................................................. 64
Bảng 3.3. Trung bình cộng kết quả chất lượng ảnh nén cho mỗi giải pháp ........................ 72
Bảng 3.4. Đánh giá mức độ cải thiện chất lượng ảnh nén của MAIC so với AHIC ........... 72
Bảng 3.5. Các lượng tử đều tối ưu cho tín hiệu có giá trị trung bình bằng không, phương
sai đơn vị và mật độ Gaussian .......................................................................... 77
Bảng 3.6. Kết quả chất lượng ảnh nén trung bình của các giải pháp .................................. 83
Bảng 3.7. Đánh giá mức độ cải thiện chất lượng ảnh nén của AAIC so với AHIC ............ 83
Bảng 3.8. Kết quả chất lượng ảnh nén trung bình cho các giải pháp .................................. 90
Bảng 3.9. Kết quả cải thiện của AHAIC so với AHIC. ....................................................... 90
Bảng 3.10. Kết quả cải thiện của AHAIC so với AAIC ...................................................... 91
Bảng 3.11. So sánh kết quả trung bình chất lượng ảnh nén khi sử dụng công thức tính phân
phối bit (3.9) hay (3.10) trong giải pháp AHAIC ............................................. 91
Bảng 3.12. Kết quả chất lượng ảnh nén trung bình cho các giải pháp ................................ 95
Bảng 3.13. Đánh giá mức độ cải thiện chất lượng ảnh nén của ACAIC so với AHIC ....... 95
Bảng 3.14. Đánh giá mức độ cải thiện chất lượng ảnh nén của ACAIC so với AHAIC .... 96
Bảng 3.15. Minh họa cho tình huống mã hóa lượng tử BTC với sai số lớn. ..................... 103
Bảng 3.16. Kết quả chất lượng ảnh nén trung bình cho các giải pháp .............................. 107
Bảng 3.17. Đánh giá mức độ cải thiện chất lượng của RAIC so với một số giải pháp ..... 107
Bảng 3.18. Kết quả chất lượng ảnh nén trung bình cho các giải pháp .............................. 114
Bảng 3.19. Đánh giá mức độ cải thiện chất lượng của ARAIC so với một số giải pháp .. 115
Bảng 4.1. Các hệ số của bộ lọc wavelet Le Gall 5/3-tap. .................................................. 128
xi
CHƢƠNG 1: MỞ ĐẦU
1.1. Đặt vấn đề
Trong những năm gần đây, chúng ta đã được chứng kiến sự thông dụng của công nghệ
màn hình tinh thể lỏng, hay thường được gọi tắt là công nghệ LCD (Liquid Crystal
Display), qua những chiếc ti-vi tinh thể lỏng (LCD và LED1) trong các hộ gia đình, cho
đến các màn hình tinh thể lỏng dùng cho máy tính cá nhân trong các văn phòng, các màn
hình quan sát và điều khiển trong công nghiệp, và nổi bật hơn cả là hàng tỷ chiếc điện
thoại di động đang nằm trong túi của hàng tỷ người trên toàn thế giới. Sự phát triển và
thành công của công nghệ tinh thể lỏng là kết quả của những nghiên cứu cải tiến không
ngừng, nhằm đưa chất lượng hình ảnh hiển thị và độ phân giải ngày một cao hơn, điện
năng tiêu thụ ngày một hiệu quả, giá thành sản phẩm ngày một hợp lý hơn với người tiêu
dùng.
Một trong số các vấn đề của công nghệ tinh thể lỏng trong thời kỳ đầu của quá trình
phát triển là tình trạng đáp ứng chậm chạp của các phần tử tinh thể lỏng, gây nên hiện
tượng mờ chuyển động (motion-blur, xem Hình 1.1). Để khắc phục, K. Nakanishi và các
đồng nghiệp đã đề xuất giải pháp tăng tốc độ đáp ứng cho các phần tử tinh thể thông qua
cơ chế tăng ngưỡng điện áp với tên gọi “overdrive” vào năm 2001 [25]. Kỹ thuật overdrive
đã tạo nên bước đột phá trong công nghệ tinh thể lỏng giúp tạo ra những sản phẩm có khả
năng hiển thị hình ảnh chuyển động với chất lượng cao.
Vùng hình ảnh chuyển
động hiện thị bị mờ
(a) Kỹ thuật điều khiển thông thường
(b) Tăng tốc với overdrive
Hình 1.1. Minh họa hiện tượng mờ chuyển động (motion-blur) khi áp dụng kỹ thuật
điều khiển (dẫn động) thông thường (a), và khả năng cải thiện chất lượng hình ảnh hiển thị
bằng kỹ thuật tăng tốc overdrive (b) trên màn hình tinh thể lỏng của hãng LG.
1
Màn hình LED (điôt phát quang) thực chất là màn hình tinh thể lỏng (LCD) nhưng được áp dụng kỹ
thuật chiếu sáng bằng đèn điôt phát quang (LED) thay cho đèn huỳnh quang lạnh (Cold cathode fluorescent
lamp - CCFL) [35].
1
Mô hình hệ thống overdrive trong màn hình tinh thể lỏng được trình bày trong Hình
1.2, gồm hai thành phần: (1) Bộ nhớ khung hình (frame memory); và (2) bộ điều khiển
tăng tốc overdrive. Trong đó, bộ nhớ khung hình có chức năng lưu trữ dữ liệu ảnh hiện thị
đủ khung hình hiện tại (Fn) và đồng thời cung cấp dữ liệu ảnh khung hình ở thời điểm
trước (Fn-1) cho hệ thống overdrive. Bộ điều khiển overdrive có chức năng cung cấp điện
áp tăng tốc cho mỗi điểm ảnh trên màn hình dựa trên thông tin ảnh khung hình hiện tại (Fn)
và ảnh khung hình ở thời điểm trước (Fn-1). Nguyên lý hoạt động của hệ thống overdrive
được mô tả chi tiết trong mục 2.2.
Dữ liệu khung hình
Dữ liệu khung hình hiện tại
Fn
Overdrive
Frame
memory
Dữ liệu khung hình
thời điểm trước, Fn-1
(LUT)
Overdriven
Frame
Hình 1.2. Mô hình một hệ thống overdrive trong màn hình tinh thể lỏng [24].
Hiện nay các nhà sản xuất đang cần áp dụng các chuẩn định dạng Ti-vi độ phân giải
cao (High-Definition Television) và siêu cao (Ultra High-Definition Television) đối với
các thiết bị màn hình tinh thể lỏng, với tốc độ hiện thị khung hình lên mức 60fps đến
120fps. Từ đó làm nảy sinh hai vấn đề sau đối với bộ nhớ khung hình:
(1) Yêu cầu dung lượng bộ nhớ tăng cao theo sự tăng trưởng số điểm ảnh trên màn
hình. Mức 640×480×24bit 7.1Mb với chuẩn VGA, 3840×2160×24bit 189.8Mb với
chuẩn UHD 2160p (4K), và 7680×4320×24bit 759.4Mb với chuẩn UHD 4320p (8K).
(2) Yêu cầu băng thông ở mức rất cao, cụ thể với UHD 2160p (4K) áp dụng tốc độ
hiện thị khung hình 120fps sẽ là 3840×2160×24bit×120×2 44.5Gbit/s, hay UHD 4320p
(8K) với 120fps sẽ là 7680×4320×24bit×120×2 178Gbit/s
Với yêu cầu cao về dung lượng và tốc độ băng thông, sẽ đẩy giá thành của bộ nhớ
khung hình lên cao, góp phần làm tăng giá thành của sản phẩm màn hình tinh thể lỏng. Từ
đó bài toán nén ảnh khung hình áp dụng vào trong hệ thống overdrive đã được đặt ra nhằm
mục đích thu nhỏ dung lượng dữ liệu ảnh khung hình trước khi nó được lưu trữ lên bộ nhớ
khung hình (frame memory), giúp giảm yêu cầu dung lượng đối với bộ nhớ khung hình,
2
đồng thời cũng giúp giảm được yêu cầu băng thông đối với bộ nhớ khung hình khi lượng
dữ liệu mà nó cần trao đổi (ghi/đọc) trở nên ít đi vì đã được nén lại. Khi yêu cầu về dung
lượng và băng thông đối với bộ nhớ khung hình được giảm xuống sẽ kéo theo sự cải thiện
về giá thành của sản phẩm màn hình tinh thể lỏng.
Xuất phát từ yêu cầu thực tiễn trên, nhiều nghiên cứu đã được triển khai nhằm tìm ra
những giải pháp nén ảnh khung hình áp dụng phù hợp và hiệu quả trên hệ thống overdrive
của màn hình tinh thể lỏng. Kết quả đã có khá nhiều các giải pháp nén ảnh khung hình cho
màn hình tinh thể lỏng được đề xuất qua các bài báo [[5], [9], [10], [11], [12], [13], [14],
[15], [17], [18], [19], [20], [21], [22], [24], [28]]. Khi xem xét trong khoảng thời gian
những năm nghiên cứu đầu tiên của luận án (cuối năm 2009 đến đầu năm 2011), một số
giải pháp nén ảnh khung hình được đề xuất trong [[5], [19], [21]] là những giải pháp mới
được đề xuất, thể hiện được hiệu năng nén cao so với những giải pháp nén được đề xuất
trước đó trên một số tiêu chí như: tỷ số nén khá cao, chất lượng ảnh khá tốt, và độ phức tạp
tính toán không cao hay ở mức chấp nhận được. Nhưng trải qua quá trình nghiên cứu phân
tích về mặt lý thuyết cũng như thực nghiệm, chúng tôi đã phát hiện ra nhiều khiếm khuyết
còn tồn tại trong các giải pháp nói trên về mặt chất lượng ảnh khôi phục cũng như độ phức
tạp tính toán. Từ thực trạng đó, đã mở ra hướng nghiên cứu cải tiến một số giải pháp nén
ảnh khung hình cho màn hình tinh thể lỏng đã được các tác giả nước ngoài đề xuất, nhằm
nâng cao hiệu quả áp dụng vào hệ thống overdrive, hoặc tiến xa hơn sẽ nghiên cứu đề xuất
các giải pháp nén tiên tiến về mặt hiệu năng, nhằm mang lại hiệu quả cao khi áp dụng vào
hệ thống overdrive trong màn hình tinh thể lỏng.
1.2. Tình hình nghiên cứu trên thế giới
Hiện nay, nhiều giải pháp nén ảnh khung hình khác nhau đã được đề xuất áp dụng cho
hệ thống overdriver trong màn hình tinh thể lỏng. Từ giải pháp đơn giản chỉ áp dụng phép
biến đổi không gian màu và kỹ thuật mã hóa lượng tử BTC (block truncation coding) trong
[13] với tỷ số nén (compression ratio) CR = 3 đến 3.42. Cho đến các giải pháp nén có kiến
trúc phức tạp hơn, sử dụng phối hợp nhiều kỹ thuật biến đổi và lượng tử hóa khác nhau
nhằm tăng chất lượng ảnh khôi phục hay tỷ số nén, đã được đề xuất trong các bài báo [[9],
[10], [12], [14], [15], [17], [18], [20], [21], [24], [28]]. Sau cùng, và cũng đáng được chú ý
hơn cả, là một số giải pháp nén có tỷ số nén cao đi cùng với chất lượng ảnh khôi phục khá
tốt, dựa trên mô hình kiến trúc khá đơn giản như đề xuất trong [19], hay không quá phức
tạp và có thể thực hiện được theo thời gian thực, như trong [5].
Nhìn chung, các giải pháp đã được đề xuất nói trên, đặc biệt là những giải pháp tiên
tiến về hiệu năng mới được đề xuất gần đây như Advanced Hybrid Image Codec (AHIC)
3
trong [19], Adaptive Multi-level Block Truncation Coding (AM-BTC) trong [21] hay
DWT-based Adaptive Mode Selection (DAMS) trong [5], đều là những giải pháp có nhiều
ưu điểm nổi trội khi so sánh với các giải pháp đã được đề xuất trước đó như: tỷ số nén cao,
chất lượng ảnh khôi phục khá tốt và độ phức tạp tính toán không cao (với AHIC và AMBTC) hay không quá cao (với DAMS). Mặc dù vậy, qua quá trình nghiên cứu và phân tích
thực nghiệm, chúng tôi nhận thấy các giải pháp này vẫn còn mắc phải một số nhược điểm
sau:
Advanced Hybrid Image Codec (AHIC): Ảnh khôi phục dễ bị mắc phải hiện tượng
nhiễu khối (hay blocking effect), kỹ thuật lượng tử hóa chưa thật sự tối ưu, mô hình
kiến trúc thực thi còn nhiều điểm chưa thật sự hợp lý, và cuối cùng là khả năng thích
nghi theo sự thay đổi của tín hiệu ảnh chưa cao dẫn đến chất lượng ảnh khôi phục còn
rất thấp trong một số tình huống.
Adaptive Multi-level Block Truncation Coding (AM-BTC): Ảnh khôi phục có sai số
lớn ở thành phần độ chói Y (luminance) là thành phần nhạy cảm với mắt người. Và hơn
thế nữa, trong một số tình huống khi quan sát trên một chuỗi các khung hình, sai số
trên ảnh khôi phục đã gây ra hiện tượng rung hình (vibrate effect) như nhìn qua một
đám lửa ở những vùng ảnh nhiều chi tiết và ít thay đổi. Chính vì hiện tượng chập chờn
tác động lên vùng ảnh có ít sự thay đổi nên khuyết điểm này dễ dàng được nhận ra qua
quan sát bằng thị giác. Nhược điểm này sẽ khiến cho giải pháp AM-BTC khó có thể
ứng dụng trên thực tiễn vì sẽ làm suy giảm chất lượng hiển thị hình ảnh trên màn hình
tinh thể lỏng, dù rằng những kết quả thực nghiệm đánh giá trên số đo PSNR của giải
pháp AM-BTC thường đạt kết quả khá cao.
DWT-based Adaptive Mode Selection (DAMS): Giải pháp này sử dụng một giá trị
ngưỡng (threshold) cố định đã làm hạn chế khả năng thích nghi của DAMS và là
nguyên nhân gây ra hiện tượng nhiễu khối ở thành phần màu (chroma) của ảnh khôi
phục và nhiều đốm trên các chi tiết đường nét. Yêu cầu khá cao về độ phức tạp tính
toán khi sử dụng phép biến đổi wavelet 2-chiều với bộ lọc Daubechies 4/4 - hệ số, đòi
hỏi phải tính toán trên trường số thực. Và cuối cùng là đa số phép lượng tử hóa trong
giải pháp này cũng yêu cầu xử lý trên trường số thực làm cho độ phức tạp tính toán
tăng cao.
Sơ lược thực trạng trên cho thấy vấn đề nghiên cứu các giải pháp nén ảnh áp dụng vào
trong công nghệ màn hình tinh thể lỏng vẫn đang cần các nghiên cứu cải tiến và phát triển,
để ngày càng có được các giải pháp hoàn thiện hơn với hiệu năng cao hơn.
4
1.3. Mục tiêu và phạm vi nghiên cứu của luận án
Mục tiêu của luận án là nghiên cứu phát triển các giải pháp tiên tiến nén dữ liệu ảnh
khung hình áp dụng cho màn hình tinh thể lỏng độ phân giải cao, trên cơ sở phân tích các
công trình đã có để đề xuất cải tiến cải thiện hiệu năng. Nghiên cứu kế thừa và phát triển
đề xuất các giải pháp nén mới nâng cao hiệu năng so với những giải pháp hiện đã được đề
xuất.
Theo một số các tiêu chí đánh giá hiệu năng nén gồm: chỉ số nén, chất lượng nén, và
độ phức tạp tính toán.
Phạm vi nghiên cứu của luận án bao gồm:
1. Nghiên cứu phát triển các giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng độ
phân giải cao nhằm tăng cường hiệu năng nén.
2. Nghiên cứu đề xuất cải tiến các giải pháp để khắc phục những nhược điểm còn tồn tại
trong một số giải pháp nén tiên tiến như AHIC, DAMS, nhằm nâng cao hiệu năng của
giải pháp nén về cải thiện chất lượng ảnh, giảm độ phức tạp tính toán.
3. Nghiên cứu phân tích các ưu và nhược điểm của các giải pháp nén ảnh đã có. Từ đó đề
xuất xây dựng các giải pháp nén mới thể hiện được nhiều ưu điểm vượt trội về chất
lượng ảnh, tỷ số nén, độ phức tạp tính toán hay sơ đồ thực hiện, có khả năng thích nghi
theo sự thay đổi của tín hiệu ảnh, tránh mắc phải các khuyết điểm về thị giác.
1.4. Phƣơng pháp nghiên cứu
-
Xác định rõ mục tiêu và phạm vi nghiên cứu.
-
Phương pháp nghiên cứu kế thừa và phát triển trên cơ sở nghiên cứu phân tích tổng
quan các giải pháp đã đề xuất, cải tiến nâng cao hiệu năng và phát triển đề xuất giải
pháp mới.
-
Phương pháp nghiên cứu kết hợp giữa lý thuyết và nghiên cứu thực nghiệm cài đặt
chương trình kiểm chứng kết quả, biện luận và giải thích.
1. Về nghiên cứu lý thuyết:
Nghiên cứu cơ sở lý thuyết về tín hiệu ảnh và các phép biến đổi tín hiệu ảnh:
Kỹ thuật thay đổi tần số lấy mẫu của tín hiệu (Downsampling, Upsampling)
dùng kỹ thuật lọc số (Filter), chuyển đổi không gian màu (RGB, YCbCr), phép
biến đổi cosin rời rạc DCT (Discrete Cosine Transform), biến đổi sóng con rời
rạc DWT (Discrete Wavelet Transform), kỹ thuật Lifting.
Nghiên cứu cơ sở lý thuyết về lượng tử hóa và một số phương pháp lượng tử
như: Phương pháp tối ưu sai số trung bình bình phương hay lượng tử hóa
5
Lloyd-Max, phương pháp lượng tử hóa tối ưu với đầu vào có phân phối đều,
các phương pháp lượng tử hóa thích nghi.
Dùng một số độ đo đánh giá chất lượng nén: Độ đo sai số trung bình bình
phương MSE (Mean Squared Error), độ đo tỷ số tín hiệu mức đỉnh /nhiễu
PSNR (Peak Signal-to-Noise Ratio).
2. Về nghiên cứu thực nghiệm:
Đã tiến hành cài đặt lập trình thực nghiệm trên môi trường máy tính PC cho hầu
hết các giải pháp nén tiên tiến được xem xét và đánh giá trong luận án
Tạo lập môi trường thực nghiệm phù hợp với môi trường thực tế của bài toán
thông qua công cụ Simulink để có những quan sát trực quan và đưa ra những
đánh giá phù hợp với bài toán.
Thực nghiệm đo lường, thống kê số liệu tạo cơ sở cho các phân tích đánh giá
1.5. Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học của luận án được thể hiện trong đề xuất hai giải pháp tiên tiến nén
ảnh khung hình, nâng cao về hiệu năng nén nhằm áp dụng cho hệ thống màn hình tinh thể
lỏng, “Advanced Robust Adaptive Image Coding” và “Wavelet Lifting Transform base
Multi-Adaptive Image Coding”, tương ứng với hai hướng tiếp cận khác nhau mà luận án đã
thực hiện. Đề xuất phát triển về kỹ thuật lượng tử hóa, kỹ thuật tối ưu hóa quá trình lượng
tử các khối ảnh thông qua giải pháp phân phối bit, những kỹ thuật mới được đề xuất này
không bị bó hẹp trong lĩnh vực nén ảnh khung hình cho màn hình tinh thể lỏng mà chúng
có khả năng áp dụng cho lĩnh vực nén ảnh nói chung.
Ý nghĩa thực tiễn của luận án được thể hiện qua các giải pháp nén đề xuất hướng áp
dụng vào công nghệ màn hình tinh thể lỏng cho phép sản xuất thế hệ màn hình tinh thể
lỏng có độ phân giải cao, chất lượng hiển thị hình ảnh tốt với một giá thành thấp hơn. Ví
dụ với chuẩn công nghệ màn hình UHD 8K (Ultra High Definition). Đến thời điểm này,
năm 2015, nhiều nhà sản xuất màn hình tinh thể lỏng trên thế giới đã cho ra đời thế hệ màn
hình chuẩn UHD 8K có độ phân giải 7680×4320 với tốc độ khung hình là 120fps (frames
per second), dẫn đến yêu cầu về tốc độ truy xuất dữ liệu bộ nhớ khung hình bị đẩy lên đến
mức 178 GB/s, một tốc độ quá cao so với nền tảng công nghệ sản xuất bộ nhớ DRAM hay
DDRAM hiện tại, khiến cho giá thành thiết kế bộ nhớ khung hình trở nên rất đắt đỏ. Từ đó
vấn đề nén ảnh khung hình càng trở nên bức thiết hơn nhằm giảm tốc độ truy xuất dữ liệu
bộ nhớ, tiến đến hạ giá thành sản phẩm. Để trong tương lai gần sản phẩm thật sự phù hợp
với túi tiền của đa số người tiêu dùng. Giúp người tiêu dùng có cơ hội bắt kịp được với sự
chuyển mình của ngành công nghiệp sản xuất nội dung truyền hình và video, khi mà phần
6
lớn các hãng truyền thông và sản xuất nội dung video lớn trên thế giới, các hãng truyền
hình lớn trên các châu lục đã và đang bắt đầu quá trình chuyển đổi sang chuẩn UHD.
Tóm lại, có thể khẳng định rằng đề tài của luận án này thật sự mang nhiều ý nghĩa
khoa học và thực tiễn.
1.6. Bố cục luận án
Bố cục của luận án gồm 5 chương, ngoài hai chương MỞ ĐẦU và KẾT LUẬN, ba
chương còn lại tập trung vào trình bày lý thuyết tổng quan cũng những kết quả nghiên cứu
mà luận án đã đạt được, cụ thể:
Chương 2: Trình bày sơ lược về lịch sử phát triển của công nghệ màn hình tinh thể
lỏng và kỹ thuật tăng tốc overdrive giúp tăng tốc độ đáp ứng của các phần tử tinh thể lỏng.
Một số cơ sở lý thuyết áp dụng trong bài toán nén ảnh khung hình. Nghiên cứu tổng quan
về lĩnh vực nén ảnh khung hình trong hệ thống overdrive. Phân tích và thực nghiệm nhằm
đánh giá ưu và nhược điểm của một số giải pháp nén ảnh tiên tiến đã được đề xuất áp dụng
cho màn hình tinh thể lỏng. Trên cơ sở đó đưa ra một số định hướng nghiên cứu cải tiến.
Chương 3: Nghiên cứu và phân tích sâu hơn các khuyết điểm trong một số giải pháp
nén ảnh tiên tiến sử dụng nền tảng cơ bản là các kỹ thuật mã hóa khối và biến đổi không
gian màu. Từ đó đề xuất các kỹ thuật khắc phục áp dụng vào trong các sơ đồ giải pháp cải
tiến nhằm nâng cao hiệu năng nén. Nghiên cứu đề xuất áp dụng lý thuyết phân phối bít vào
nén ảnh khung hình cùng một số kỹ thuật lượng tử hóa tối ưu, dựa vào đó từng bước nâng
cao chất lượng nén và giảm độ phức tạp tính toán qua từng giải pháp. Kết quả đã đạt được
một số đề xuất cải tiến có tính kế thừa từng bước một nhằm nâng cao chất lượng ảnh hay
cải thiện độ phức tạp tính toán. Sau cùng, luận án đã đi đến được một giải pháp nén ảnh
khung hình có tính tiên tiến về hiệu năng với tên gọi ARAIC, mang lại sự cải tiến vượt trội
về chất lượng ảnh, giảm độ phức tạp tính toán và sơ đồ kiến trúc thực thi có phần tinh gọn.
Tất cả các đề xuất trong chương này đều được cài đặt thực nghiệm, phân tích, so sánh và
đánh giá.
Chương 4: Nghiên cứu và phân tích các nhược điểm của giải pháp nén ảnh DAMS. Từ
đó tìm kiếm giải pháp khắc phục thông qua các đề xuất như kỹ thuật ngưỡng thích nghi, kỹ
thuật biến đổi wavelet lifting integer to integer, và một số điều chỉnh về sơ đồ giải pháp.
Trải qua hai giai đoạn nghiên cứu cải tiến và phát triển có tính kế thừa: Giai đoạn một luận
án đã đưa ra đề xuất cải tiến DAMS bằng cách tích hợp kỹ thuật ngưỡng thích nghi để hình
thành nên giải pháp DBMAIC cho khả năng thích nghi cao và mang lại chất lượng ảnh
vượt trội; Giai đoạn hai là cải thiện độ phức tạp tính toán của DBMAIC với kỹ thuật biến
đổi tín hiệu ảnh Wavelet Lifting Integer to Integer, cùng một số cải tiến về mặt lượng tử để
7
hình thành nên giải pháp WLT-MAIC. Những phân tích và đánh giá cho thấy tính tiến tiến
của WLT-MAIC thể hiện qua hiệu năng vượt trội của nó so với giải pháp gốc DAMS.
Trong chương này cũng đồng thời đưa ra các so sánh và đánh giá giữa hai hướng tiếp cận
trong luận án. Tập trung một số phân tích và đánh giá so sánh trên hai kết quả tốt nhất của
hai hướng tiếp cận là ARAIC và WLT-MAIC, các so sánh và đánh giá nhằm thể hiện rõ
những ưu - khuyết điểm và đưa ra những nhận định hay khuyến nghị đối với nhà sản xuất
khi chọn lựa giải pháp. Cuối cùng là phần so sánh đánh giá với 2 giải pháp nén tiên tiến nổi
bật nhất mới được đề xuất trên thế giới vào cuối giai đoạn nghiên cứu của luận án là LTC
[22] và SAMS [11].
Chương 5: Tóm tắt các nội dung nghiên cứu chính của luận án. Trình bày cô đọng các
kết quả mới mà luận án đã đạt được, và cuối cùng là nêu lên hướng phát triển tiếp theo của
luận án.
8
CHƢƠNG 2: TỔNG QUAN VỀ VẤN ĐỀ NÉN ẢNH CHO
MÀN HÌNH TINH THỂ LỎNG
Trong chương này luận án sẽ trình bày sơ lược về lịch sử phát triển của màn hình tinh
thể lỏng và kỹ thuật tăng tốc overdrive, vấn đề nén ảnh áp dụng cho hệ thống overdrive của
của màn hình tinh thể lỏng, mối tương quan giữa chất lượng nén và chất lượng ảnh hiển thị
trên màn hình, một số yêu cầu đặc trưng cho hệ thống nén ảnh trên màn hình tinh thể lỏng,
tổng quan về nén ảnh nhằm giảm bộ nhớ khung hình trong màn hình tinh thể lỏng. Và sau
cùng là một số cơ sở lý thuyết có liên quan. Kỹ thuật nén ảnh trình bày trong chương này
sẽ được giới hạn trong không gian hai chiều (chiều rộng và chiều cao).
2.1. Lịch sử phát triển của màn hình tinh thể lỏng và vấn đề chất
lƣợng hiện thị hình ảnh động
2.1.1. Lịch sử phát triển của màn hình tinh thể lỏng
Ngày nay, trong giai đoạn phát triển bùng nổ của các thiết bị kỹ thuật số thì màn hình
tinh thể lỏng trở nên quá gần gũi với chúng ta. Chúng ta có thể thấy màn hình tinh thể lỏng
được lắp đặt trong khá nhiều thiết bị. Từ đồng hồ kỹ thuật số, cho đến máy tính cá nhân,
điện thoại di động, ti-vi LCD và ti-vi LED trong các hộ gia đình, hay các thiết bị giải trí
đang rất thời thượng và được đông đảo giới trẻ đón nhận như máy tính bảng, máy đọc
sách,…v.v.
Để có được sự phát triển và ứng dụng mãnh mẽ như ngày nay thì màn hình tinh thể
lỏng đã có một lịch sử phát triển lâu dài qua nhiều giai đoạn. Mốc lịch sử đầu tiên phải kể
đến đó là và năm 1888, nhà thực vật học và hóa học người Áo, Friedrich Reinitzer, đã tìm
ra các phần tử tinh thể (liquid-crystal) trong chất béo được chiết xuất từ cà-rốt. Đến năm
1962, nhà nghiên cứu Richard Williams đã tạo mẫu dạng sọc (stripe-patterns) trong một
lớp mỏng của vật liệu tinh thể lỏng bằng cách ứng dụng tác động điện áp lên các tinh thể.
Hiệu ứng này được dựa trên sự tạo hình bất ổn định điện-thủy động lực (electrohydrodynamic instability forming). Năm 1958, Dr. Glenn Brown là người viết bài báo đầu
tiên nghiên cứu về màn hình tinh thể lỏng ở Mỹ. Giữa những năm 1964 và 1968, tại trung
tâm nghiên cứu RCA David Sarnoff ở Princeton, bang New Jersey của Mỹ, một nhóm các
kỹ sư và các nhà khoa học dẫn đầu bởi George Heilmeier với Louis Zanoni và Lucian
Barton, đã phát minh ra một phương pháp sử dụng điện áp để điều khiển ánh sáng phản xạ
từ các phần tử tinh thể lỏng, nó minh chứng cho màn hình tinh thể lỏng đầu tiên. Công việc
9
của họ đã mở ra một ngành công nghiệp toàn cầu sản xuất hàng triệu màn hình tinh thể
lỏng từ đó đến nay.
Màn hình tinh thể lỏng của Heilmeier sử dụng phương pháp tán xạ động mà ông gọi là
DSM (Dynamic Scattering Method), trong đó một vật mang điện được áp dụng để sắp xếp
lại các phân tử vì thế chúng có thể tán xạ ánh sáng. Thiết kế DSM làm việc kém và đã
được chứng minh là quá tốn năng lượng. Nó đã được thay thế bởi một phiên bản cải tiến,
sử dụng các tinh thể dạng xoắn hay còn gọi là các tinh thể nematic hoạt động hiệu quả hơn,
phát minh bởi James Fergason vào năm 1969. Nhà phát minh sáng chế James Fergason
nắm giữ một số bằng sáng chế cơ bản trong lĩnh vực màn hình tinh thể lỏng vào đầu những
năm 1970, bao gồm cả bằng sáng chế ở Mỹ có tính then chốt mang số hiệu US3,731,986
cho "Display Devices Utilizing Liquid Crystal Light Modulation". Năm 1972, Công ty
International Liquid Crystal (ILIXCO) thuộc sở hữu của James Fergason đã sản xuất đồng
hồ màn hình tinh thể lỏng hiện đại đầu tiên dựa trên bằng sáng chế của James Fergason.
Đến năm 1973, Hãng Sharp đã sản xuất ra chiếc máy tính di động đầu tiên sử dụng màn
hình màn hình tinh thể lỏng theo công nghệ DSM (nguồn [4], [27]).
Hình 2.1. Mô tả cấu tạo màn hình TFT-LCD
Năm 1979, Walter Spear và Peter LeComber đã tạo ra màn hình màu đầu tiên dùng
công nghệ TFT (Thin-Film Transistor). Năm 1985, Seiko-Epson công bố sản phẩm “TV
set” màu thương mại đầu tiên, nó có kích thước hiển thị là 2 inch. Năm 1992, Sharp đã
phát triển thành công sản phẩm màn hình tinh thể lỏng kích thước 16.5 inch tương thích
với việc hiển thị hình ảnh đa phương tiện (multimedia-compatible). Năm 2004, hãng
Philips đã trưng bày một màn hình tinh thể lỏng 20 inch theo công nghệ hiện thị ba chiều
(3-D) tại hội chợ thương mại CeBIT ở Hannover nước Đức. Năm 2005, hãng Sammung đã
phát triển màn hình lớn nhất thế giới lúc bấy giờ có kích thước 82 inch hiển thị theo chuẩn
định dạng có độ phân giải cao “Full HD” dùng công nghệ TFT. Cho đến thời điểm hiện
nay, năm 2014, thì hầu hết các hãng sản xuất màn hình tinh thể lỏng lớn trên thế giới đều
đã cho ra đời các sản phẩm màn hình tinh thể lỏng độ phân giải UHD 4K, mặc dù hiện tại
10
giá thành của chúng còn rất đắt. Và trong một tương lai không xa, các sản phẩm màn hình
tinh thể lỏng độ phân giải UHD 8K có thể sẽ trở nên phổ biến.
2.1.2. Vấn đề chất lƣợng hiển thị hình ảnh động trên màn hình tinh thể lỏng
Như đã nói ở trên, màn hình tinh thể lỏng đã trở nên rất phổ biến trên thị trường thiết
bị giải trí gia dụng cũng như trong công nghiệp. Tuy nhiên, điểm yếu của nó là hiện tượng
hiển thị không rõ nét, hay bị nhòe, đối với các cảnh động, được gọi là hiệu ứng motionblur, được minh họa qua Hình 2.2. Nguyên nhân là do các phần tử tinh thể lỏng đáp ứng lại
sự thay đổi độ sáng khi chuyển đổi từ khung hình trước sang khung hình sau với một tốc
độ chậm (slow response). Trong tình huống xấu nhất, các phần tử tinh thể xoắn nematic có
thể phải mất khoảng 67-84ms để hoàn thành việc chuyển đổi độ sáng [25], trong khi đó
theo chuẩn hiển thị hình ảnh chuyển động thì mỗi giây cần hiển thị tối thiểu 30 khung hình,
hay nói cách khác là tốc độ đáp ứng của các phần tử phải không vượt quá 33ms. Để giải
quyết vấn đề trên, người ta đã từng nghiên cứu và phát triển các chất tinh thể lỏng mới có
thời gian đáp ứng nhanh hơn. Tuy nhiên, rất đáng tiết là những kết quả mang lại không đủ
để cải thiện tốc độ đáp ứng chậm đối với các mức xám, vì vấn đề thời gian đáp ứng chậm
liên quan đến động lực của tinh thể (LC operation dynamics) [25]. Một vài phương pháp
tiếp cận khác để giải quyết vấn đề tốc độ đáp ứng chậm là phát triển và hoàn thiện mô hình
tinh thể lỏng mới như “OCB” hay “MVA Driven by Oblique Electric Field”. Tuy nhiên,
những mô hình mới này có yêu cầu khác biệt về thiết kế (design), xử lý (process), và
nguyên liệu. Bởi vậy, chúng có một số bất lợi như ảnh hưởng đến hiệu năng hiển thị với lợi
nhuận và năng suất. Do đó, những mô hình mới này vẫn không thành công trong việc
Illustration of Motion Blur
chuyển đổi thành các sản phẩm.
Hình 2.2. Minh họa hiện tượng Motion-Blur trên màn hình tinh thể lỏng
Một hướng nghiên cứu khác có tính thực tiễn hơn nhằm giải quyết vấn đề trên đã được
K. Nakanishi, S. Takahashi, H. Oura và các đồng nghiệp đề xuất trong [25] với tên gọi kỹ
thuật FFD (Feedforward Driving). Kỹ thuật này giúp cải thiện tốc độ đáp ứng của các phần
tử tinh thể xuống dưới 20ms, bằng cách ghép thêm vào hệ thống một mạch FFD trên nền
kiến trúc truyền thống của màn hình tinh thể lỏng sử dụng các tinh thể xoắn nematic. Kỹ
thuật FFD có thể được mô ta qua Hình 2.3. Kỹ thuật FFD còn được biết đến với tên gọi
khác là kỹ thuật “overdrive” cho màn hình tinh thể lỏng.
11
Hình 2.3. Sơ đồ khối của màn hình tinh thể lỏng 15inch XGA dùng kỹ thuật FFD [25].
2.2. Overdrive – một kỹ thuật tăng tốc độ đáp ứng cho các phần
tử tinh thể lỏng
Như đã đề cập ở phần trước, kỹ thuật overdrive giúp tăng tốc độ đáp ứng cho các phần
tử tinh thể. Khả năng tăng tốc cho các phần tử tinh thể của overdrive dựa trên ý tưởng khá
đơn giản là: điện áp liên quan đến động lực chuyển động của các tinh thể, vì vậy điện áp
càng lớn thì tốc độ chuyển động càng cao, hay nói cách khác là các phần tử tinh thể sẽ đáp
ứng nhanh hơn khi điện áp được tăng lên. Vì vậy hệ thống overdrive sẽ sinh ra một điện áp
hợp lý cao hơn mức điện áp vốn được áp dụng trong kỹ thuật cũ trước đây để cải thiện tốc
độ đáp ứng xuống mức dưới 20ms.
Hình 2.4. Đồ thị độ chói - thời gian đáp ứng mô tả cách thức xác định điện áp tăng tốc.
Hình 2.4 mô tả cách thức để xác định điện áp tăng tốc. Giả sử rằng độ chói hiện tại
đang thể hiện tại một điểm ảnh (x,y) nào đó trên màn hình là 105 cd/m2, và sang khung
hình tiếp theo chúng ta cần giảm về mức 60 cd/m2, thì mức điện áp được áp dụng sẽ lần
lượt là 1.31V và 1.75V. Dưới điều kiện điện áp thay đổi đơn giản từ 1.31V đến 1.75V thì
thời gian đáp ứng sẽ kéo dài đến 45ms. Để hoàn thành việc chuyển đổi từ mức độ chói hiện
tại (105 cd/m2) sang mức độ chói kế tiếp (60 cd/m2) với ngưỡng thời gian đáp ứng mong
muốn là 16.7ms thì mức điện áp cần áp dụng phải tăng từ 1.75V lên mức 2.27V như trong
Hình 2.4. Và Bảng 2.1 cho phép chúng ta xác định được mức điện áp tăng tốc cần phải áp
12
dụng để chuyển đổi từ một trong các mức độ chói hiện tại sang mức độ chói tiếp theo ở
mức 60cd/m2 với thời gian đáp ứng là 16.7ms (nguồn [25]).
Bảng 2.1. Điện áp tăng tốc áp dụng để chuyển đổi từ mức độ chói hiện tại sang mức
độ chói tiếp theo ở mức 60cd/m2 với thời gian đáp ứng 16.7ms (nguồn [25])
Độ chói hiện tại [cd/m2]
105
93
81
Điện áp tăng tốc [V]
2.27
2.07
1.95
Từ đó chúng ta thấy rằng kỹ thuật overdrive được thực hiện dựa vào một bảng tra
(Lookup Table) được chứa trong ROM (xem Hình 2.3) nhằm xác định ra mức điện áp tăng
tốc cần áp dụng trên một điểm ảnh, dựa vào cặp giá trị mức chói của điểm ảnh đó trong
quá khứ và hiện tại, với thời gian chuyển đổi trong ngưỡng 16.7ms. Khái niệm overdrive
được minh họa một cách khái quát và trực quan hơn qua Hình 2.5 dưới đây:
1 frame time
Overdriving correction
Driving voltage
Destination level
Optical response
Initial level
Response time
Response time
Time
Hình 2.5. Minh họa giải pháp tăng tốc độ chuyển đổi mức xám (hay độ chói) thông
qua cơ chế hiệu chỉnh tăng ngưỡng điện áp.
Hình 2.6. So sánh thời gian đáp ứng (nguồn [25]). (a) Kỹ thuật điều khiển (dẫn động)
thông thường (b) Kỹ thuật overdrive.
Hình 2.6 cho thấy khả năng cải thiện thời gian chuyển đổi mức sáng trên màn hình
tinh thể lỏng khi áp dụng kỹ thuật tăng tốc overdrive (hình (b)) so với khi không áp dụng
13
kỹ thuật tăng tốc overdrive (hình (a)). Dễ thấy là thời gian chuyển đổi giữa hai mức sáng
bất kỳ đã được cải thiện xuống dưới mức 16.7ms.
2.3. Mô hình hệ thống Overdrive và yêu cầu nén ảnh giảm bộ nhớ
khung hình
2.3.1. Mô hình hệ thống overdrive
Kỹ thuật overdrive có thể được áp dụng trên các hệ thống màn hình tinh thể lỏng với
mô hình đơn giản thể hiện qua Hình 1.2 (trang 2). Có thể mô tả hoạt động của hệ thống
overdrive đơn giản như sau: Khi giá trị một điểm ảnh trong khung hình hiện tại (Fn) được
chuyển đến thì nó cần tham chiếu đến giá trị cũng của điểm ảnh đó nhưng trong khung
hình thời điểm trước đó (Fn-1) được lưu trữ trong bộ nhớ khung hình (Frame Memory), sử
dụng cặp giá trị này làm chìa khóa tìm kiếm trong một bảng tra (Lookup table), để cho ra
kết quả là giá trị hiệu điện thế tăng tốc cần áp dụng lên phần tử tinh thể tại điểm ảnh đang
xét để tăng tốc độ đáp ứng của nó, giúp cho điểm ảnh hiển thị chính xác trong khoảng thời
gian chuyển đổi ngắn.
Với sự ra đời của các chuẩn định dạng truyền hình và video độ phân giải cao (HD) và
siêu cao (UHD) đã đẩy yêu cầu về dung lượng bộ nhớ lưu trữ khung hình tăng lên mức cao
hay rất cao, cùng với yêu cầu về băng thông bộ nhớ cũng tăng vọt theo sự tăng trưởng của
độ phân giải và khả năng hiển thị khung hình với tốc độ cao của thiết bị màn hình. Bảng
2.2 thể hiện yêu cầu về dung lượng và băng thông của bộ nhớ dùng trong màn hình tinh thể
lỏng, theo các chuẩn định dạng HD 720p/1080p hay UHD 4K/8K khi thiết kế tốc độ hiển
thị khung hình ở các mức 30, 60 hay 120 khung hình trên một giây.
Bảng 2.2. Yêu cầu dung lượng và tốc độ truyền tải dữ liệu của bộ nhớ khung hình trên
Ti-vi chuẩn HD và UHD.
Chuẩn định dạng
Số cột Số dòng
Dung lƣợng
Băng thông
(Mbit)
(Gbit/s)
HD 720p /30fps
1280
720
21.1
1.2
HD 720p /60fps
1280
720
21.1
2.5
HD 1080p /30fps
1920
1080
47.5
2.8
HD 1080p /60fps
1920
1080
47.5
5.6
UHD 2160p /60fps (4K)
3840
2160
189.8
22.2
UHD 2160p /120fps (4K)
3840
2160
189.8
44.5
UHD 4320p /60fps (8K)
7680
4320
759.4
89.0
UHD 4320p /120fps (8K)
7680
4320
759.4
178.0
14
Trong hệ thống overdrive hoạt động ở tốc độ 120 khung hình một giây, thì sẽ cần 120
lần ghi dữ liệu ảnh khung hình vào bộ nhớ và 120 lần đọc dữ liệu ảnh khung hình từ bộ
nhớ một cách đồng bộ. Vậy tổng số dữ liệu trao đổi với bộ nhớ trong một giây là:
(120+120) * Dung lượng dữ liệu ảnh khung hình. Từ đó cho chúng ta công thức tính yêu
cầu dung lượng và băng thông đối với bộ nhớ khung hình cho bảng trên là: Yêu cầu dung
lượng: (Số cột × Số dòng) × 24bit; Yêu cầu băng thông: (Tốc độ khung hình × 2) × Yêu cầu
dung lượng. Ví dụ với UHD 4320p /120fps (8K): Yêu cầu dung lượng =
7680×4320×24(bit)/220 759.4Mbit; Yêu cầu băng thông = (120×2) × Yêu cầu dung lượng /230
178Gbit.
Thông thường bộ nhớ khung hình được thiết kế bởi bộ nhớ DRAM [25][18], mà giá
thành của DRAM lại phụ thuộc vào dung lượng và tốc độ trao đổi dữ liệu [18]. Khi yêu
cầu về dung lượng và tốc độ trao đổi dữ liệu của bộ nhớ DRAM bị đẩy lên cao đã làm tăng
giá thành của sản phẩm màn hình. Điều đó làm nảy sinh nhu cầu áp dụng kỹ thuật nén ảnh
khung hình vào hệ thống overdrive để giảm yêu cầu về dung lượng và tốc độ trao đổi dữ
liệu của bộ nhớ DRAM, tiến đến giảm giá thành của sản phẩm màn hình tinh thể lỏng.
2.3.2. Vấn đề yêu cầu nén ảnh khung hình cho màn hình tinh thể lỏng
Dữ liệu khung hình
Dữ liệu khung hình hiện tại
Fn
Codec module
Frame
encoder
Frame
memory
Overdrive
Frame
decoder
𝐹𝑛−1
(LUT)
Overdriven
Frame
Dữ liệu khôi phục của khung hình thời điểm trước
Hình 2.7. Mô hình một hệ thống overdrive có sử dụng kỹ thuật nén ảnh nhằm giảm yêu
cầu về dung lượng và tốc độ truy xuất dữ liệu của bộ nhớ khung hình.
Mô hình của một hệ thống overdrive trong màn hình tinh thể lỏng có sử dụng kỹ thuật
nén ảnh nhằm giảm yêu cầu về dung lượng và tốc độ trao đổi dữ liệu của bộ nhớ khung
hình được thể hiện qua Hình 2.7. Trong đó, dữ liệu của ảnh khung hình hiện tại (Fn) được
nén lại bởi bộ nén (frame encoder) để giảm dung lượng trước khi chuyển vào frame
memory, đồng thời bộ giải nén (frame decoder) sẽ đọc dữ liệu nén trong frame memory để
15
khôi phục lại dữ liệu ảnh khung hình ở thời điểm trước đó (Fn-1) cung cấp cho bộ
overdrive, nhằm phối hợp với dữ liệu của ảnh khung hình hiện tại để tìm ra điện áp tăng
tốc.
Hình 2.8. thể hiện phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình
tinh thể lỏng là ở khâu tái tạo và hiển thị.
Áp dụng các chuẩn nén ảnh/video
thông dụng: JPEG, MPEG, AVI,...
Quan sát
không gian đối tượng
chụp, quay
(camera)
Tái tạo và hiển thị trên
màn hình tinh thể lỏng
Truyền trực tiếp qua
các kênh: vệ tinh, cáp,...
Vấn đề nén ảnh cho màn hình
tinh thể lỏng phục vụ cho khâu
tái tạo và hiển thị
Nén dữ liệu
File ảnh/video
Giải nén dữ liệu
Hình 2.8. Phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể
lỏng độ phân giải cao.
Ở đây có một số khái niệm cần làm rõ:
+ Ảnh khung hình trong hệ thống overdrive, chính là một ảnh để có thể hiện thị đầy đủ
trên màn hình tinh thể lỏng, có số điểm ảnh tương ứng với độ phân giải màn hình được xác
định bởi nhà sản xuất. Do đó ảnh khung hình của màn hình tinh thể lỏng độ phân giải cao
sẽ có số điểm ảnh rất lớn, và đòi hỏi cao về dung lượng frame memory để lưu trữ.
+ Tốc độ hiển thị khung hình của màn hình tinh thể lỏng được xác định bởi nhà sản
xuất chứ không phụ thuộc vào định dạng video cần hiển thị. Hiện nay hầu hết các nhà sản
xuất đều đã cho ra đời các sản phẩm màn hình có tốc độ khung hình là 120fps, độ phân giải
siêu cao (4K đến 8K), các sản phẩm này thường có bộ chuyển đổi cho phép chuyển đổi độ
phân giải và tốc độ khung hình của nguồn dữ liệu đầu vào cho phù hợp với các thông số
của màn hình trước khi được chuyển đến hệ thống hiện thị.
Vấn đề đặt ra cho bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân
giải cao là:
-
Đầu vào là ảnh khung hình có độ phân giải cao, với rất nhiều điểm ảnh cần xử lý.
Đầu ra để phục vụ cho khâu hiện thị ảnh trên màn hình.
16
-
-
Bộ nén (codec) phải thực hiện đồng thời hai nhiệm vụ nén dữ liệu (encode) và giải nén
dữ liệu (decode) với khối lượng dữ liệu lớn trong một khoảng thời gian ngắn, ví dụ với
màn hình có tốc độ 120fps thì khoảng thời gian chỉ ở mức 1/120 giây. Vì vậy bộ nén
phải đảm bảo tốc độ xử lý cao.
Chất lượng ảnh phải cao để đảm bảo độ trung thực cho hệ thống hiển thị.
Tỷ số nén lớn và độ phức tạp tính toán không cao để đảm bảo tính thực tiễn khi triển
khai áp dụng thực tiễn.
Với những yêu cầu trên, có thể thấy giải quyết bài toán nén ảnh khung hình cho màn
hình tinh thể lỏng độ phân giải cao là một nhiệm vụ không đơn giản. Cần có những nghiên
cứu để có thể đưa ra được các giải pháp nén phù hợp với những yêu cầu nói trên. Để có thể
triển khai áp dụng vào thực tiễn nhằm giảm giá thành cho hệ thống overdrive.
2.3.3. Các đặc trƣng của phƣơng pháp nén ảnh áp dụng cho hệ thống
Overdrive
Từ bối cảnh thực tế của bài toán nén ảnh khung hình và mô hình hệ thống overdrive có
áp dụng các khối nén và giải nén ở trên, có thể rút ra một số đặt trưng của phương pháp
nén ảnh áp dụng cho hệ thống Overdrive như sau:
1. Bài toán nén ảnh khung hình trong màn hình tinh thể lỏng là nhằm mục đích giảm
yêu cầu về dung lượng và tốc độ trao đổi dữ liệu (hay băng thông) của bộ nhớ
khung hình trong hệ thống overdrive, giúp giảm giá thành chế tạo hệ thống
overdrive tiến đến giảm giá thành sản phẩm. Khác với phần lớn các phương pháp
nén ảnh hay video thông thường vốn nhằm mục đích giảm dung lượng lưu trữ trên
các thiết bị nhớ hoặc giảm băng thông trên đường truyền mạng.
2. Tỷ số nén đạt được phải có tính ổn định, ví dụ Cr = 2, 3, 4, hay 6, để các nhà sản
xuất có thể xác định được chính xác thông số cần chế tạo. Đây cũng là điểm khác
biệt so với các phương pháp nén ảnh thông thường nhằm giảm dung lượng lưu trữ
như chuẩn JPEG hay JPEG2000, với tỷ số nén phụ thuộc phần lớn vào nội dung
của ảnh và mức độ tổn hao mà người dùng chọn lựa.
3. Sự tổn hao do nén phải ở mức thấp để giảm thiểu ảnh hưởng (gián tiếp qua hệ
thống overdrive) đến chất lượng hiện thị hình ảnh trên màn hình. Từ đó yêu cầu
đặt ra cho các giải pháp nén ảnh khung hình là chất lượng ảnh khôi phục phải cao.
Đồng thời hình ảnh hiện thị trên màn hình phải đảm bảo tính trung thực về thị giác
trong bối cảnh các hình ảnh được hiển thị liên tục (60fps hay 120fps), tránh hay
giảm thiểu các hiện tượng nhiễu (noise), rung (vibrate effect), khối (blocking
effect) vốn rất nhạy cảm với mắt người xem khi quan sát chuỗi hình ảnh liên tục.
Đây là điểm khác biệt so với các chuẩn nén ảnh JPEG hay JPEG2000. Bối cảnh áp
dụng thông thường của JPEG hay JPEG2000 là nén các bức ảnh rời rạc (không thể
hiện tính liên tục của chuyển động như trong video), các hình ảnh giải nén sau đó
thường được in ấn hay hiển thị rời rạc, do đó một số khiếm khuyết về đường nét
chi tiết trên ảnh nén cũng khó được người xem nhận ra khi quan sát thông thường.
17
Đây chính là một trong các yêu tố giúp những chuẩn nén ảnh như JPEG hay
JPEG2000 nâng tỷ số nén lên rất cao, đổi lại bằng sự suy giảm chất lượng ảnh khôi
phục, nhưng vẫn dễ dàng nhận được sự chấp nhận của người dùng.
4. Đảm bảo khả năng thực hiện theo thời gian thực (real time), hay nói cách khác là
tốc độ xử lý phải đảm bảo sự đồng bộ giữa các bộ phận trong hệ thống overdrive
theo đúng tốc độ được đặt ra cho toàn bộ hệ thống. Đồng thời yêu cầu độ phức tạp
tính toán và kiến trúc thực thi cho giải pháp phải ở mức chấp nhận được theo
nghĩa: không yêu cầu một kiến trúc phần cứng cồng kềnh phức tạp, năng lực xử lý
mạnh (High-Powered Processors), vì như thế sẽ làm cho giá thành của hệ thống
overdrive tăng lên, làm giảm hay mất đi tính khả thi về mặt kinh tế. Đây cũng là
điểm khác biệt so với các giải pháp nén ảnh thông thường, vốn chỉ nén các bức ảnh
rời rạc để lưu trữ nên chủ yếu đặt nặng vấn đề tỷ số nén, không đòi hỏi quá cao về
mặt tốc độ, và có thể chấp nhận các thuật toán khá phức tạp vì không đòi hỏi sự
đồng bộ khắc khe.
2.4. Mô hình hệ thống nén ảnh dùng cho hệ thống overdrive
2.4.1. Hệ thống nén ảnh khung hình
Từ các đặc trưng của giải pháp nén ảnh áp dụng cho hệ thống overdrive là phải có tỷ
số nén ổn định, theo nghĩa phải đạt được tỷ số nén luôn nhỏ hơn hoặc bằng một hằng số.
Và hơn thế nữa là một tỷ số nén cao nhằm tối đa hóa hiệu xuất cải thiện dung lượng bộ nhớ
và băng thông, vì vậy các giải pháp nén ảnh đề xuất áp dụng cho hệ thống overdrive nói
chung đều ở dạng có mất mát thông tin (lossy) hoặc mất mát rất ít thông tin (near-lossless),
thường áp dụng kỹ thuật mã hóa với độ dài từ mã cố định (Fixed-Length Codeword) để
luôn đạt được một tỷ số nén ở mức đáng kể và có tính ổn định, có thể áp dụng lên phần
cứng (hardware).
Dựa trên mô hình áp dụng cho các giải pháp nén ảnh trong truyền thông nói chung với
ba thành phần chính gồm: Biến đổi, Lƣợng tử hóa, và Mã hóa (Hình 2.9). Cùng với sự
phân tích các đặc trưng riêng mà một giải pháp nén áp dụng cho hệ thống overdrive cần có.
Chúng tôi đề nghị mô hình khái quát chung với ít nhiều chi tiết dễ hiểu cho giải pháp nén
ảnh áp dụng vào hệ thống overdrive như thể hiện trong Hình 2.10 sau đây:
Dữ liệu ảnh
nguồn
(Image source)
Biến đổi
(Transformation)
Lượng tử hóa
(Quantization)
Mã hóa
(Encode)
Dữ liệu nén
(Data coded)
Hình 2.9. Mô hình với ba thành phần chính trong một hệ thống nén ảnh áp dụng trong
truyền thông.
18
Dữ liệu ảnh đầu
vào cho LCD
(dạng tuần tự)
Bộ đệm dòng
(N-Line buffer)
Biến đổi
(Transformation)
Lượng tử hóa
(Quantization)
Gán từ mã có cùng độ dài
Dữ liệu nén
(Uniform-Length Codeword (Data coded)
Assignment )
Hình 2.10. Mô hình khái quát với bốn thành phần chính trong một hệ thống nén ảnh
áp dụng cho overdrive trong màn hình tinh thể lỏng.
Về mặt nguyên lý, mô hình chung giải pháp nén ảnh áp dụng cho hệ thống overdrive
trong màn hình tinh thể lỏng sử dụng ba thành phần chính như đã nêu trong mô hình chung
của giải pháp nén cho truyền thông. Tuy nhiên có một số điểm khác sau:
-
-
Mã hóa: có hai kỹ thuật mã hóa chính là gán từ mã có cùng độ dài (uniform-length hay
fixed-length) vốn rất đơn giản và sẽ cho ra một tỷ số nén cố định. và gán từ mã với độ
dài biến đổi (variable-length) dựa trên số liệu thống kê hay độ đo entropy của thông tin
với độ phức tạp tính toán khá cao và không đảm bảo một tỷ số nén ổn định cần thiết
cho mô hình nén trong hệ thống overdrive. Qua nghiên cứu các giải pháp nén ảnh cho
màn hình tinh thể lỏng đã được đề xuất, tất cả đều sử dụng kỹ thuật gán từ mã cố định.
Đó chính là lý do cho đề xuất chỉ sử dụng dạng uniform-length codeword assignment
trong luận án này.
Bộ đệm dòng: để nhấn mạnh số dòng cần tích lũy (không thể là toàn bộ bức ảnh) trước
khi thực hiện các công đoạn biến đổi hay lượng tử, được xem xét như một phần của sự
phức tạp trong kiến trúc thực thi của giải pháp nén.
Một số tính chất sau cũng cần được đảm bảo khi nghiên cứu đề xuất một giải pháp nén
ảnh cho hệ thống ovedrive trong màn hình tinh thể lỏng:
Các phép biến đổi và lượng tử hóa xử lý với dữ liệu đầu vào là các dòng ảnh (line
image) hoặc khối ảnh (block image), và việc lựa chọn kích thước của dòng ảnh hay
khối ảnh luôn cần được cân nhắc và đánh giá, bởi ngoài mối liên hệ đến chất lượng
và tỷ số nén nó còn liên quan đến kích thước bộ đệm dòng (N-line buffer), vốn
được thiết kế bởi SRAM nhằm đảm bảo tốc độ liên kết giữa memory (cache) và bộ
xử lý ảnh được đồng bộ. Vì vậy việc xem xét đánh giá hay nghiên cứu đề xuất các
giải pháp nén ảnh cho overdrive rất cần xem xét đến yếu tố kích thước bộ đệm
dòng như là một phần chủ đề của sự phức tạp cho phần cứng.
Để tăng hiệu quả của giải pháp nén ảnh, thông thường người ta có xu hướng sử
dụng kết hợp một vài phép biến đổi với nhau, song trong lựa chọn này nhất thiết
phải chú ý đến độ phức tạp tính toán và khả năng thực hiện thời gian thực.
Việc chọn lựa giải pháp mã hóa cũng cần có chú ý tương tự. Để đảm bảo độ phức
tạp tính toán chung của cả giải pháp nén, và khả năng thực hiện thời gian thực.
Như đã được đề cập ở trên, rõ ràng phương pháp nén ảnh áp dụng cho hệ thống
overdrive có những đặc trưng riêng, chuyên biệt cho bài toán nén nhằm giảm dung lượng
19
cũng như tốc độ truyền tải dữ liệu của bộ nhớ khung hình. Trong phần tiếp theo luận án sẽ
trình bày chi tiết về một số độ đo hiệu năng giải pháp nén ảnh khung hình làm công cụ cho
việc xem xét và đánh giá các giải pháp nén ảnh khung hình.
2.4.2. Các độ đo hiệu năng giải pháp nén ảnh khung hình
2.4.2.1. Tỷ số nén
Tỷ số nén ảnh là một số đo dung lượng (DL) của ảnh gốc (ảnh chưa nén) chia cho
dung lượng ảnh đã được nén (hay mã hóa) và được kí hiệu là Cr (Compression Ratio):
(
𝑛
𝑛 𝑛) (
𝑛 𝑛 𝑛)
(2.1)
Đối với phần lớn các giải pháp nén ảnh cho màn hình tinh thể lỏng sử dụng phương
pháp mã hóa khối ảnh, có nghĩa là ảnh được chia ra theo các khối bằng nhau rồi lần lượt
mã hóa từng khối theo thứ tự, với đầu vào bằng nhau sẽ luôn tạo đầu ra là dòng bit dữ liệu
đã được mã hóa có kích thước giống nhau, vì thế tỷ số nén còn được tính bởi công thức:
(
𝑛 𝑛) (
𝑛 𝑛)
(2.1 c)
Ví dụ: Trên một ti-vi LCD chuẩn full HD, thì ảnh khung hình của nó sẽ là một ảnh
màu có kích thước 1920×1080 với 3 kênh màu RGB-24bit. Khi được áp dụng giải pháp
nén theo khối với kích thước khối là 32×4 sẽ được chia ra làm 16200 khối. Giả sử mỗi khối
đầu vào sẽ được nén lại với 512bit dữ liệu mã hóa, thì tỷ số nén sẽ được tính là:
(
) (
)
Trong một số trường hợp, khi mà kích thước của ảnh khung hình không phải là bội số
của kích thước khối ảnh (block), thì người ta thường sử dụng phương án bổ sung thêm các
dòng ảnh hoặc cột ảnh (hoặc cả hai) để sau đó ảnh có thể chia thành các khối đồng kích
thước.
2.4.2.2. Chất lƣợng nén - Các độ đo sai số
Để đánh giá sự khác biệt của ảnh khôi phục sau khi nén so với ảnh gốc qua một đại
lượng đo lường thể hiện bằng một con số, giúp dễ dàng đánh giá và so sánh đối chiếu,
người ta thường sử dụng một số độ đo sau:
Sai số trung bình bình phương (Mean Squared Error -MSE)
Tỷ số tín hiệu mức đỉnh /nhiễu (Peak Signal-to-Noise Ratio - PSNR)
Gọi 𝐹 và 𝐹 lần lượt là các ma trận dữ liệu ảnh gốc và dữ liệu ảnh khôi phục sau khi
nén. Trong không gian màu RGB ảnh được biểu diễn bởi ba ảnh đơn sắc tương ứng với ba
thành phần màu Red, Green và Blue, vì vậy 𝐹
(𝐹 𝐹 𝐹 ) và 𝐹
(𝐹 𝐹 𝐹 ) trong đó
20
mỗi thành phần là một ma trận hai chiều có kích thước M dòng và N cột tương ứng với
kích thước của ảnh. Gọi L là giá trị mức đỉnh của tín hiệu ảnh, với ảnh màu RGB-24bit hay
8bit cho mỗi kênh màu thì L = 28 – 1 = 255. Các độ đo MSE và PSNR cho mỗi thành phần
ảnh đơn sắc cũng như ảnh màu RGB được tính theo các công thức sau:
( ∑ ∑ (𝐹 (
𝑛) − 𝐹 (
𝑛)) )
(2.2)
( ∑ ∑ (𝐹 (
𝑛) − 𝐹 (
𝑛)) )
(2.3)
( ∑ ∑ (𝐹 (
𝑛) − 𝐹 (
𝑛)) )
(2.4)
(
)
(
)
(
(
(2.6)
)
(
(2.5)
)
(2.7)
(2.8)
)
(2.9)
Trong hai độ đo trên, độ đo PSNR được sử dụng phổ biến hơn cả trong lĩnh vực nén
ảnh nhờ tính dễ hiểu và dễ so sánh hợp lý của nó so với MSE. Có thể nói độ đo PSNR
được sử dụng trong hầu hết các đánh giá khoa học về chất lượng nén ảnh. Có thể lý giải
điều này qua đồ thị biến thiên của PSNR theo MSE như Hình 2.11 dưới đây:
PSNR function
PSNR (dB)
100
80
60
40
20
0
0
2000
4000
6000
8000
MSE
Hình 2.11. Đồ thị biến thiên của PSNR theo MSE (với L=255).
Có thể nói PSNR chính là một phiên bản đảo chiều của MSE và kéo giãn những giá trị
MSE rất bé (hay ứng với ảnh nén chất lượng cao, hình đẹp) ra trên một khoảng rộng để dễ
bề so sánh đánh giá, và ngược lại những giá trị MSE lớn (hay ứng với ảnh nén chất lượng
21
thấp, hình xấu) sẽ được nén lại trên một khoảng hẹp. Theo các chuyên gia, với thang đo
PSNR thì ảnh khoảng từ 30dB trở lên có thể xem là có chất lượng; dưới 30dB, chất lượng
tương đối thấp.
2.4.3. Mối tƣơng quan giữa chất lƣợng nén và chất lƣợng ảnh hiển thị trên
màn hình tinh thể lỏng
Để thấy được sự tác động của những sai số khi nén ảnh lên chất lượng hình ảnh hiển
thị trên màn hình tinh thể lỏng chúng ta hãy xem xét trên một thành phần tín hiệu màu R
trong 3 tín hiệu màu RGB của ảnh, và tại thời gian t. Với ký hiệu dữ liệu hình ảnh tại thời
điểm t và (t-1) ứng với thành phần màu R là các ma trận dữ liệu được biểu diễn dưới dạng
hàm tín hiệu số
(
(
𝑛) và
𝑛), trong đó m và n xác định tọa độ của điểm ảnh
trên khung hình, và R xác định thành phần màu. Theo cơ chế hoạt động của hệ thống
overdrive có áp dụng kỹ thuật nén ảnh (Hình 2.7), thì ảnh khung hình tại thời điểm (t-1) là
(
𝑛) được nén (tất nhiên là cùng với các kênh màu còn lại) rồi ghi lên vùng bộ nhớ
khung hình, và đến thời điểm t sẽ thực hiện giải nén để thu được ̂
(
giữa
𝑛) và ̂
̂
(
với
(
(
(
𝑛). Mối liên hệ
𝑛) được xác định qua công thức:
(
𝑛)
𝑛)
(
𝑛)
(2.10)
𝑛) là sai số phát sinh do mã hóa trên thành phần màu R của ảnh.
Xét tại một điểm ảnh (
𝑛 ) bất kỳ trên màn hình trên kênh màu R. Đến thời điểm t
(
điểm ảnh này cần phải chuyển đổi từ mức
𝑛 ) lên mức
(
𝑛 ). Vậy giá trị
chênh lệch để tham chiếu tăng ngưỡng điện áp sẽ là:
(
𝑛 )
(
𝑛 )−
(
𝑛 )
(2.11)
Nhưng trên thực tế, hệ thống sẽ hoạt động theo cơ chế tham chiếu bộ nhớ nên sẽ chỉ có
được giá trị khôi phục ̂
(
̂
𝑛 ), giá trị chênh lệch tham chiếu để tăng áp là:
(
𝑛 ) lên mức
(
(
Giá trị
𝑛 )
𝑛 ), và nó sẽ điều khiển để chuyển đổi từ mức
𝑛 )− ̂
(
(
𝑛 )
(2.12)
xác định theo công thức (2.12) sẽ là cơ sở để tham chiếu đến ngưỡng
điện áp tăng tốc.
Từ (2.10), (2.11) và (2.12) chúng ta có:
(
𝑛 )
(
𝑛 )−
(
𝑛 )
(2.13)
Rõ ràng:
22
(
Nếu
(
𝑛 )
: thì độ chênh lệch tham chiếu để điều khiển tăng tốc sẽ là
𝑛 )
(
𝑛 ), là một giá trị chính nên màn hình sẽ được
điều khiển tăng áp chính xác. Dẫn đến hiển thị điểm ảnh chuẩn xác.
Nếu
sẽ là
(
𝑛 )
(
: thì độ chênh lệch tham chiếu để điều khiển tăng tốc
𝑛 )
(
𝑛 ) − , là một giá trị sai lệch nên tất yếu
sẽ dẫn đến điện áp tham chiếu sai lệch, làm cho điểm ảnh trên màn hình không hiển
thị chính xác giá trị điểm ảnh
(
𝑛 ) như mong muốn.
Từ đó chúng ta có thể kết luận rằng, mọi khác biệt giữa ảnh gốc và ảnh khôi phục (hay
chính là sai số mã hóa) sẽ tác động gián tiếp lên hình ảnh hiển thị trên màn hình tinh thể
lỏng thông qua hệ thống overdrive, và nó làm suy giảm chất lượng hình ảnh hiển thị trên
màn hình. Sự suy giảm này sẽ tác động trực tiếp lên cảm nhận của người xem thông qua thị
giác, vì vậy chúng ta cần xem xét chất lượng nén không chỉ qua các đại lượng đo lường
như MSE hay PSNR mà còn phải xem xét đến các hiện tượng mà ảnh nén có thể mắc phải
như hiệu ứng nhiễu khối (blocking effect), hiện tượng rung động (vibration) tại một cường
độ mức xám cố định, hay hiện tượng các đường nét có tính giả tạo (false contours) vốn
không được xem xét đánh giá đúng mức trong các đại lượng đo lường MSE hay PSNR.
2.4.4. Một số yêu cầu đặc trƣng và tiêu chí đánh giá hệ thống nén ảnh cho
màn hình tinh thể lỏng
2.4.4.1. Một số yêu cầu đặc trƣng của hệ thống nén ảnh cho màn hình tinh thể
lỏng
Sau đây chúng tôi xin liệt kê một số yêu cầu đặc trưng đối với một giải pháp nén ảnh
áp dụng cho màn hình tinh thể lỏng:
1. Đảm bảo tỷ số nén cố định: giải pháp nén phải đạt được tỷ số nén có cố định, để từ
đó xác định được chính xác dung lượng bộ nhớ cần thiết kế cho hệ thống ovedrive.
Bởi vậy phương pháp nén dữ liệu ảnh cho màn hình tinh thể lỏng thường dùng mã
hóa với từ mã có độ dài cố định (fixed-length/uniform-length codeword).
2. Độ phức tạp tính toán hay kiến trúc thực thi ở mức chấp nhận đƣợc và đảm
bảo xử lý thời gian thực: độ phức tạp tính toán (hay kiến trúc thực thi) của giải
pháp nén phải ở một mức độ vừa phải xem xét trong mối liên hệ với tỷ số nén và
chất lượng ảnh đạt được. Bởi nếu độ phức tạp tính toán quá cao sẽ đòi hỏi phải được
xử lý bởi các bộ xử lý mạnh (High-Powered Processors), mà một bộ xử lý như vậy
sẽ có giá thành cao, làm cho bài toán mất tính khả thi về mặt kinh tế. Theo các nhận
định của chuyên gia, để đảm bảo khả năng thực thi theo thời gian thực một cách
23
giản tiện, thì thuật toán xử lý nên ở dạng tuyến tính, tránh sử dụng các phương pháp
lặp với số lần không xác định hay số bước lặp lớn.
3. Chất lƣợng ảnh cao - Hạn chế các hiệu ứng tiêu cực về mặt thị giác: Chất lượng
ảnh khôi phục phải ở mức cao để tránh hiện tượng hệ thống overdrive hoạt động quá
sai lệch làm ảnh hưởng lớn đến chất lượng hình ảnh hiển thị trên màn hình, sẽ khiến
sản phẩm khó được người tiêu dùng chấp nhận. Chất lượng ảnh khôi phục không chỉ
phải đạt chất lượng cao theo các thang đo chất lượng ảnh như MSE hay PSNR, mà
còn phải hạn chế được các hiệu ứng tiêu cực về mặt thị giác như hiệu ứng nhiễu
khối (blocking effect), hiện tượng rung động hay lay động (vibration effect) của
vùng ảnh không hoặc rất ít thay đổi, hay hiện tượng giả tạo (false contours) các
đường nét trong ảnh. Các hiệu ứng tiêu cực này tuy không làm suy giảm đáng kể
chất lượng ảnh khi đánh giá theo các độ đo MSE hay PSNR, song chúng lại mang
lại cảm giác khó chịu khi quan sát bằng thị giác một khi nó tác động lên hình ảnh
hiển thị trên màn hình tinh thể lỏng thông qua cơ chế overdrive, khiến người tiêu
dùng khó có thể chấp nhận. Trong luận án này, một vài tiêu chuẩn khách quan
(objective) có thể gắn với tiêu chuẩn thị giác chủ quan (subjective) như SSIM [32],
sẽ không được đề cập đến. Lý do chính là những tiêu chuẩn này phải được cục bộ
hóa một cách đặc biệt vào từng vùng trong ảnh. Một đánh giá mang tính toàn cục
cho nguyên một khung hình sẽ không định nổi sự khác biệt.
4. Kích thƣớc bộ đệm dòng (line-buffer): Là thành phần đầu tiên trong mô hình của
một hệ thống nén ảnh áp dụng cho overdrive (Hình 2.10). Khi xem xét tỷ số nén cần
được đặt trong mối tương quan với bộ đệm dòng, bởi đây là thành phần khá đắt đỏ
trong thiết kế phần cứng. Nên một giải pháp nén có đạt được tỷ số nén cao song lại
đòi hỏi kích thước bộ đệm dòng lớn sẽ làm giảm đi một phần tính hiệu quả.
Hiện nay, ngưỡng tỷ số nén mà các giải pháp nén ảnh tiên tiến áp dụng cho màn hình
tinh thể lỏng đạt được là Cr = 6:1. Nếu tăng tỷ số nén lên các mức giá trị cao hơn như 8:1
hay 12:1 thì các giải pháp hiện tại cho chất lượng ảnh quá thấp nên không thể đáp ứng
được yêu cầu. Từ thực tế đó, luận án này sẽ tập trung nghiên cứu cải thiện hai đặc trưng
chính yếu trong bốn đặc trưng nêu trên đó là: (1). Cải thiện chất lượng nén - Hạn chế các
hiệu ứng tiêu cực về mặt thị giác như nhiễu khối hay hiện tượng giả tạo của các đường nét
trong ảnh (false contours); (2). Cải thiện độ phức tạp tính toán hay kiến trúc thực thi của
giải pháp nén nhằm mang đến khả năng thực thi trên một phần cứng đơn giản.
2.4.4.2. Một số tiêu chí đánh giá giải pháp nén ảnh cho màn hình tinh thể lỏng
Để đánh giá giải pháp nén ảnh cho hệ thống overdrive của màn hình tinh thể lỏng,
chúng tôi dựa trên 3 tiêu chí cơ bản là: Chất lượng ảnh, tỷ số nén, và cuối cùng là độ phức
24
tạp tính toán được xem xét trong mối liên hệ với yêu cầu kiến trúc thực thi.
1. Chất lƣợng ảnh nén: Như đã được đề cập trong mục 2.4.3, chất lượng ảnh nén
(cách gọi vắn tắt của chất lượng ảnh khôi phục sau quá trình nén và giải nén) ảnh
hưởng gián tiếp đến chất lượng hình ảnh hiện thị trên màn hình, vì vậy chất lượng
ảnh nén được xem xét không chỉ qua giá trị số đo chất lượng ảnh như MSE hay
PSNR (công thức (2.5) và(2.9)), mà còn phải được xem xét đến các triệu chứng mà
ảnh nén có thể mắc phải như hiệu ứng nhiễu khối (blocking effect), hiện tượng rung
động (vibration) tại một cường độ mức xám cố định, hay hiện tượng giả tạo của các
đường nét trong ảnh (false contours) vốn không được đánh giá hiệu quả và đúng
mức trong các đại lượng đo lường như MSE hay PSNR, song lại rất nhạy cảm với
mắt người, dễ khiến cho người tiêu dùng có những đánh giá tiêu cực về chất lượng
hiển thị hình ảnh của màn hình tinh thể lỏng.
2. Tỷ số nén: là một trong những yếu tố quan trọng chủ chốt để đánh giá hiệu năng của
một giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng, bởi nó tác động trực tiếp
lên giá thành sản phẩm hệ thống overdrive thông qua mức độ cải thiện dung lượng
và tốc độ truyền tải của bộ nhớ khung hình. Hiển nhiên là một giải pháp nén cho tỷ
số nén cao chưa hẳn là một giải pháp tối ưu, giải pháp đó có thể sẽ không có tính
thực tiễn nếu chất lượng ảnh mà nó mang lại quá thấp khiến đa số người tiêu dùng
không chấp nhận cho dù giá thành có rẻ hơn đáng kể đi chăng nữa. Bên cạnh đó tỷ
số nén đạt được còn phải xem xét trong mối tương quan với độ phức tạp của kiến
trúc thực thi, bởi khiến trúc thực thi càng phức tạp (hay yêu cầu càng cao về hiệu
năng tính toán) thì giá thành của hệ thống nén càng đội lên cao, làm giảm đi tỷ suất
cải thiện về giá thành trên tổng thể.
3. Độ phức tạp tính toán và kiến trúc thực thi: Khái niệm độ phức tạp tính toán
trong bài toán nén ảnh áp dụng cho màn hình tinh thể lỏng nhằm giảm giá thành sản
phẩm sẽ có những đặc điểm khác so với cách đánh giá độ phức tạp tính toán cho các
thuật giải thông thường, vốn có mục tiêu là tiết kiệm thời gian thực hiện chương
trình phần mềm. Ở đây các giải pháp nén ảnh phải được triển khai trong môi trường
hệ nhúng trên thiết bị màn hình. Vì vậy, độ phức tạp tính toán ở đây không chỉ được
đánh giá đơn thuần trên số lượng phép toán cần thực hiện, mà các khía cạnh khác
như: yêu cầu xử lý tuần tự hay song song, yêu cầu về kiến trúc và xung nhịp của bộ
xử lý để đảm bảo khả năng xử lý thời gian thực cũng là những yếu tố quan trọng
trên thực tiễn. Lấy một ví dụ minh họa về vấn đề này: Cho hai giải pháp nén A và B
với giả thiết rằng chúng có số phép toán và quy trình xử lý gần như nhau, ngoại trừ
giải pháp A yêu cầu một số phép tính toán phải được xử lý trên dữ liệu nguyên 32
25
bit, trong khi giải pháp B chỉ yêu cầu thực hiện trên dữ liệu nguyên 8 bit, và chất
lượng ảnh nén là xấp xỉ nhau cùng với tỷ số nén ngang nhau. Từ giả thiết đó có thể
dễ dàng nhận thấy, hệ thống xử lý nén của giải pháp A phải được trang bị vi xử lý
32 bit với giá thành đắt hơn khi so sánh với vi xử lý 8 bit cần trang bị cho giải pháp
B. Kết quả là giá thành hệ thống overdrive trang bị giải pháp nén A đắt hơn so với
hệ thống overdrive trang bị giải pháp B trong khi chất lượng là xấp xỉ nhau.
Từ đó, trong đánh giá về độ phức tạp tính toán luận án luôn xem xét trên cả ba khía
cạnh: số phép toán, khiến trúc thực hiện là tuần tự hay song song, và yếu tố cuối cùng là
định dạng dữ liệu cho các phép toán cần thực hiện trên kiến trúc vi xử lý nguyên hay thực
và độ rộng bit.
2.5. Một số cơ sở lý thuyết trong nén ảnh
Mục tiêu chính của nén ảnh là để biểu diễn một hình ảnh với càng ít bit càng tốt trong
khi vẫn đảm bảo yêu cầu về mức độ chất lượng và tính dễ hiểu cho các ứng dụng nhất định
[16]. Mô hình khái quát của một bộ mã hóa ảnh có ba thành phần, như thể hiện trong Hình
2.9.
Thành phần đầu tiên và quan trọng nhất là phép biến đổi (transformation) thực hiện
biến đổi dữ liệu hình ảnh vào một miền không gian (domain) nào đó sao cho thích hợp với
quá trình lượng tử hóa và mã hóa entropy, nhằm hướng đến hiệu năng nén cao nhất có thể.
Về bản chất, thành phần này sẽ quyết định chính xác những gì được mã hoá. Ví dụ một
hình ảnh có thể được biến đổi sang một miền không gian khác như biến đổi Fourier hay
Cosin, mà những không gian mới này có khác biệt đáng kể so với không gian gốc là không
gian cường độ, và sau đó các hệ số biến đổi sẽ được mã hóa. Hiệu suất và độ phức tạp của
thuật toán mã hóa rất khác nhau, tùy thuộc vào những gì cụ thể được mã hoá.
Thành phần thứ hai trong bộ mã hóa hình ảnh là lượng tử hóa (Quantization). Để biểu
diễn một hình ảnh với một số hữu hạn bit, cường độ hình ảnh, các hệ số biến đổi, hoặc các
thông số mô hình phải được lượng tử hóa. Lượng tử bao hàm đến việc phân chia các mức
lượng tử hóa, các giá trị khôi phục và các ranh giới quyết định.
Thành phần thứ ba trong các bộ mã hóa hình ảnh là “codeword assignment”, sẽ thực
hiện gán các chuỗi bit khác nhau để đại diện cho các cấp độ lượng tử.
Sau đây chúng ta sẽ lần lượt xem xét một số cơ sở lý thuyết có liên quan đến đề tài
luận án, bao gồm:
Một số phép biến đổi tiên tiến áp dụng trong nén ảnh (Transform)
Lượng tử hoá (Quantization)
26
Gán từ mã dạng Uniform-Length (Uniform-Length Codeword assignment)
Khái quát về một số phương pháp nén ảnh
2.5.1. Các phép biến đổi áp dụng trong nén ảnh
Các phép biến đổi áp dụng trong nén ảnh nhằm cố gắng để giảm sự tương quan tồn tại
giữa các giá trị cường độ điểm ảnh. Khi mối tương quan giảm, thông tin dư thừa không còn
phải mã hóa nhiều lần. Kỹ thuật biến đổi còn nhằm khai thác khả năng tập trung năng
lượng tín hiệu ảnh vào các hệ số biến đổi miền tần số thấp. Thuộc tính này được gọi là
“energy compaction property”. Với thuộc tính đó sẽ cho phép mã hóa chỉ một phần nhỏ
của các hệ số biến đổi mà không ảnh hưởng nghiêm trọng đến hình ảnh. Điều này cho phép
chúng ta mã hóa hình ảnh với tỷ số bit/pixel thấp, có thể dưới 1 bit/pixel với một số chuẩn
nén tiên tiến, với một sự hy sinh tương đối nhỏ trong chất lượng hình ảnh. Sau đây chúng
ta sẽ xem xét một số kỹ thuật biến đổi cơ bản cần thiết cho nghiên cứu của luận án.
2.5.1.1. Biến đổi Cosin rời rạc
Biến đổi Cosin rời rạc DCT (Discrete Cosine Transform) là cơ sở cho nhiều thuật toán
nén ảnh và video, đặc biệt là nén ảnh tĩnh chuẩn JPEG trong chế độ mất mát thông tin và
chuẩn nén video MPEG-1, MPEG-2, và MPEG-4.
Công thức biến đổi cosine rời rạc hai chiều được viết [2]:
C f ( k1 , k 2 )
f ( n1 , n 2 )
N 1 1 N 2 1
2
( k 1 ) ( k 2 )
N1N 2
2
N1N 2
f ( n1 , n 2 ) cos
n1 0 n 2 0
N 1 1 N 2 1
(k
1
) ( k 2 ) C f ( k 1 , k 2 ) cos
k1 0 k 2 0
( 2 n1 1) k 1
cos
2 N1
( 2 n1 1) k 1
2 N1
( 2 n 2 1) k 2
2N2
cos
( 2 n 2 1) k 2
2N2
(2.14)
(2.15)
Trong đó:
1 / 2
(k )
1
,k 0
,k 0
(2.16)
Hình 2.12 cho chúng ta thấy 64 hàm cơ sở của biến đổi DCT với tín hiệu đầu vào hai
chiều kích thước 8×8.
Về mặt kỹ thuật, biến đổi DCT hai chiều có thể được thực hiện thông qua biến đổi
DCT một chiều theo chiều ngang, để thu được kết quả trung gian, rồi tiếp đến là biến đổi
DCT một chiều theo chiều dọc trên kết quả trung gian để thu được kết quả sau cùng. Kỹ
thuật biến đổi DCT một chiều có thể được thực hiện thông qua kỹ thuật biến đổi FFT (Fast
27
Fourier Transform). Theo phương pháp này, thì độ phức tạp tính toán cho biến đổi DCT
hai chiều chỉ còn là Nlog2(N).
Hình 2.12. Minh họa 64 hàm cơ bản của 8×8 DCT.
2.5.1.2. Biến đổi Wavelet rời rạc và kỹ thuật đa phân giải DWT
Biến đổi wavelet rời rạc DWT đã trở thành một công cụ xử lý tín hiệu rất linh hoạt sau
đề xuất của Mallat [29] về biểu diễn đa phân giải của tín hiệu dựa trên wavelet
decomposition. Phương pháp đa phân giải là để biểu diễn một hàm (hay tín hiệu) với một
bộ sưu tập của các hệ số, mà mỗi phần tử cung cấp thông tin về vị trí cũng tốt như thông
tin tần số của tín hiệu (hay hàm). Biến đổi wavelet rời rạc (DWT) có lợi thế hơn biến đổi
Fourier ở chỗ nó thực hiện phân tích đa phân giải của tín hiệu với sự xác định vị trí của
thời gian và tần số, được biết đến phổ biến như sự định vị time-frequency. Kết quả là, các
phân tích DWT (hay DWT decomposes) một tín hiệu số vào trong các băng tần con khác
nhau để các băng tần con tần số thấp hơn có độ phân giải tần số tốt hơn và độ phân giải
thời gian kém hơn (hay thô hơn) so với các băng tần con tần số cao hơn. DWT ngày càng
được sử dụng nhiều hơn để nén hình ảnh do thực tế rằng DWT hỗ trợ các tính năng thích
hợp với hình thức truyền ảnh (như chất lượng hay độ phân giải), sự dễ dàng trong thao tác
nén ảnh, mã hóa vùng ảnh quan tâm, và nhiều lợi thế khác. Bởi vì những đặc điểm đó, mà
DWT là cơ sở của chuẩn nén ảnh JPEG2000 [30].
Năm 1989, Mallat đề xuất phương pháp tiếp cận đa phân giải cho phân tích wavelet
của tín hiệu sử dụng một cấu trúc lọc dạng kim tự tháp của các cặp “quadrature mirror
filter” (QMF). Wavelet được phát triển bởi Daubechies [7][8], trong điều kiện thời gian rời
rạc (discrete-time) để khôi phục hoàn hảo những băng tần qua bộ lọc, tương đương với bộ
lọc FIR. Trong phân tích đa phân giải, nó có thể chứng minh rằng phân tích của tín hiệu
dùng biến đổi wavelet rời rạc có thể biểu diễn trong mối quan hệ với các bộ lọc FIR và đi
28
đến công thức (2.17) cho sự tính toán các hệ số wavelet cho tín hiệu ( ). Chi tiết được
trình bày trong bài báo gốc của Mallat [29].
( )
( )
Ở đây
và
( )
∑
( )
}
)
( )
, trái lại
(− )
( ) là các hệ số miêu tả hình chiếu
. Trên thực tế,
của hàm ( ) trong không gian vector con
giải
(2.17)
theo thứ tự là bộ lọc thông cao và bộ lọc thông thấp,
∫ ( − ) (
và
∑
( nghĩa là một xấp xỉ của hàm trong phân
là những hệ số wavelet (hay thông tin chi tiết) tại phân giải
). Nếu tín hiệu đầu vào ( ) là ở trong dạng thức lấy mẫu rời rạc, thì chúng ta có thể
xem xét những mẫu đó như là thứ bậc phân giải cao nhất xấp xỉ các hệ số
( )
và
công thức (2.17) mô tả thuật toán phân tách (phân rã) băng tần con đa phân giải để xây
dựng
( ) và
( ), mà
( ) tại mức m với một bộ lọc thông thấp
và bộ lọc thông cao
từ
( ) được sinh ra tại mức m-1. Những bộ lọc đó được gọi là những
bộ lọc phân tích. Thuật toán đệ quy cho phép tính DWT trong các mức khác nhau dùng
công thức (2.17) là phổ biến với tên gọi thuật toán kim tự tháp của Mallat. Từ đó các bộ
lọc phân tích
và
có nguồn gốc từ những hàm cơ sở trực giao
và
, những bộ lọc đó
cho khôi phục chính xác
( )
∑
( )
∑
( )
Hầu hết các hàm cơ sở wavelet trực giao có hỗ trợ các hàm
bộ lọc
và
(2.18)
vô hạn và vì thế những
có thể là nhiều “taps” hay hệ-số và không giới hạn. Tuy nhiên, với thực tiễn
và tính toán hiệu năng thực hiện của DWT cho các ứng dụng xử lý ảnh, mong ước để có
được bộ lọc có đáp ứng xung hữu hạn (FIR) với một số “tap” nhỏ. Nó là có thể xây dựng
như những bộ lọc bằng cách giảm bớt những yêu cầu về tính trực giao và sử dụng các hàm
cơ sở song trực giao. Chú ý rằng các bộ lọc wavelet là trực giao khi (
ngược lại là song trực giao. Trong đó một trường hợp những bộ lọc
)
(
),
, được gọi là
các bộ lọc tổng hợp, cho việc khôi phục của tín hiệu có thể là khác hơn các bộ lọc phân
tích cho phân tích phân rã của tín hiệu. Để đạt được khôi phục chính xác, chúng ta có thể
xây dựng các bộ lọc để nó đáp ứng được các mối liên hệ của bộ lọc tổng hợp với bộ lọc
phân tích như công thức sau:
29
(− )
(− )
(2.19)
∑
}
Nếu (
)
(
), các bộ lọc wavelet được gọi là trực giao, ngược lại chúng được
gọi là song trực giao. Sự phổ biến bộ lọc wavelet (9, 7) áp dụng trong JPEG2000 là một ví
dụ cho bộ lọc song trực giao. Tín hiệu vẫn được phân tách dùng công thức (2.17), nhưng
công thức khôi phục được thực hiện bằng cách sử dụng các bộ lọc tổng hợp
và
như
thể hiện trong công thức (2.14) sau đây:
( )
∑
( )
∑
( )
(2.20)
Tóm lại, tính toán DWT được thực hiện qua kỹ thuật lọc với các bộ lọc số FIR đơn
giản. Cho tín hiệu rời rạc đầu vào (𝑛) ( thể hiện trong Hình 2.13 là a(0,n) ), nó được lọc
song song bởi một bộ lọc thông thấp ( ) và một bộ lọc thông cao ( ) tại mỗi mức biến đổi.
Hai dòng dữ liệu đầu vào được giảm nhịp bằng cách đơn giản là lấy các mẫu đầu ra xen kẽ
trong mỗi dòng để thu được sản phẩm đầu ra là băng tần thấp
là a(1,n)) và băng tần cao
(thể hiện trong Hình 2.13
(thể hiện trong Hình 2.13 là c(1,n) ). Về mặt tính toán số học
có thể biểu diễn như sau:
Hình 2.13. Phân tích đa phân giải 3 mức và khôi phục của tín hiệu dùng cấu trúc lọc
kiểu kim tự tháp (pyramidal filter structure)
(𝑛)
Trong đó,
∑ ( ) ( 𝑛− )
và
(𝑛)
∑
( ) ( 𝑛− )
(2.21)
lần lượt là độ dài của bộ lọc thông thấp ( ) và thông cao ( ). Từ đó
băng tần thấp a(1,n) là một xấp xỉ của tín hiệu đầu vào, chúng ta có thể áp dụng cách tính
trên một lần nữa trên a(1,n) để được băng tần con a(2,n) và c(2,n) và cứ tiếp tục theo cách
đó. Phương pháp phân tích đa phân giải này được thể hiện qua sơ đồ trong Hình 2.13 với
30
ba mức phân tách. Trong quá trình biến đổi ngược để khôi phục lại tín hiệu, cả hai a(3,n)
và c(3,n) trước hết được tăng nhịp (tăng số mẫu – upsampling) bằng cách chèn giá trị 0 vào
giữa hai mẫu, và rồi chúng được lọc bởi bộ lọc thông thấp (
) và thông cao ( ). Dòng dữ
liệu đầu ra của hai bộ lọc được cộng lại với nhau để khôi phục a(2,n) như thể hiện trong
Hình 2.13. Tiếp tục theo cách này cho đến khi chúng ta khôi phục lại được tín hiệu gốc
a(0,n).
Row-wise DWT
L
LL1
HL1
LH1
HH1
Column-wise DWT
H
(a) First level of decomposition
LL2
HL2
HL1
LH2
HH2
LH1
LL3
HL3
LH3
HH3
LH2
HH1
HL2
HL1
HH2
LH1
(b) Second level of
decomposition
HH1
(c) Third level of
decomposition
Hình 2.14. Quy trình xử lý dòng-cột của DWT hai chiều.
Mở rộng DWT trên hai chiều là cần thiết cho biến đổi của tín hiệu 2 chiều như ảnh số.
Một tín hiệu số hai chiều có thể biểu diễn bởi một mảng hai chiều X[M, N] với M hàng và
N cột, ở đây M và N là các số nguyên không âm. Phương pháp giải quyết đơn giản cho
DWT thực hiện trên 2 chiều là tiến hành DWT một chiều theo hàng để đem lại kết quả
trung gian, rồi tiến hành DWT một chiều theo cột trên kết quả trung gian để được kết quả
sau cùng (như thể hiện trong Hình 2.14 (a) ). Điều này là có thể làm được vì các hàm tỷ lệ
hai chiều có thể biểu diễn như những hàm có thể phân tách (separable), nghĩa là hàm biểu
diễn được như tích của hai hàm tỷ lệ một chiều như
cũng đúng cho các hàm wavelet (
(
)
( )
( ). Điều này
). Áp dụng biến đổi một chiều trên mỗi hàng, chúng
ta nhận được hai băng tần con trên mỗi hàng. Khi các băng tần con tần số thấp của tất cả
các hàng (L) được xếp đặt cùng nhau, nó trông giống như một phiên bản mỏng (kích thước
) của tín hiệu đầu vào như trong Hình 2.14 (a). Tương tự, chúng ta xếp đặt cùng
nhau các băng tần con tần số cao của tất cả các hàng để được băng tần con H có kích thước
, nó chứa chủ yếu thông tin tần số cao xung quanh chỗ gián đoạn (hay các cạnh
trong một ảnh) trong tín hiệu đầu vào. Tiếp đến, chúng ta áp dụng DWT một chiều theo cột
trên những băng tần con L và H (là kết quả trung gian), chúng ta nhận được bốn băng tần
con LL, LH, HL, và HH với kích thước
, như thể hiện trong Hình 2.14 (a). LL là một
31
phiên bản xấu hơn của tín hiệu gốc đầu vào. LH, HL, và HH là băng tần con tần số cao
chứa thông tin chi tiết. Cần chú ý rằng chúng ta có thể áp dụng DWT một chiều theo cột
trước và theo hàng sau để đạt được cùng một kết quả. Hình 2.15 mô tả chi tiết hơn quy
trình thực hiện DWT hai chiều với cặp bộ lọc phân tích là (Lo_D, Hi_D) và cặp bộ lọc
tổng hợp là (Lo_R, Hi_R).
columns
Lo_D
rows
Lo_D
2↓1
columns
Hi_D
columns
Lo_D
rows
2↓1
xLL
xLL
columns
1↑2
Lo_R
1↑2
columns
Hi_R
1↑2
columns
Lo_R
xL
x
Hi_D
1↓2
1↓2
1↓2
xLH
xLH
xHL
xHL
xH
columns
Hi_D
1↓2
xHH
xHH
columns
1↑2
+
xL
rows
2↑1
Lo_R
+
+
xH
x
rows
2↑1
Hi_R
Hi_R
Hình 2.15. Sơ đồ phân tích và tổng hợp tín hiệu hai chiều theo cấu trúc băng tần con.
Giải thích một số ký hiệu trong sơ đồ của Hình 2.15:
Lo_D:
Hi_D:
Lo_R:
Hi_R:
2↓1:
1↓2:
Bộ lọc phân tách thông thấp (Decomposition low-pass filter)
Bộ lọc phân tách thông cao (Decomposition high-pass filter)
Bộ lọc khôi phục thông thấp (Reconstruction low-pass filter)
Bộ lọc khôi phục thông cao (Reconstruction high-pass filter)
Giảm nửa số cột (Downsample columns)
Giảm nửa số dòng (Downsample rows)
Hình 2.16 là một kết quả cụ thể thu được qua quá trình biến đổi DWT hai chiều với
ảnh đầu vào là MobileCalendar định dạng CIF2 ở Hình 2.16 (a), qua Hình 2.16 (b) cho thấy
bốn băng tần con của ảnh đầu vào lần lượt là LL, LH, HL, và HH. Như được chỉ ra về mặt
lý thuyết ở phần trên, ảnh băng tần con LL là một phiên bản của ảnh đầu vào
MobileCalendar nhưng có độ phân giải thấp hơn (xấu hơn), các ảnh băng tần con còn lại
như LH, HL, và HH chứa phần thông tin các chi tiết của hình ảnh mà nó đã bị mất đi ở
phiên bản LL. Hình 2.16 (c) là kết quả thu được sau ba mức biến đổi.
(a) Ảnh MobileCalendar gốc
(b) Kết quả phân tích theo một mức (c) Kết quả phân tích theo ba mức
Hình 2.16. Kết quả biến đổi DWT trên ảnh số hai chiều theo kiến trúc kim tự tháp sử
dụng bộ lọc Wavalet Daubechies 4 - hệ số.
2
Chuẩn định dạng hình ảnh với độ phân giải 352 × 288 áp dụng cho truyền hình hội nghị phiên bản
H.261(Common Intermediate Format - CIF)
32
2.5.2. Lƣợng tử hoá
2.5.2.1. Các phƣơng pháp lƣợng tử vô hƣớng
Gọi Q là một phép lượng tử hóa (Quantization) biến đổi giá trị x (liên tục/rời rạc) vào
trong một tập hữu hạn L các giá trị {y1,…,yL} dựa trên tập L+1 mức quyết định
{d1,…,dL+1}, sẽ gồm hai bước:
Bước mã hóa: Q(x) = k, sao cho x[dk; dk+1).
Bước giải mã: Q-1(k) = yk
Các giá trị k được gọi là mã hay từ mã (code, codeword), và các giá trị yk được gọi là giá
trị khôi phục hay mức khôi phục (reconstruction level). Luôn tồn tại sai số giữa giá trị đầu
vào x và giá trị khôi phục yk tùy thuộc vào phương pháp thiết kế bộ lượng tử.
Để tối ưu hóa sai số chúng ta cần nghiên cứu một số phương pháp thiết kế bộ lượng tử,
qua việc xác định các giá trị có liên quan. Sau đây là phần trình bày một số phương pháp
lượng tử vô hướng (Scalar Quantization) kinh điển.
a) Phương pháp tối ưu trung bình bình phương sai số (MSE) hay lượng tử hóa
Lloyd-Max
Output
y8
y7
Quantizer error
y6
d2
d3
y5
d4 d5 d6
y4
y3
d7
d8
Input
y2
y1
Hình 2.17. Ánh xạ vào – ra của một bộ lượng tử hóa dạng Midrise.
Với x là một giá trị liên tục, Px(x) là hàm phân bố xác suất của x. Chúng ta mong
muốn tìm ra các mức quyết định dk (decision) và giá trị mức khôi phục yk (reconstruction)
của một bộ lượng tử L mức sao cho độ biến dạng
biến dạng
(distortion) được cực tiểu hóa. Nếu độ
được đo bằng MSE thì:
[( − ) ]
∫ ( − )
( )
(2.22)
Chúng ta có thể viết lại công thức (2.22) dưới dạng:
33
∑ ∫ ( −
Điều kiện cần thiết để cực tiểu hóa
)
( )
(2.23)
là đạo hàm riêng của
theo dk và yk phải bằng
không:
(
)
−
∫ ( −
Mặt khác, do
(
)−(
)
( )
)
(
)
(2.24)
(2.25)
nên chúng ta có:
(
Với
−
)
∫
( )
∫
( )
[
(2.26)
]
(2.27)
là khoảng chia thứ k [dk, dk+1). Công thức (2.26) chỉ ra rằng giá trị quyết định
dk (hay còn gọi là điểm biên) sẽ nằm chính giữa 2 giá trị khôi phục tối ưu yk và yk-1. Cặp
công thức (2.26) và (2.27) là những hàm phi tuyến. Trong thực tế, chúng ta có thể giải
bằng một sơ đồ lặp, như phương pháp Newton chẳng hạn, để tìm ra các giá trị tối ưu dk và
yk.
Khi số mức lượng tử hóa lớn (nhiều mức), một giải pháp xấp xỉ có thể thu được bằng
mô hình xấp xỉ hàm phân phối Px(x) bởi hàm hằng số piecewise như Hình 2.18.
( )
(̂ )
̂
(
)
(2.28)
Áp dụng xấp xỉ này vào công thức (2.23) và thực hiện yêu cầu cực tiểu hóa, một giải
pháp xấp xỉ của các mức quyết định thu được như sau:
[ ( )]
∫
∫
Trong đó,
−
[ ( )]
và
( )
(2.29)
. Phương pháp này yêu cầu d1 và
dL+1 (còn được gọi là overload points) phải hữu hạn. Những giá trị đó xác định ra vùng
giới hạn động (dynamic range) A của bộ lượng tử hóa, phải giả định trước khi sắp đặt các
giá trị mức quyết định (dk) và mức khôi phục (yk). Một khi các giá trị {dk} được xác định,
thì các giá trị khôi phục {yk} có thể được xác định dễ dàng bằng trung bình của dk và dk+1.
Độ biến dạng
của bộ lượng tử sẽ là:
34
{ ∫ [ ( )]
}
(2.30)
Đây là một công thức thường được sử dụng bởi nó cho một ước lượng về sai số của bộ
lượng tử hóa trực tiếp từ hàm mật độ xác suất và số mức lượng tử. Kết quả này là chính
xác cho những hàm mật độ xác xuất có dạng hằng piecewise.
Px(x)
d1
d2
dL
dL+1
x
Hình 2.18. Xấp xỉ của hàm Px(x) bởi các hằng số phân đoạn (Piecewise constant
approximation of Px(x))
Hai hàm mật độ hay được sử dụng trong xử lý ảnh là hàm Gaussian và Laplacian có
công thức dạng:
Gaussian:
( )
Laplacian:
−( − )
(
)
√
( )
Trong đó:
(−
(2.31)
)
−
(2.32)
được định nghĩa là giá trị trung bình và phương sai của x. Phương
và
sai của Laplacian được cho bởi
(2.33)
Bảng 2.3 là danh sách các giá trị được thiết kế cho bộ lượng tử Lloy-Max với xác suất
Gaussian (đề xuất năm 1960), được Paez và Glisson phát triển với xác xuất Laplacien và
Gamma (đề xuất năm 1972) (nguồn [1]).
Bảng 2.3. Lượng tử hóa tối ưu MSE cho mật độ Gaussian với giá trị trung bình bằng 0
và độ lệch chuẩn bằng 1.
− (giá trị quyết định) và
− (giá trị khôi
phục),
Levels
2
3
4
5
6
7
8
MSE
0.3634
0.1902
0.1175
0.0799
0.0580
0.0440
0.0345
SNR (dB)
4.3964
7.2085
9.3003
10.972
12.367
13.565
14.616
Entropy
1.0000
K
dk
1
0
1.5385
yk
dk
0.7979 0.6120
1.9111
yk
dk
0
0
2.2029
yk
dk
0.4528 0.3823
2.4428
yk
dk
0
0
2.6469
yk
dk
0.3177 0.2803
2.8248
yk
dk
yk
0
0
0.2451
35
2
1.2240 0.9816 1.5104 1.2444 0.7646 0.6589 1.0001 0.8744 0.5606 0.5006 0.7561
3
1.7242 1.4469 1.8936 1.6108 1.1882 1.0500
4
1.344
2.0334 1.7480 2.1520
Levels
9
10
11
12
13
14
15
MSE
0.2790
0.0229
0.0192
0.0163
0.0141
0.0122
0.0107
SNR (dB)
15.551
16.395
17.163
17.868
18.519
19.125
19.691
Entropy
2.9826
3.1245
3.2534
3.3716
3.4806
3.5819
3.6765
K
dk
yk
dk
1
0.2218
0
0
yk
dk
2
0.6813 0.4437 0.4048 0.6099 0.5600 0.3675 0.3402
3
1.1977 0.9189 0.8339 1.0579 0.9657 0.7525 0.6944 0.8769 0.8127 0.6384 0.5960 0.7506 0.7031 0.5549
4
1.8656 1.4765 1.3247 1.5914 1.4359 1.1789 1.0814 1.2859 1.1843 0.9871 0.9182 1.0858 1.0132 0.8513
5
2.2547 1.9683 2.3452 2.0593 1.6928 1.5345 1.7832 1.6231 1.3314 1.2768 1.4677 1.3607 1.1751
6
2.4259 2.1409 2.4986 2.2147 1.8647 1.7033 1.9388 1.7765 1.5463
7
2.5647 2.2820 2.6253 2.3439 2.0067
8
2.6811
0.1996 0.1838
yk
dk
0
0
yk
dk
0.1685 0.1569
yk
dk
0
0
yk
dk
0.1457 0.1370
yk
0
0.5119 0.4761 0.3138 0.2936 0.4414 0.4144 0.2739
b) Phương pháp lượng tử hóa tối ưu với đầu vào có phân phối đều
Đối với phân phối đều (uniform distributions), những công thức lượng tử hóa LlodMax là (2.26) và (2.27) trở nên tuyến tính. Trường hợp này còn được gọi là lượng tử tuyến
tính (linear quantizer). Hàm phân phối xác suất trong trường hợp này sẽ có giá trị là:
( )
{
−
Từ (2.27), chúng ta thu được
(
(
−
−
)
)
(2.34)
Từ (2.26) và (2.34) chúng ta có:
(2.35)
Từ đó đưa đến:
−
−
𝑛
𝑛
(
𝑛
)
(2.36)
Cuối cùng chúng ta thu được:
−
(2.37)
Như vậy, tất cả các mức quyết định (dk) và giá trị khôi phục (yk) đều có khoảng cách
bằng nhau và bằng bước lượng tử hóa q (quantifier step size). Sai số trong lượng tử hóa
−
cũng có phân phối đều trong khoảng (–
). Vì thế, trung bình bình
phương giá trị sai số MSE được cho bởi công thức:
36
∫
Phương sai
(2.38)
của một biến ngẫu nhiên có phân phối đều có vùng giới hạn A là
. Đối với một bộ lượng tử hóa dùng B bít, chúng ta có
. Điều này đưa đến
kết quả sau:
(
)
(
)
(
)
(2.39)
Theo cách đó, tỷ số SNR (signal-to-noise ratio) đạt được bởi bộ lượng tử hóa tối ưu
trung bình bình phương sai số cho phân phối đều là xấp xỉ 6 dB trên bít.
Hình 2.19 minh họa ánh xạ vào - ra của một bộ lượng tử hóa tối ưu cho đầu vào có
phân phối đều trong khoảng [-A, +A], và sai số sinh ra do lượng tử hóa. Dễ thấy mức độ
sai số của quá trình lượng tử hóa đều phụ thuộc vào giá trị bước lượng tử.
Output
+A
Code=7
3.5q
Code=6
2.5q
Code=5
1.5q
-4q
-3q
-2q
Code=3
-A
Code=2
Code=1
Code=0
q
-1q
Code=4
0.5q
-0.5q
1q
2q
3q
+A
4q
Error = x-Q(x)
Input
-1.5q
0.5q
-A
+A
-2.5q
-4q
-3q
-2q
-1q
-0.5q
1q
2q
3q
4q
Input
-3.5q
-A
Hình 2.19. Ánh xạ vào – ra của một bộ lượng tử hóa tối ưu, dạng Midrise 3 bit với đầu
vào có phân phối đều trong khoảng [-A, +A], và sai số lượng tử.
2.5.3. Gán từ mã dạng độ dài đồng nhất
Do đặc thù của bài toán nén dữ liệu cho màn hình tinh thể lỏng mà chúng ta chỉ xem
xét phương pháp gán từ mã dạng độ dài đồng nhất (hay uniform-length, fixed length). Như
đã đề cập ở phần đầu chương mục này, kết quả của quá trình lượng tử ở bộ mã hóa (hay
transmiter) chúng ta thu được các mức khôi phục k, để chuyển mức khôi phục này đi đến
bộ giải mã (hay reciever) chúng ta cần thiết phải gán một từ mã (codeword) riêng biệt (là
một chuỗi các bit 0 và 1) cho mỗi mức khôi phục k trong L mức khôi phục mà bộ lượng tử
có thể sản sinh. Vào lúc nhận được từ mã, bộ giải mã có thể nhận biết được mức khôi phục
bằng cách tìm kiếm mục thích hợp trong một bảng mã (codebook). Để bộ giải mã có thể
xác định duy nhất mức khôi phục thì mỗi mức khôi khục phải được gán cho một từ mã
37
riêng biệt. Ngoài ra, để nhiều hơn một mức khôi phục có thể được chuyển đi trong một
chuỗi dữ liệu, thì các từ mã phải được gán sao cho chúng có thể được nhận diện (hay xác
định) khi bộ giải mã nhận chuỗi dữ liệu. Một mã có được những đặc điểm đó sẽ được gọi
là có khả năng giải mã duy nhất (hay uniquely decodable).
Tiện lợi hơn khi xem kết quả của quá trình lượng tử hóa vô hướng hay vector như một
thông điệp (message) mà nó có L trạng thái khác nhau ai , 1≤ i ≤ L, với mỗi trạng thái
tương ứng với một mức khôi phục. Phương pháp lựa chọn từ mã đơn giản là sử dụng từ mã
có độ dài thống nhất. Trong phương pháp này mỗi trạng thái của thông điệp (message)
được mã hóa bởi một từ mã (codeword) mà từ mã này có cùng độ dài như tất cả các từ mã
còn lại, hay nói cách khác là tất cả các từ mã là có cùng độ dài. Một ví dụ cho phương pháp
gán từ mã dạng có độ dài đồng nhất với L=8 được thể hiện trong Bảng 2.4. Chiều dài của
. Chúng ta sẽ xem số bit yêu cầu để
mỗi từ mã trong ví dụ này là
mã hóa một message như tốc độ dòng bit (bit rate). Trong ví dụ của chúng ta bit rate là
3bit/message. Nếu chúng ta mã hóa nhiều hơn một thông điệp (message), tốc độ dòng bit
trung bình được định nghĩa như tổng số bit cần thiết chia cho số thông điệp. Với phương
pháp gán độ dài đồng nhất, tốc độ dòng bit trung bình cũng bằng với tốc độ dòng bít.
Bảng 2.4. Một ví dụ gán từ mã dạng độ dài đồng nhất cho thông điệp với 8 trạng thái.
Message
a1
a2
a3
a4
a5
a6
a7
a8
Codeword
000
001
010
011
100
101
110
111
2.5.4. Khái quát về một số phƣơng pháp mã hóa ảnh thực hiện cho màn hình
Nói chung các thuật toán mã hóa ảnh khung hình cho màn hình tinh thể lỏng được chia
làm hai loại chính: Mã hóa trực tiếp hàm tín hiệu ảnh hay thuật ngữ là “Waveform
Coding”, và mã hóa dựa trên phép biến đổi hay thuật ngữ là “Transform Coding”. Sau đây
chúng ta sẽ lần lượt tìm hiểu về những hình thức mã hóa này [16].
2.5.4.1. Mã hóa trực tiếp hàm tín hiệu ảnh (Waveform Coding)
“Waveform Coding” là một hình thức mã hóa trực tiếp trên hàm tín hiệu ảnh, hay nói
cụ thể hơn chính là mã hóa giá trị điểm ảnh. Chúng ta mã hóa cường độ của điểm ảnh (hay
giá trị mẫu tín hiệu sau khi số hóa) một cách trực tiếp, hoặc một số biến thể đơn giản của
cường độ ảnh như sự khác biệt giữa hai cường độ điểm ảnh liên tiếp, hay sự khác biệt của
38
các điểm ảnh trong một khối so với một giá trị thống kê trong khối như min, mean,... Một
lợi thế lớn của Waveform coding so với Transform coding là sự đơn giản.
Về nguyên tắc, chúng ta có thể sử dụng bất kỳ phương pháp lượng tử và gán từ mã nào
trong mã hóa dạng sóng. Tuy nhiên, lượng tử vô hướng và gán từ mã uniform-length đã
được sử dụng chủ yếu do tính đơn giản của nó. Trong tất cả các trình bày của chúng ta
trong mục này, chúng ta sẽ mặc định cho việc sử dụng lượng tử vô hướng và gán từ mã
uniform-length trừ những trường hợp ngoại lệ nếu có.
a) Mã hóa lượng tử thích nghi (Adaptive Quantization Coding)
Những thiết kế lượng tử hóa đã được đề cập trong mục 2.5.2 có miêu tả đầu vào và
đầu ra bất biến theo thời gian (time-invariant). Chúng không dành cho các tín hiệu có tính
không ổn định. Trong trường hợp tín hiệu có tính ổn định nhưng hàm phân phối xác suất
pdf bị lệch so với thiết kế thì tất yếu dẫn đến suy giảm hiệu năng của bộ lượng tử hóa. Có
hai loại không phù hợp khi áp dụng:
• Thứ nhất là phương sai không phù hợp
• Thứ hai là hàm phân phối xác suất không phù hợp
Mã hóa lượng tử hóa thích nghi là một nỗ lực để thiết kế bộ lượng tử hóa thích ứng
với các số liệu thống kê đầu vào khác nhau nhằm đạt được hiệu năng tốt hơn. Các giá trị
thống kê có thể được sử dụng gồm: min, max, mean, phương sai,… và kiểu của hàm phân
phối xác suất đầu vào.
Có hai loại mã hóa lượng tử thích nghi khác nhau, một là “forward adaptation” và hai
là “backward adaptation”. Trong đó “backward adaptation” cho tỷ số nén cao nhưng không
khống chế được sai số ở trong một ngưỡng cố định nhằm kiểm soát chất lượng, vì thế nó
không phù hợp với bài toán nén ảnh khung hình nên sẽ không được xem xét trong luận án.
Phương pháp mã hóa lượng tử thích nghi chuyển tiến được sử dụng phổ biến trong nén ảnh
khung hình dưới một số dạng khác nhau, và thường được gọi ngắn gọn là mã hóa lượng tử
thích nghi hay AQC (adaptive quantization coding).
Mô hình khái quát cho một bộ mã hóa lượng tử thích nghi được thể hiện qua Hình
2.20. Trong đó, bộ mã hóa cần thiết lập các tham số thống kê, các thông tin này còn được
gọi là “side information”, và việc chọn lựa kích thước của khối dữ liệu (block size) để xử
lý là vấn đề quan trọng.
Nếu kích thước block nhỏ, sự thích nghi theo các giá trị thống kê cục bộ sẽ hiệu quả,
nhưng “side information” cần được gửi đi thường xuyên, vậy nên nhiều bít được sử
dụng cho việc chuyển “side information”.
Nếu kích thước block lớn, lượng bít dùng để chuyển tải “side information” sẽ chiếm tỷ
39
trọng nhỏ trong tổng số bit dùng để mã hóa, do đó tỷ số nén sẽ cao. Nhưng sự thích
nghi theo các giá trị thống kê cũng giảm.
Trong thực tế, một chọn lựa kích thước block tốt là một chọn lựa dung hòa được cả hai
yếu tố: tỷ trọng bit dùng cho “side information” và tính hiệu quả trong thích nghi.
Hình 2.20. Mô hình khái quát cho một bộ mã hóa lượng tử thích nghi
2.5.4.2. Mã hóa dựa trên phép biến đổi (Transform Coding)
Trong mã hóa dựa trên phép biến đổi (Transform Coding), một hình ảnh được chuyển
từ miền cường độ hình ảnh đến một miền không gian khác mà giữa hai miền có sự khác
biệt đáng kể, và các hệ số biến đổi sau đó được mã hóa. Trong các ứng dụng tốc độ bit thấp
(dưới 1 hoặc 2 bit/pixel) như hội nghị truyền hình, Transform Coding sử dụng lượng tử vô
hướng thường hoạt động tốt hơn đáng kể so với các kỹ thuật waveform coding sử dụng
lượng tử vô hướng. Tuy nhiên Transform Coding đòi hỏi độ phức tạp tính toán cao hơn.
a) Phép biến đổi (Transforms)
Một sơ đồ nguyên tắc của phương pháp mã hóa ảnh dựa trên phép biến đổi được thể
hiện trong Hình 2.21. Tại transmitter, ảnh (𝑛 𝑛 ) được biến đổi thành
hệ số của
(
(
), và các
) được lượng tử hóa rồi tiếp đến chúng được mã hóa thành các từ mã để
chuyển đến receiver. Tại receiver các từ mã nhận được sẽ được giải mã và lượng tử khôi
phục để có được
(
Transform
), tiếp đến là biến đổi ngược để có được ̂(𝑛 𝑛 ).
Q
Entropy
Coding
Q-1
Inverse
Transform
Hình 2.21. Sơ đồ mã hóa ảnh sử dụng biến đổi
Một số tính chất là được kỳ vọng trong biến đổi. Từ đó chúng ta thực hiện tính toán
biến đổi tại transmitter và thực hiện tính toán biến đổi ngược tại receiver. Các biến đổi đã
được xem xét cho mã hóa ảnh là những biến đổi tuyến tính, nó có thể biểu diễn dưới dạng:
40
(
)
(𝑛 𝑛 )
∑ ∑ (𝑛 𝑛 ) ( 𝑛 𝑛
∑ ∑
(
) (𝑛 𝑛
)
(2.40)
)
(2.41)
Trong đó ký hiệu (𝑛 𝑛 ) là ma trận dữ liệu có kích thước
cũng có kích thước
(𝑛 𝑛
và biểu diễn các hệ số biến đổi, còn
, và
(𝑛 𝑛
(
)
) và
) là những hàm cơ bản thỏa mãn công thức (2.40) và (2.41). Từ công thức
(2.40) và (2.41) có thể suy luận ra rằng (𝑛 𝑛 ) là một kết hợp tuyến tính của các hàm cơ
bản (𝑛 𝑛
(
) và các hệ số biến đổi
) là các biên độ của các hàm cơ bản
trong công thức tuyến tính. Khi các hàm cơ sở có dạng thức của hàm sin, các hệ số biến
đổi có thể được thể hiện như biên độ của những thành phần phổ phổ biến. Từ sự xem xét
về mặt tính toán, các hàm cơ bản được sử dụng phổ biến trong mã hóa ảnh dùng biến đổi
(transform) là chia tách được (separable), vì thế công thức (2.40) và (2.41) có thể được
biểu diễn như sau:
(
)
(𝑛 𝑛 )
∑ ∑ (𝑛 𝑛 )
∑ ∑
(
)
(𝑛
)
(𝑛
)
(2.42)
(𝑛
)
(𝑛
)
(2.43)
Ví dụ minh họa cho công thức (2.33) chính là hai phép biến đổi ảnh phổ biến nhất:
Biến đổi Fourier và biến đổi Cosine.
Hình 2.22. Sơ đồ cơ bản của chuẩn nén ảnh JPEG ([30]). (a) Bộ nén. (b) Bộ giải nén.
41
Điển hình cho phương pháp mã hóa biến đổi trong thực tiễn chính là chuẩn nén JPEG
(biến đổi Cosine) và JPEG 2000 (biến đổi wavelet) được thể hiện qua Hình 2.22 và Hình
2.23.
Hình 2.23. Sơ đồ thuật toán bộ nén JPEG2000 ([30]).
2.6. Tổng quan về các giải pháp nén ảnh cho màn hình tinh thể
lỏng
Trong khoảng thời gian từ 2002 đến nay đã có khá nhiều các nghiên cứu và đề xuất
các giải pháp nén ảnh áp dụng cho hệ thống overdrive trong màn hình tinh thể lỏng, từ
những giải pháp đơn giản chỉ áp dụng duy nhất kỹ thuật lượng tử hóa (dạng PCM cơ bản)
với hiệu năng thấp được đề cập trong [12], cho đến những giải pháp khá phức tạp áp dụng
đồng thời nhiều phép biến đổi, biến đổi không gian màu và biến đổi wavelet, cùng với mô
hình lượng tử hóa đa chế độ, BTC (block truncation coding) và AQC (Adaptive
Quantization Coding), nhằm nâng cao hiệu năng nén được đề cập trong [5]. Để có được cái
nhìn tổng quan về các giải pháp nén đã được nhiều tác giả trên thế giới nghiên cứu đề xuất,
cũng như những vấn đề còn tồn đọng trong các nghiên cứu đó, từ đó có thể hình thành định
hướng nghiên cứu cải tiến và phát triển nên các giải pháp nén hiệu quả hơn.
Trong phần này luận án sẽ trình bày hai nội dung chính: một là tổng quan về các giải
pháp nén ảnh cho màn hình tinh thể lỏng; hai là tập trung phân tích đánh giá các ưu và
nhược điểm còn tồn tại trong một số giải pháp nén tiên tiến để từ đó có định hướng nghiên
cứu cải tiến hay phát triển giải pháp mới.
2.6.1. Khái quát về các giải pháp nén ảnh cho hệ thống overdrive
Đã có khá nhiều giải pháp nén ảnh cho hệ thống overdrive của màn hình tinh thể lỏng
được đề xuất. Các giải pháp này sử dụng nhiều kỹ thuật mã hóa khối, nhiều kỹ thuật biến
đổi đa dạng, có giải pháp khá đơn giản song cũng có giải pháp khá phức tạp về mặt sơ đồ
cấu trúc. Nhưng nhìn chung chúng ta có thể chia chúng ra làm hai hướng chính: 1. Hướng
42
áp dụng kỹ thuật mã hóa khối và biến đổi không gian màu; 2. Hướng áp dụng phép biến
đổi ảnh kết hợp các kỹ thuật mã hóa khối và biến đổi không gian màu.
Sau đây chúng tôi xin được trình bày sơ lược cho phần lớn các giải pháp nén tiêu biểu
trong số các giải pháp đã được đề xuất:
2.6.1.1. Các giải pháp nén ảnh áp dụng kỹ thuật mã hóa khối và biến đổi không
gian màu
(1) Giải pháp nén sử dụng biến đổi không gian màu (color space conversion) được đề
xuất bởi J. K. Sung, C. G. Kim, J. K. An, M. H. Park và S. D. Yeo vào tháng 5 năm
2005 [10]. Giải pháp này thực hiện chuyển đổi dữ liệu ảnh đầu vào màn hình từ
RGB sang không gian màu YCbCr (YCbCr là chuẩn định dạng màu dựa trên một
thành phần tín hiệu độ chói (Luminance) Y và hai thành phần tín hiệu màu
(Chrominance) là Cb và Cr), sau đó lợi dụng đặt tính thị giác của con người là rất
nhạy cảm với thành phần tín hiệu độ chói Y và kém nhạy cảm với các thành phần
màu Cb và Cr, để từ đó áp dụng mã hóa khối cho thành phần độ chói Y với tỷ số
thấp nhằm tránh mất mát nhiều thông tin, và áp dụng mã hóa khối với Cb và Cr với
tỷ số nén cao hơn. Kết quả mang lại khả năng cải thiện sai số có dạng hiệu ứng khối
(blocking effect) trong ảnh giải nén, tỷ số nén đạt được ở mức 3:1 [19].
(2) Giải pháp nén với mô hình lai HIC (Hybrid Image Coding) được đề xuất bởi J.
Wang, K. Y. Min và J. W. Chong vào tháng 9 năm 2007 [17]. Giải pháp này thực
hiện chuyển đổi không gian màu RGB về YCbCr và tiếp đến giảm số mẫu trên hai
thành phần màu Cb và Cr theo cấu trúc lấy mẫu YCbCr 4:2:0. Sau đó nén thành
phần độ chói Y bởi kỹ thuật mã hóa lượng tử thích nghi có tên gọi AQC với tỷ số
nén thấp nhằm bảo toàn phần lớn lượng thông tin độ chói, trong khi đó hai thành
phần màu Cb và Cr được nén bởi kỹ thuật nén BTC để cho tỷ số nén rất cao. Tỷ số
nén mà giải pháp đạt được với chất lượng ảnh giải nén khá tốt là 3.31:1. Cũng chính
nhóm tác giả này sau đó đã có những cải tiến cho HIC được trình bày chi tiết trong
[18] và [19].
(3) Giải pháp nén sử dụng phép lượng tử hóa vector trên các khối điểm ảnh màu RGB
với tên gọi VQ-BTC (Vector Quantizer based Block Truncation Coding), tiếp đến là
quá trình chuyển đổi sang không gian màu HSI để tinh chế tăng cường bảo toàn các
cạnh cho các khối. Giải pháp này được đề xuất bởi J. W. Han, M.C. Hwang và S.J.
Ko vào tháng 11 năm 2008 [24]. Giải pháp này đã mang lại những cải thiện đáng kể
so với các giải pháp mã hóa thông thường như BTC hay Basic VQ-BTC. Song theo
đánh giá trong nghiên cứu mới hơn sau đó của Jun Wang và các đồng sự, thì giải
43
pháp mới của họ là SBB-BTC luôn cho kết quả tốt hơn VQ-BTC. Cũng có thể nói
giải pháp SBB-BTC phần nào đó đã kế thừa ý tưởng lượng tử hóa vector của giải
pháp VQ-BTC song theo một cách rất sáng tạo và khá hiệu quả.
(4) Giải pháp nén có tỷ số nén cao HCRIC (High Compression Ratio Image Coding)
một cải tiến của HIC với tỷ số nén đạt được là 6:1, nó được đề xuất bởi J. Wang, K.
Y. Min và J. W. Chong vào năm 2008 [18]. Đây thực chất là một phiên bản nâng
cấp của HIC để nâng cao tỷ số nén. Bằng cách giảm số mẫu trên hai thành phần màu
Cb và Cr xuống 4 lần theo cả hai chiều (tức là giảm đến 16 lần), cộng với một tích
hợp nhỏ trên mô-đul nén thành phần Y. Tỷ số nén cuối cùng mà HCRIC đạt được là
khoảng 6:1.
(5) Giải pháp nén AHIC (Advanced Hybrid Image Codec), một cải tiến nhỏ của
HCRIC, được để xuất bởi J. Wang và J. W. Chong vào tháng 2 năm 2009 [19]. Có
thể nói AHIC là một giải pháp nén cho tỷ số nén khá cao khi so sánh với các giải
pháp tương đương ứng dụng cho overdrive. Chất lượng mà AHIC đạt được khá tốt
trong phần lớn các tình huống kiểm nghiệm trên ảnh, nhất là các ảnh ghi lại cảnh
thiên nhiên với độ nét không cao và màu sắc không sắc nét (thể hiện trong phần
đánh giá thực nghiệm của [19]). Một ưu điểm nữa của AHIC là cấu trúc khá đơn
giản, điều này mang lại khả năng ứng dụng cao trong thực tiễn. Song giải pháp này
còn mắc phải một nhược điểm là dễ bị mắc phải hiện tượng nhiễu khối (blocking
effect). Chúng ta sẽ đề cập chi tiết về AHIC và vấn đề nhiễu khối mà nó có thể mắc
phải ở phần tiếp theo của chương này.
(6) Giải pháp nén sử dụng kỹ thuật mã hóa dựa trên thu gọn khối ảnh BTC song chỉ
dùng một mặt phẳng bit cho cả 3 thành phần màu R, G và B, nó có tên gọi là SBBBTC (Single Bit Plane based Block Truncation Coding) được đề xuất bởi Jun Wang,
Lin-bo Luo, Kyeong-yuk Min, Yeun-Cheul Jeung và Jong-wha Chong vào tháng 1
năm 2010 [20]. Dựa trên ý tưởng rằng các khối ảnh màu RGB có thể được mã hóa
với kỹ thuật BTC nhưng thay vì sử dụng 3 mặt phẳng bit (bit plane) để mã hóa cho 3
thành phần màu R, G và B như thông thường thì giải pháp này chỉ sử dụng một mặt
phẳng bit chung cho cả 3 màu R, G, và B. Mặt phẳng bit chung đó được sinh ra từ
việc phân ngưỡng thành phần độ chói của khối ảnh [20]. Bằng cách này thuật toán
trở nên đơn giản hơn so với phương pháp VQ-BTC. Qua thực nghiệm để đánh giá
kết quả cho thấy SBB-BTC cho kết quả tốt hơn giải pháp chỉ áp dụng BTC hay VQBTC.
(7) Giải pháp nén sử dụng kỹ thuật mã hóa BTC 2 mức hoặc 4 mức một cách thích nghi
với tên gọi AM-BTC (Adaptive Multi-level Block Truncation Coding), được J.
44
Wang và J. W. Chong đề xuất vào tháng 5 năm 2010 [21]. Đây là một cải tiến của
SBB-BTC bằng cách kết hợp song song hai bộ mã hóa SBB-BTC-2-level và SBBBTC-4-level, đầu ra tốt nhất của một trong hai bộ mã hóa trên sẽ được chọn lựa.
Bằng cách này sẽ cải thiện được hơn nữa chất lượng ảnh so với giải pháp SBBBTC, song kiến trúc của nó cũng phức tạp hơn nhiều so với SBB-BTC bởi phải bổ
sung thêm một bộ nén và giải nén cho SBB-BTC-4-level, một bộ chọn lựa để chọn
lựa một trong hai kết quả đầu ra của hai bộ mã hóa trên. Chúng ta cũng sẽ đi sâu
phân tích giải pháp này ở phần tiếp theo của chương này.
2.6.1.2. Các giải pháp nén ảnh áp dụng phép biến đổi ảnh kết hợp các kỹ thuật
mã hóa khối và biến đổi không gian màu
(1) Giải pháp nén sử dụng biến đổi DCT có thể mở rộng (scalable DCT-base) được đề
xuất bởi R. H. M. Wubben và G. J. Hekstra vào tháng 5 năm 2004 [28]. Quy trình
xử lý của giải pháp này theo tác giả là gần giống với quy trình xử lý của chuẩn nén
JPEG, điểm khác biệt chính là không áp dụng phương pháp mã hóa entropy và kích
thước khối . Giải pháp này có thể cho tỷ số nén cao tuy nhiên độ phức tạp tính toán
của nó cao hơn nhiều khi so sánh với những kỹ thuật mã hóa thông thường như
BTC. Với biến đổi DCT hai chiều thì năng lượng của tín hiệu có xu hướng tập trung
miền tần số thấp (gần gốc của hệ trục tần số), vì vậy các hệ số càng gần gốc thì yêu
cầu số lượng bit để lưu trữ và xử lý càng lớn, quan trọng nhất là thành phần DC
(thành phần hệ số chính ứng với cả hai tần số đều bằng zero). Chẳng hạn nếu giải
pháp sử dụng biến đổi DCT kích thước 8x8 thì khi đó hệ số DC sẽ có dung lượng là
8+log2(8x8) = 14 bít, khi đó các quy trình xử lý sau đó sẽ phải xử lý trên dữ liệu 14
bít, đồng thời với sự tăng kích thước bộ đệm dòng lên 8-line, khiến kiến trúc thực
thi của hệ thống nén trở nên phức tạp và giá thành cao.
(2) Giải pháp nén sử dụng biến đổi nhanh wavelet rời rạc (fast discrete wavelet
transform) được đề xuất bởi I. J. Chun, H. Mun, J. H. Sung, S. Y. Park và B. G. Kim
vào tháng 7 năm 2006 [9]. Đây là một nỗ lực tốt, song rất tiết nó chỉ đạt được tỷ số
nén Cr=2.66:1. Hơn thế nữa, giải pháp này đòi hỏi phải sử dụng một bộ đệm dòng
có kích thước 8-line cũng là một yếu điểm so với phần lớn các giải pháp khác.
(3) Giải pháp nén thực hiện trên nền tảng biến đổi wavelet rời rạc kết hợp mô hình chọn
lựa phương thức mã hóa thích nghi, có tên gọi DWT-based Adaptive Mode
Selection (DAMS), được đề xuất bởi Haksub Kim và Sanghoon Lee năm 2011 [5].
Giải pháp này sử dụng biến đổi wavelet hai chiều cho 8 dòng ảnh, do đó đòi hỏi sử
dụng một bộ đệm 8-line, dùng bộ lọc Daubechies 4/4 - hệ số định dạng số thực. Sau
đó ảnh trên các băng tần LL, LH, HL, HH được chia vào các khối có kích thước 4x8
45
và được sắp xếp theo một trật tự ưu tiên đã định trước. Tiếp đến là áp dụng mô hình
nén song song nhiều chế độ (mode) để sau đó chọn lựa ra chế độ mã hóa tốt nhất mà
vẫn đảm bảo dung lượng bit nén được kiểm soát chặt, mang lại tỷ số nén ổn định là
6:1. Các kết quả thực nghiệm chỉ ra rằng DAMS cho kết quả khá cao so với các giải
pháp SBTC, VQ-BTC và AHIC khi đánh giá theo độ đo PSNR. Tuy nhiêu, cũng
qua thực nghiệm cho thấy, rất nhiều tình huống chất lượng ảnh nén bởi DAMS bị
hiệu ứng khối (blocking effect) trên thành phần màu sắc một cách nặng nề khó chấp
nhận. Lỗi này thường xảy ra trên những vùng ảnh có màu sắc thay đổi mượt (hay tín
hiệu màu thay đổi chậm). Kiến trúc khá phức tạp, đòi hỏi đến 6 bộ mã hóa khác
nhau tương ứng với 6 cách mã hóa cũng là một nhược điểm nữa của DAMS. Chúng
ta sẽ phân tích chi tiết về DAMS trong phần tiếp theo của chương này.
Trên cơ sở các đặc điểm kỹ thuật của các giải pháp nén, chúng tôi đã xây dựng nên
biểu đồ cây thừa kế thể hiện qua Hình 2.24 (xem ở trang 47). Trong đó mỗi phần tử là một
bản tóm tắt sơ lược cho một giải pháp nén với các thông tin cơ bản nhất.
Tóm lại, đã có khá nhiều giải pháp nén được nghiên cứu đề xuất áp dụng cho màn
hình tinh thể lỏng, với nhiều cách tiếp cận và xử lý khá khác nhau và hiệu năng mà mỗi
giải pháp đạt được cũng mỗi khác. Xu hướng thông thường là giải pháp nén có tỷ số nén
càng cao thì độ phức tạp tính toán sẽ tăng lên và ngược lại. Điều này khiến cho việc so
sánh đánh giá giữa những giải pháp nén có tỷ số nén khác nhau trở nên khó khả thi hay
phiến diện. Bên cạnh đó, việc đi sâu vào phân tích đánh giá khiến trúc phần cứng thực thi
không nằm trong phạm vi của luận án này. Do đó các phân tích so sánh giữa các giải pháp
chỉ thực hiện trên các giải pháp gần tương đương nhau về tỷ số nén hoặc độ phức tạp kiến
trúc thực thi.
2.6.2. Một số hƣớng tiếp cận các giải pháp nén và định hƣớng nghiên cứu
Trong phần này luận án tập trung phân tích đánh giá ưu và nhược điểm của một số giải
pháp nén tiên tiến và nổi bật về mặt hiệu năng áp dụng cho màn hình tinh thể lỏng, trên cơ
sở kết hợp các phương pháp nén ảnh cơ sở và các phương pháp nén ảnh tiên tiến. Các giải
pháp được đưa ra phân tích đánh giá qua hai hướng tiếp cận:
-
Mã hóa khối và biến đổi không gian màu: Gồm hai giải pháp nén được đề xuất bởi
cùng một nhóm tác giải J. Wang và J. W. Chong đó là các giải pháp AHIC [19] (đề
xuất năm 2009) và AM-BTC [21] (đề xuất năm 2010). Cả hai giải pháp này đều cho
chất lượng ảnh nén khá cao khi so sánh với các giải pháp nén ảnh áp dụng cho màn
hình tinh thể lỏng cùng giai đoạn được đề xuất trở về trước, cộng với một kiến trúc
không quá phức tạp.
46
Sơ lược về các giải pháp nén ảnh cho màn hình tinh thể lỏng và sự kế thừa
Giải pháp đơn giản trong [12]
Sử dụng phép biến đổi
không gian màu
Sử dụng kỹ thuật mã hóa
BTC
Tỷ số nén CR=3.0 đến 3.42
phụ thuộc vào kích thước
block được sử dụng
5/2003
Giải pháp VQ-BTC trong [23]
Sử dụng kỹ thuật mã hóa
VQ-TBC
Biến đổi từ không gian
màu RGB sang HSI để tinh
chỉnh
CR=6
11/2008
Giải pháp lai (HIC) trong [16]
Sử dụng phép biến đổi
không gian màu RGB 4:4:4
sang YCbCr 4:2:0
Sử dụng kỹ thuật mã hóa
thích nghi (AQC) cho thành
phần độ chói (Y), và kỹ
thuật BTC cho màu
(Cb&Cr)
CR=3.31
9/2007
Giải pháp biến đổi không gian
màu trong [9]
Sử dụng phép biến đổi
không gian màu RGB sang
YCbCr.
Kỹ thuật mã hóa không
được tác giả đề xuất cụ
thể
CR=3
5/2005
Giải pháp HCRIC trong [17]
Biến đổi RGB sang YCbCr
rồi Downsampling 4↓1 với
hai thành phần U&V
Sử dụng kỹ thuật AQC cho
thành phần Y, và BTC cho
màu (Cb&Cr)
CR=6
2008
SBB-BTC trong [19]
Sử dụng kỹ thuật mã hóa
BTC với chỉ một mặt phẳng
bít biểu diễn bản đồ mã cho
cả 3 thành phần R,G,B
CR=6
1/2010
AM-BTC trong [20]
Kế thừa SBB-BTC song tích
hợp đến 2 bộ mã hóa TBC2level và BTC-4level và chọn
lựa kết quả đầu ra một cách
thích nghi
CR=6
5/2010
Giải pháp “Scalable DCTbased” trong [26]
Sử dụng biến đổi Scalable
DCT-based.
Sử dụng mã hóa Runlength coding,… (Like JPEG,
not use entropy coding)
CR = 12, 16, 20 tùy theo
kích thước block được sử
dụng
5/2004
Giải pháp “fast discrete
wavelet” trong [8]
Sử dụng biến đổi nhanh
wavelet rời rạc
Tỷ số nén CR = 2.66
7/2006
Giải pháp AHIC trong [18]
Kế thừa gần như hoàn
toàn HCRIC với một khác
biệt nhỏ ở bộ giảm mẫu.
CR=6
2/2009
Nhóm
Nhóm các
các giải
giải pháp
pháp nén
nén có
có kiến
kiến trúc
trúc đơn
đơn giản
giản hay
hay không
không quá
quá phức
phức tạp.
tạp. Chủ
Chủ yếu
yếu áp
áp dụng
dụng phép
phép biến
biến đổi
đổi không
không
gian
gian màu
màu và
và mã
mã hóa
hóa khối
khối
Giải pháp DAMS trong [4]
Sử dụng phép biến đổi
không gian màu RGB sang
YCbCr, cùng với biến đổi
wavelet rời rạc 2 chiều
(DWT)
Sử dụng mã hóa hỗn hợp
song song nhiều kỹ thuật
khác nhau như: Mean,
BTC, AQC-4Level, AQC8Level, AQC-16Level
CR=6
5/2011
Giải pháp SAMS trong [11]
Kế thừa của DAMS với sự
cải tiến cơ chế ngưỡng cố
định bằng cơ chế ngưỡng
động dựa trên độ đo SSIM
CR=6
11/2012
Giải pháp LTC trong [22]
Sử dụng biến đổi không gian
màu RGB sang YCbCr, cùng
với các phép biến đổi
“lapped
transform”
và
“hadamard transform”. Với
cơ chế mã hóa các hệ số của
phép biến đổi hadamard
theo mặt phẳng bit
CR = 6
8/2011
Nhóm
Nhóm các
các giải
giải pháp
pháp nén
nén có
có kiến
kiến trúc
trúc phức
phức tạp.
tạp. Chủ
Chủ yếu
yếu áp
áp dụng
dụng các
các phép
phép
biến
biến đổi
đổi không
không gian
gian và
và các
các phép
phép biến
biến đổi
đổi sang
sang miền
miền tần
tần số
số như
như biến
biến đổi
đổi
DCT
DCT hay
hay biến
biến đổi
đổi Wavelet.
Wavelet.
Hình 2.24. Những giải pháp nén đã được đề xuất áp dụng trong hệ thống overdrive của màn hình tinh thể lỏng. Những đặc điểm chính và
tính kế thừa trong một số giải pháp.
47
-
Mã hóa dựa trên biến đổi DWT và lựa chọn thích nghi: Một giải pháp nén được đề
xuất bởi nhóm tác giải Haksub Kim và Sanghoon Lee là giải pháp DAMS [5] (đề
xuất 2011). Giải pháp này cho chất lượng ảnh nén vượt trội khi so sánh với các giải
pháp nén ảnh áp dụng cho màn hình tinh thể lỏng cùng giai đoạn được đề xuất trở về
trước, tuy vậy độ phức tạp tính toán của giải pháp cũng ở mức khá cao với một kiến
trúc khá phức tạp khi so sánh với những giải pháp như AHIC hay AM-BTC là
những giải pháp đã được đề xuất trước đó.
Sau đây là phần trình bày chi tiết về các giải pháp nén theo các hướng tiếp cận trên
cùng với các phân tích đánh giá.
2.6.2.1. Mã hóa khối cùng biến đổi không gian màu và định hƣớng cải tiến
a) Đánh giá giải pháp nén AHIC – Định hướng nghiên cứu cải tiến
Vào tháng 2 năm 2009, hai tác giả J. Wang và J. W. Chong đề xuất một giải pháp nén
có tên AHIC (Advanced Hybrid Image Codec) dựa trên sự kế thừa và phát triển của hai
giải pháp nén đã được chính họ đề xuất trước đó là HIC (Hybrid Image Coding) và HCRIC
(High Compression Ratio Image Coding).
Quy trình xử lý trong sơ đồ AHIC encoder gồm các công đoạn chính (xem Hình 2.27,
trang 50) sau:
(1) Chuyển đổi không gian màu từ RGB sang YCbCr
(2) Giảm độ phân giải của thành phần tín hiệu màu Cb và Cr xuống 4 lần theo cả hai
chiều (Downsampling 4 lần theo cột và 4 lần theo dòng), kết quả số mẫu tín hiệu
(hay điểm ảnh) trên Cb và Cr giảm đi 16 lần. Hay nói cách khác là cứ 4×4 điểm màu
Cb hay Cr đầu vào sau quá trình downsampling chỉ còn lại 1 điểm.
(3) Nén 8 khối dữ liệu ảnh độ chói Y (kích thước mỗi khối là 4×4) bởi phương pháp
AQC 3bit/value nhằm giữ cho thành phần độ chói Y có chất lượng cao. Sơ đồ khối
bộ mã hóa AQC do J. Wang và J. W. Chong đề xuất được mô tả khá chi tiết qua
Hình 2.25, với mỗi khối ảnh đầu vào kích thước 4x4. Các bước gồm: tìm giá trị Min
và Max của khối, xác định giá trị khác biệt Diff = Max-Min và Qstep = Diff/7. Từ
đó các giá trị đầu vào được lượng tử hóa qua công thức Code = (Input –
Min)/Qstep. Giá trị khôi phục được tính qua công thức Decode = Min +
Code*Qstep (nguồn [23]). Đầu ra của bộ mã hóa AQC sẽ gồm 16 giá trị mã hóa
điểm ảnh (mỗi giá trị 3bit) và giá trị Min (8bit) cùng bước lượng tử Qstep (5bit).
Với 8 khối đầu vào bộ AQC sẽ có 8 giá trị Min sau mã hóa AQC. Tiếp đến là công
đoạn nén 8 giá trị Min với dung lượng 64 bit bởi bộ AQC thứ hai để chỉ còn 37 bit.
48
Song song với công đoạn xử lý Y là công đoạn nén các khối dữ liệu màu Cb và Cr
(kích thước mỗi khối là 8x1), với phương pháp BTC (ở đây là phương pháp BTC tối
ưu hóa MSE hay còn được nhiều tác giải gọi là New BTC) với kết quả chỉ còn lại
chỉ 24 bit cho mỗi thành phần màu.
Hình 2.25. Sơ đồ khối của bộ mã hóa AQC ([23])
Kết quả, từ khối dữ liệu đầu vào với kích thước 32 cột × 4 dòng, dung lượng
, đầu ra chỉ còn lại
(
)
, từ đó
AHIC đạt được tỷ số nén là
Chất lượng ảnh nén mà AHIC đạt được thể hiện qua Bảng 2.5 [19], có thể thấy AHIC
đạt được kết quả vượt trội hơn giải pháp nén ảnh chỉ áp dụng kỹ thuật mã hóa kinh điển
BTC khi đánh giá trên độ đo chất lượng PSNR. Đồng thời chất lượng ảnh nén khi quan sát
cũng ít bị hiệu ứng nhiễu khối so với giải pháp BTC như thể hiện trong Hình 2.26.
Bảng 2.5 Chất lượng nén trung bình của AHIC so với giải pháp chỉ áp dụng kỹ thuật
lượng tử hóa BTC [19]
(a)
(b)
(c)
(d)
Hình 2.26. Chất lượng ảnh nén của giải pháp AHIC được so sánh với giải pháp chỉ áp
dụng kỹ thuật BTC [19]. (a) & (b) Ảnh gốc. (c) AHIC. (d) BTC.
49
Có thể nói AHIC đã sử dụng một kiến trúc hỗn hợp (hay lai ghép) của phương pháp
lượng tử hóa truyền thống BTC với phương pháp lượng tử thích nghi AQC nhằm đạt được
chất lượng ảnh cao trên thành phần ảnh độ chói vốn rất nhạy cảm với thị giác người, tỷ số
nén đạt được ở thành phần Y chỉ là
. Trong khi đó thành phần màu Cb và Cr,
vốn kém nhạy cảm với hệ thống thị giác của con người, đã được xử lý qua hai công đoạn là
giảm mẫu và mã hóa BTC để đạt được một tỷ số nén rất cao là
.
Đánh giá các ưu điểm của AHIC:
(1) Đạt đƣợc tỷ số nén cao,
,
(2) Kiến trúc thực thi không quá phức tạp. Chính yếu là các bộ mã hóa và giải mã
gồm: 4×4 AQC (xử lý với 16 giá trị Y đầu vào); 8x1 AQC (xử lý với 8 giá trị Min
đầu vào); và 8x1 BTC (xử lý với 8 giá trị Cb hoặc Cr đầu vào). Cùng với các môđul biến đổi không gian màu và Down/Up Sampling. Toàn bộ hệ thống có thể được
xử lý trên kiến trúc 8 bít.
(3) Chất lƣợng nén khá cao. Nhất là khi đánh giá trên độ đo PSNR. Không mắc phải
hiện tượng nhiễu khối trầm trọng như giải pháp BTC như thể hiện trong Hình 2.26.
Đánh giá một số nhược điểm của AHIC:
(1) Hiệu ứng nhiễu khối (blocking effect). Nguyên nhân chính nằm ở công đoạn nén 8
RGBtoYCbCr
32x4
Block
Y
4x4 AQC
Encoder
8x1 Min
8x1 AQC
37 bits
Encoder
424 bits (Qstep & coded data)
Cb
1:4 down
sampling
8x1 block
Cr
1:4 down
sampling
8x1 block
BTC Encoder
24 bits
Coded Cb
BTC Encoder
24 bits
Coded Cr
4 line buffer
RGB
(24 bits)
4 line buffer
giá trị Min như thể hiện trong Hình 2.27.
RGB
(24 bits)
Encoder
4x4 AQC
Decoder
Y
24 bits
Coded Cb
BTC Decoder
8x1 block
1:4 up
sampling
Cb
24 bits
Coded Cr
BTC Decoder
8x1 block
1:4 up
sampling
Cr
YCbCrtoRGB
8x1 AQC
8x1 Min
Decoder
424 bits (Qstep & coded data)
37 bits
32x4
Block
Decoder
Hình 2.27. Sơ đồ giải pháp nén AHIC. Với 2 khối 8×1 AQC Encoder và Decoder là
nguyên nhân chính gây ra hiện tượng nhiễu khối làm suy giảm chất lượng ảnh.
Ở đây 8 giá trị Min chính là giá trị thống kê cục bộ của tín hiệu Y trong một vùng ảnh
kích thước 4×4, xét về mặt tín hiệu thì giá trị thống kê cục bộ Min là một giá trị kém ổn
định so với các giá trị thống kê khác như mean (trung bình) hay median (trung vị).
Chính vì tính kém ổn định nên 8 giá trị Min sẽ có xu hướng khác biệt nhau rất lớn, mà
50
khi 8 giá trị khác biệt càng lớn thì lượng tử hóa 8 giá trị này với bộ lượng tử 8x1 AQC
3bit/value sẽ phát sinh sai số càng cao. Sử dụng các giá trị Min khôi phục để giải nén
cho các khối 4×4 sẽ khiến những sai số tiềm ẩn trong giá trị Min tác động đồng thời lên
16 giá trị điểm ảnh trong khối, khi giá trị sai số lớn sẽ tạo ra những khối nhiễu 4×4 trên
ảnh, các khối nhiễu này xuất hiện một cách ngẫu nhiên làm suy giảm đáng kể chất
lượng ảnh nén trên phương diện độ đo chất lượng ảnh PSNR cũng như trên phương diện
thị giác khi quan sát ảnh khôi phục, nhất là khi quan sát trên một chuỗi hình chuyển
động thì các khối nhiễu sẽ ẩn hiện ngẫu nhiên nên rất nhạy cảm với mắt người. Hình
2.28 thể hiện rõ sự xuất hiện ngẫu nhiên của nhiễu khối trên ảnh.
(a) Ảnh gốc
(b) Ảnh khôi phục của AHIC
(c) Ảnh sai số được khuếch đại 12 lần và hiển thị với kích thước 50%
Hình 2.28. Hiện tượng nhiễu khối (blocking effect) trên ảnh khôi phục của AHIC. Ảnh
(c) là sai số giữa ảnh gốc và ảnh khôi phục được khuếch đại 12 lần và biến đổi âm bản.
(2) Chất lƣợng nén đánh giá trên hai thành phần màu Cb và Cr trong nhiều tình
huống cho chất lƣợng thấp. Nhất là với các ảnh có độ nét cao và nhiều chi tiết màu
sắc như trong Hình 2.29. Nguyên nhân xuất phát từ quá trình xử lý giảm độ phân
giải cho Cb và Cr với tỷ số quá lớn. Cộng với kỹ thuật mã hóa BTC áp dụng cho tín
hiệu Cb và Cr cũng làm phát sinh sai số lớn trên ảnh khôi phục.
51
(a) Ảnh gốc
(b) Ảnh khôi phục của AHIC
(c) Ảnh sai số được khuếch đại 12 lần và hiển thị với kích thước 50%
Hình 2.29. Hiện tượng kém chất lượng trên thành phần màu sắc (Cb và Cr) trên ảnh
khôi phục của AHIC. Ảnh (c) là sai số giữa ảnh gốc và ảnh khôi phục được khuếch đại 12
lần và biến đổi âm bản.
Định hướng nghiên cứu cải tiến cho AHIC:
(1) Nghiên cứu cải tiến kỹ thuật lượng tử AQC thích nghi theo giá trị Min, vốn là một
giá trị thiếu tính ổn định trong tín hiệu, thành kỹ thuật lượng tử thích nghi theo giá
trị Mean có tính ổn định cao. Từ đó sẽ giúp khắc phục hiện tượng nhiễu khối như đã
được chỉ ra ở phần trên.
(2) Nghiên cứu kết hợp với các giải pháp lượng tử hóa tối ưu nhằm tối ưu chất lượng
ảnh.
(3) Nghiên cứu cải tiến giải pháp cho phép tránh việc hạ thấp độ phân giải quá mức ở
hai thành phần màu Cb và Cr song vẫn giữ được tỷ số nén cao vốn có của AHIC, để
có được điều này chúng ta cần tránh cố định tỷ số nén thấp cho Y và rất cao cho Cb
và Cr như cách làm của AHIC.
b) Đánh giá giải pháp nén AM-BTC
52
Giải pháp nén AM-BTC (Adaptive Multi-level Block Truncation Coding), được J.
Wang và J. W. Chong đề xuất vào tháng 5 năm 2010 [21]. Đây là một cải tiến của SBBBTC bằng cách kết hợp song song hai bộ mã hóa SBB-BTC-2-level và SBB-BTC-4-level,
đầu ra tốt nhất của một trong hai bộ mã hóa trên sẽ được chọn lựa. Bằng cách này sẽ cải
thiện được hơn nữa chất lượng ảnh so với giải pháp SBB-BTC, song kiến trúc của nó cũng
phức tạp hơn nhiều so với SBB-BTC bởi phải bổ sung thêm một bộ nén và giải nén cho
SBB-BTC-4-level, một bộ chọn lựa để chọn lựa một trong hai kết quả đầu ra của hai bộ mã
hóa trên. Sơ đồ khối cũng như kiến trúc của bộ mã hóa AM-BTC được thể hiện trong Hình
2.30. Có thể thấy AM-BTC là một cách tiếp cận hoàn toàn khác với AHIC, và là một cách
áp dụng sáng tạo kỹ thuật BTC cho lượng tử hóa ảnh màu nhằm đạt được tỷ số nén cao, và
chất lượng vượt trội hơn so với những giải pháp trước đó như thể hiện trong Bảng 2.6.
(a) Sơ đồ khối của AM-BTC
(b) Kiến trúc của bộ mã hóa AM-BTC
Hình 2.30 Sơ đồ khối và kiến trúc của AM-BTC
Bảng 2.6. Chất lượng ảnh khôi phục của một số giải pháp nén – đánh giá theo độ đo
PSNR (dB) [21].
Sau đây luận án sẽ phân tích đánh giá một số ưu và nhược điểm của AM-BTC.
Đánh giá các ưu điểm của AM-BTC:
(1) Đạt đƣợc tỷ số nén cao,
.
53
(2) Kiến trúc thực thi không quá phức tạp. Có thể thấy rằng nếu đem so sánh với
những giải pháp có tỷ số nén tương đương đã được đề xuất trước đó như AHIC hay
VQ-BTC thì độ phức tạp của kiến trúc thực thi cho AM-BTC không quá chênh lệch.
Độ phức tạp tính toán khá cao trong kỹ thuật BTC-2-level và BTC-4-level cho một
khối ảnh màu, cũng như yêu cầu phải có đến 2 bộ lượng tử để thực hiện song song
cùng lúc cho cùng một tín hiệu đầu vào. Nhưng bù lại kiến trúc AM-BTC lại không
yêu cầu các bộ chuyển đổi không gian màu và các bộ Down/Up sampling như trong
AHIC.
(3) Chất lƣợng ảnh nén khá cao. Nhất là khi đánh giá trên độ đo PSNR thì AM-BTC
có giá trị vượt trội so với AHIC, VQ-BTC, FBTC và BTC.
Đánh giá một số nhược điểm của AM-BTC:
(1) Hiệu ứng khối:
(a) Ảnh gốc
(b) Ảnh khôi phục của AHIC
(c) Ảnh sai số khuếch đại 12 lần
Hình 2.31. Ảnh khôi phục của AM-BTC và sai số của nó. Ảnh (c) là sai số giữa ảnh
gốc và ảnh khôi phục được khuếch đại 12 lần và biến đổi âm bản. Các hình ảnh được hiển
thị với kích thước 50%.
Do BTC-2-level và BTC-4-level là một dạng kỹ thuật BTC cải tiến để tăng tỷ số
nén trên ảnh màu. Nên cũng giống như BTC, kỹ thuật BTC-2-level và BTC-4-level sẽ
cho chất lượng cao ở những vùng ảnh chi tiết đường nét (chuyển đổi đột ngột) hoặc
những vùng ảnh nền (không thay đổi), song lại cho chất lượng thấp ở những vùng ảnh
có sự thay đổi liên tục về màu sắc hay độ sáng một cách mượt mà. Điều đó khiến cho
mắt người dễ cảm nhận trạng thái hình ảnh bị phân khối, không được trơn mượt ở
những vùng ảnh có sự biến thiên mượt mà, ví dụ như phần ảnh trên khuôn mặt trong
Hình 2.31 chẳng hạn.
(2) Hiệu ứng rung động (vibration). Khi quan sát trên một chuỗi khung hình thì hiện
tượng rung động bập bùng, như khi chúng ta nhìn xuyên qua vùng không khí nóng
gần đống lửa, xảy ra ở những vùng ảnh có nhiều chi tiết nhỏ nhưng gần như đứng
yên (có nghĩa là chỉ số ít các điểm ảnh có sự thay đổi nhỏ về mặt cường độ, còn
phần lớn các điểm ảnh còn lại giữ nguyên giá trị theo thời gian), ví dụ như vùng
54
ảnh nền sân cỏ trong chuỗi khung hình Footbal hay Cheerleaders (là những chuỗi
khung hình được tham chiếu trong cơ sở dữ liệu [34]). Hình 2.32 cho thấy hiện
tượng rung động trong giải pháp nén AM-BTC, sự rung động được thể hiện qua sự
khác biệt lớn giữa hai khung hình khôi phục so với sự khác biệt giữa hai khung hình
gốc. Điều tương tự không xảy ra với giải pháp nén AHIC. Nguyên nhân của hiện
tượng rung động này bắt nguồn từ cơ chế lựa chọn kết quả mã hóa đầu ra tối ưu từ
hai bộ mã hóa BTC-2-level và BTC-4-level của AM-BTC. Chỉ cần một thay đổi nhỏ
trong khối 4×4 đầu vào có thể sẽ làm đảo ngược kết quả lựa chọn đầu ra giữa BTC2-level và BTC-4-level, trong khi khối khôi phục của BTC-2-level và BTC-4-level
nói chung là sẽ khác biệt nhau khá lớn. Đó là lý do tạo nên sự rung động trên một số
vùng ảnh.
(a) Sự khác biệt giữa hai khung hình gốc
(c) Sự khác biệt giữa hai khung hình khôi phục của
giải pháp nén AM-BTC (khuếch đại lên 6 lần)
(b) Khuếch đại (a) lên 6 lần
(d) Sự khác biệt giữa hai khung hình khôi phục của
giải pháp nén AHIC (khuếch đại lên 6 lần)
Hình 2.32. Minh chứng cho hiện tượng rung động trong giải pháp nén AM-BTC. Sự rung
động được thể hiện qua sự khác biệt lớn giữa hai khung hình khôi phục so với sự khác biệt
giữa hai khung hình gốc. Điều tương tự không xảy ra với giải pháp nén AHIC. Ảnh được
lấy từ khung hình thứ 300 và 301 trong chuỗi khung hình 3inrow tham chiếu trong [34].
55
(3) Chất lƣợng thành phần độ chói trên ảnh khôi phục không cao. Trong khi độ
chói lại rất nhạy cảm với hệ thống thị giác của con người. Có hai nguyên nhân dẫn
đến điều này: thứ nhất là do cơ chế nén xử lý trực tiếp trên ba thành phần màu R, G,
và B một cách bình đẳng mà không có sự phân biệt và ưu tiên cho thành phần độ
chói so với thành phần màu. Thứ hai đó là trong cơ chế chọn lựa kết quả tối ưu giữa
BTC-2-level và BTC-4-level đã không sử dụng độ đo MSE mà sử dụng độ đo SAD
(the sum of the absolute difference of original and decoded images), nói cách khác
là việc chọn lựa đầu ra phụ thuộc vào tổng của trị tuyệt đối của sự khác biệt giữa
ảnh gốc và ảnh giải nén. Với một khối
có N điểm được nén và giải nén để thu
được , thì độ đo SAD trên hai khối này sẽ là:
∑
| ( ) − ( )|
Ở đây chúng ta thấy hai tác giả đã chọn lựa độ đo SAD để đánh giá chất lượng
nén của hai bộ phận BTC-2-level và BTC-4-level thay vì sử dụng độ đo thông dụng
trong lĩnh vực nén ảnh nói riêng và xử lý ảnh nói chung là MSE (Mean Squared
Error) có dạng:
∑
( ( ) − ( ))
Độ đo SAD mà hai tác giả sử dụng có ưu điểm là tính toán đơn giản do không
phải thực hiện phép tính lũy thừa N lần như trong độ đo MSE. Song đó cũng chính
là nhược điểm của nó. Bởi SAD không lũy thừa các sai số mà chỉ cộng các trị tuyệt
đối sai số lại. Cách tính này sẽ dẫn đến khả năng chấp nhận những khối ảnh được
mã hóa với sai số rất lớn trên một vài điểm ảnh, trong khi lại loại bỏ kết quả nén với
sai số bé trên nhiều điểm ảnh. Ví dụ một khối
có kích thước 4×4 được mã hóa và
giải mã theo hai cách để cho ra hai kết quả với sai số lần lượt là:
E1 = [1 1 0 -1 0 1 0 0 1 1 0 1 1 1 0 1]
E2 = [0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0]
Lúc này SAD(E1) = 12, SAD(E2) = 10, MSE(E1) = 12/16 = 0.75 và MSE(E2) =
100/16 = 6.25. Nếu sử dụng độ đo SAD chúng ta sẽ đi đến chọn lựa kết quả nén thứ
2 làm kết quả nén khối ảnh tốt nhất. Đây là một chọn lựa không phù hợp với thị giác
người, bởi thị giác người rất kém nhạy cảm với những khác biệt nhỏ về độ sáng (hay
màu sắc), song với những giá trị khác biệt tương đối lớn thì mắt người dễ dàng nhận
thấy chúng trên ảnh. Vì vậy kết quả tốt nhất theo thị giác người mà chúng ta nên
chọn không phải là kết quả giải nén thứ hai, với sai số bên trong E2 được tạo ra bởi
một giá trị sai số có độ lớn 10, là một giá trị khá lớn nên có thể dễ dàng nhận thấy
trên ảnh, mà phải là kết quả nén thứ nhất với sai số E1, dù nó có nhiều sai số bên
56
trong song hầu như những sai số với biên độ ±1 thì mắt người không thể nhận thấy.
Độ đo MSE thể hiện rõ khả năng đánh giá chất lượng phù hợp với thị giác của con
người. Với MSE, sai số tác động lên kết quả đánh giá theo dạng lũy thừa, từ đó đưa
đến chiến lược: “thà chấp nhận nhiều sai số nhỏ dễ bỏ qua còn hơn chỉ một sai số
nhưng lớn đến mức có thể làm nhức mắt!”. Với độ đo SAD đã đưa đến kết quả nén
xuất hiện nhiều giá trị sai số lớn, gây tác động xấu lên độ chói của ảnh khôi phục.
(4) Một ưu điểm song cũng là nhược điểm nữa của giải pháp nén AM-BTC đó là xử lý
trực tiếp trên ảnh màu RGB, bởi kỹ thuật mã hóa BTC 2-level hoặc 4-level với lập
luận rằng cả 3 thành phần R, G và B có thể dùng chung một mặt phẳng bit mã hóa
(Bit Plane). Lập luận này không có cơ sở lý luận nào ngoài nhận định chủ quan của
tác giả, vì thế qua thực nghiệm có thể thấy chất lượng ảnh chưa thật sự tốt trong
nhiều tình huống. Hơn nữa giải pháp này không chú trọng đến chất lượng thành
phần độ chói, vốn là thành phần rất nhạy cảm với mắt người.
2.6.2.2. Mã hóa dựa trên phép biến đổi wavelet (DWT) và lựa chọn thích nghi
Nổi bật theo hướng tiếp cận này là giải pháp DAMS. Đây là giải pháp nén thực hiện
trên nền tảng biến đổi wavelet rời rạc hai chiều kết hợp với mô hình chọn lựa phương thức
mã hóa thích nghi với tên gọi DAMS (DWT-Based Adaptive Mode Selection), được đề
xuất bởi Haksub Kim và Sanghoon Lee vào tháng 5 năm 2011 [5].
(a)
(b)
Hình 2.33. Mô hình hệ thống của DAMS và bộ mã hóa thích nghi. (a) Mô hình hệ
thống. (b)bộ mã hóa thích nghi DAMS khi chưa có bộ phận kiểm soát nhằm ổn định tỷ số
nén (nguồn [5]).
Mô hình hệ thống DAMS được thể hiện qua Hình 2.33 (a), với các bộ phận xử lý cơ
bản gồm: hai khối lần lược thực hiện biến đổi không gian màu thuận (RGB to YCbCR) và
nghịch (YCbCr to RGB); hai khối thực lần lượt hiện biến đổi wavelet rời rạc hai chiều
thuận (DWT) và nghịch (IDWT); hai khối thực lần lượt hiện mã hóa (Encoder) và giải mã
(Decoder) theo cơ chế lựa chọn thích nghi trên cơ sở đa chế độ lượng tử như thể hiện trong
Hình 2.33 (b), trong đó Threshold là giá trị ngưỡng giúp lựa chọn kết quả nén đầu ra của
57
mode thấp nhất (tức tỷ số nén cao nhất) có sai số đo theo độ đo RMSE (Root Mean Square
Error) thấp hơn giá trị ngưỡng, và giá trị ngưỡng được xác định là Rth = 4.5 (nếu đổi sang
độ đo PSNR sẽ tương ứng với 35 dB). Để có thể áp dụng giải pháp nén vào hệ thống
overdrive trong màn hình tinh thể lỏng các tác giả đã đưa ra một giải thuật kiểm soát số bit
đầu ra của bộ mã hóa (Encoder) nhằm cố định tỷ số nén
, thuật toán xử lý được
hai tác giả đưa ra chi tiết trong bài báo.
Có thể thấy DAMS là một giải pháp nén có quy trình xử lý khá phức tạp. Giải pháp
này sử dụng biến đổi wavelet hai chiều cho 8 dòng ảnh, đo đó đòi hỏi sử dụng một bộ đệm
8-line, đồng thời sử dụng bộ lọc Daubechies 4/4 - hệ số định dạng số thực. Sau đó ảnh trên
các băng tần LL, LH, HL, HH được chia vào các khối có kích thước 4x8 rồi được sắp xếp
theo một trật tự ưu tiên đã định trước. Tiếp đến là áp dụng mô hình nén song song nhiều
chế độ (mode) để sau đó chọn lựa ra chế độ mã hóa có tỷ số nén cao nhất và chất lượng nén
thỏa mãn giá trị ngưỡng Rth=4.5. Cùng với cơ chế kiểm soát chặt để đảm bảo dung lượng
bit nén không vượt quá giá trị được cho phép bởi tỷ số nén 6:1. Các kết quả thực nghiệm
chỉ ra rằng DAMS cho kết quả khá cao so với các giải pháp SBTC, VQ-BTC và AHIC khi
đánh giá trên thang đo PSNR (nguồn [5]).
Qua phân tích lý thuyết và thực nghiệm chúng tôi nhận thấy DAMS có một số ưu và
nhược điểm sau:
Đánh giá các ưu điểm của DAMS:
(1) Đạt đƣợc tỷ số nén cao ,
.
(2) Chất lƣợng nén vƣợt trội, khi so sánh với các giải pháp nén có tỷ số nén tương
đương.
(3) Có khả năng thích nghi theo sự thay đổi của tín hiệu ảnh. Với cơ chế chọn lựa
chế độ (mode) mã hóa lượng tử một cách thích nghi cộng với khả năng kiểm soát tỷ
số nén phù hợp đã tạo ra khả năng thích nghi của giải pháp nén theo sự biến đổi của
nội dụng ảnh. Đây chính là ưu điểm nổi bật của DAMS.
Đánh giá một số nhược điểm của DAMS:
(1) Bị hiệu ứng khối (blocking) và nhiễu đốm (noise). Trong phần lớn các trường hợp
ảnh có sự chuyển biến màu sắc chậm và liên tục trên một vùng ảnh (hay còn được
gọi là gradient màu) thì kết quả nén đều mắc phải hiệu ứng khối (xem Hình 2.34
(b)), điều này có nguyên nhân nằm ở độ ưu tiên thấp của thành phần màu so với
thành phần độ chói và cơ chế kiểm soát tỷ số bit có thể sẽ hạ mode mã hóa của các
MB (macroblock) màu xuống dưới mức tiêu chuẩn (hay chất lượng thấp hơn mức
58
ngưỡng), khi các MB được mã hóa với chất lượng thấp sẽ tạo nên hiệu ứng khối trên
ảnh khôi phục. Trong khi đó tại các vùng ảnh có nhiều chi tiết thì các MB ứng với
thành phần độ chói sẽ đòi hỏi phải được nén với tỷ số nén thấp (hay mode cao),
đồng nghĩa với việc phải sử dụng một lượng bit lớn để mã hóa những MB này,
nhưng vào những thời điểm quỹ bit bị thu hẹp thì yêu cầu này sẽ không thể được
đáp ứng, dẫn đến chất lượng nén kém, cộng với tác động của biến đổi wavelet
ngược (IDWT) sẽ gây ra hiệu tượng noise (xem Hình 2.34 (e)). Việc tăng hay giảm
giá trị ngưỡng Rth luôn mang lại tác động hai mặt, ví dụ khi chúng ta tăng ngưỡng
lên Rth=2.55 (tương ứng với mức chất lượng mong đợi trên các MB là PSNR=40dB)
thì sẽ cải thiện được hiệu ứng khối nhưng lại làm tăng hiện tượng nhiễu (xem Hình
2.34 (c)&(f)).
(2) Độ phức tạp tính toán hay kiến trúc thực thi yêu cầu ở mức cao. Nhất là hệ
thống yêu cầu phải thực hiện biến đổi wavelet rời rạc trên hai chiều với bộ lọc
Daubechies 4/4 - hệ số trên trường số thực, cùng với chế độ lượng tử hóa thích nghi
AQC cũng yêu cầu phải tính toán trên trường số thực dấu phẩy tĩnh (với 2 bit cho
phần lẻ). Bên cạnh đó yếu tố kích thước bộ đệm dòng đòi hỏi đến 8-line, một giá trị
lớn gấp đôi so với các giải pháp nén thông thường khác.
(3) Hiệu xuất sử dụng quỹ bit còn thấp. Như thể hiện qua Hình 2.35, số bit dư thừa
còn khá cao.
(a) Ảnh Parrots và một vùng trên ảnh gốc
được phóng lớn
(b) Ảnh khôi phục với Rth= (c) Ảnh khôi phục với Rth=
4.5 (hay PSNR = 35dB)
2.55 (hay PSNR = 40dB)
(d) Ảnh Bikes và một vùng trên ảnh gốc được
phóng lớn
(e) Ảnh khôi phục với Rth= (f) Ảnh khôi phục với Rth=
4.5 (hay PSNR = 35dB)
2.55 (hay PSNR = 40dB)
Hình 2.34. Hiệu ứng khối (blocking) và nhiễu (noise) trên ảnh khôi phục của DAMS.
59
Hình 2.35. Số bit dư thừa khi kết thúc quá trình nén của DAMS
Định hướng nghiên cứu cải tiến cho DAMS:
1. Nghiên cứu tích hợp kỹ thuật ngưỡng thích nghi thay thế kỹ thuật ngưỡng cố định
trong DAMS. Nhằm tăng cường khả năng thích nghi cho giải pháp nén cũng như
khắc phục tính hai mặt của giá trị ngưỡng cố định, tăng hiệu suất sử dụng quỹ bit.
2. Nghiên cứu cải thiện độ phức tạp tính toán cũng như kiến trúc thực thi của DAMS
thông qua các giải pháp:
Nghiên cứu áp dụng kỹ thuật biến đổi wavelet lifting integer to integer với
độ phức tạp tính toán thấp và thực hiện trên trường số nguyên.
Nghiên cứu cải thiện hay thay thế kỹ thuật lượng tử hóa thích nghi AQC tính
trên trường số thực bởi một kỹ thuật lượng tử tối ưu hơn và có khả năng xử
lý trên trường số nguyên.
60
CHƢƠNG 3: PHÂN TÍCH VÀ ĐỀ XUẤT MỘT SỐ GIẢI
PHÁP NÉN ẢNH DỰA TRÊN MÃ HÓA KHỐI VÀ BIẾN
ĐỔI KHÔNG GIAN MÀU
Điển hình cho các giải pháp nén ảnh áp dụng kỹ thuật mã hóa khối kết hợp biến đổi
không gian màu chính là AHIC. Một số hạn chế hay khuyết điểm của nó đã được chỉ ra
trong mục 2.6.2.1. Trong chương này, luận án sẽ đi sâu phân tích để tìm nguyên nhân của
các khuyết điểm còn tồn đọng, từ đó nghiên cứu phân tích và đề xuất các giải pháp cải tiến
theo các định hướng đã được nêu ra trong mục 2.6.2.1 nhằm nâng cao hiệu năng nén.
3.1. Nghiên cứu cải tiến và phát triển giải pháp nén ảnh dựa trên
mã hóa khối và biến đổi không gian màu
3.1.1. Tóm tắt 6 giai đoạn nghiên cứu phát triển giải pháp
Phần này trình bày tóm tắt 6 giai đoạn nghiên cứu cải tiến và phát triển có tính kế thừa
từng bước của luận án, theo hướng nghiên cứu áp dụng mã hóa khối và biến đổi không
gian màu, các mục tiếp theo sẽ trình bày chi tiết các phân tích và đề xuất.
AHIC
Chuyển tín hiệu về dạng
zero-mean, áp dụng MUQ
thay thế AQC
MAIC
AAIC
AHAIC
Cải tiến hàm phân phối
CBBDT dựa trên giá trị
Max(Bloc)
ACAIC
Đề xuất hàm phân phối RBBDT,
Hàm lượng tử MMAUQC, và mô
hình mã hóa MAQC
RAIC
Áp dụng mô hình đa thích nghi
đồng bộ cho cả ba thành phần Y,
Cb, và Cr dựa trên cải tiến MAQC
ARAIC
Hình 3.1. Sơ đồ mô tả sơ lược các bước nghiên cứu phát triển.
61
Theo hướng nghiên cứu áp dụng mã hóa khối và biến đổi không gian màu, luận án đã
có nhiều đề xuất cải tiến cũng như đề xuất kết hợp một số kỹ thuật trao đổi hay phân phối
bit nhằm tối ưu hóa chất lượng ảnh nén. Trải qua 5 giai đoạn nghiên cứu với dấu mốc là 5
đề xuất cải tiến có tính kế thừa và phát triển từng bước một gồm MAIC (Mean Adaptive
Image Coding), AAIC (Advanced Adaptive Image Coding), AHAIC (Advanced HighAdaptive Image Coding), ACAIC (Advanced Content-Adaptive Image Coding), RAIC
(Robust Adaptive Image Coding).
Giai đoạn sau cùng tập trung cho những nghiên cứu đánh giá ưu nhược điểm của các
kết quả đã đạt được ở những giai đoạn trước, phân tích và tổng hợp, nghiên cứu hiệu chỉnh
mô hình xử lý để có thể tích hợp các ưu điểm trong các mô hình phát triển trước đó. Từ đó
tổng hợp và đề xuất một giải pháp nén ảnh khung hình có hiệu năng vượt trội với tên gọi
ARAIC (Advanced Robust Adaptive Image Coding) (xem Hình 3.1).
3.1.2. Môi trƣờng thực nghiệm cài đặt và các bộ dữ liệu
Tất cả các nghiên cứu cải tiến trình bày trong sơ đồ Hình 3.1, cũng như các nghiên
cứu trình bày trong những phần khác của luận án, đều được cài đặt lập trình và thực
nghiệm.
Môi trƣờng lập trình: Matlab và Simulink
Môi trƣờng cài đặt: máy tính PC
Các bộ dữ liệu: Dữ liệu cho quá trình nghiên cứu đánh giá của toàn bộ luận án là
một tập hợp các hình ảnh và các chuỗi khung hình (với tổng số 8765 ảnh) chuyên
dùng cho việc đánh giá thực nghiệm trong lĩnh vực xử lý ảnh và video, được lấy từ
các trung tâm nghiên cứu hàng đầu về xử lý ảnh và video qua các địa chỉ website
sau:
http://trace.eas.asu.edu/yuv/index.html: thuộc đại học bang Arizona (Arizona
State University) [33] (xem Bảng 3.1).
ftp://vqeg.its.bldrdoc.gov/MM/cif/: thuộc nhóm các chuyên gia trong lĩnh vực
chất lượng video (Video Quality Experts Group - VQEG) [34] (xem Bảng 3.1).
http://live.ece.utexas.edu/research/quality/subjective.htm: thuộc phòng thí
nghiệm hình ảnh và kỹ thuật video (Laboratory for Image and Video
Engineering - LIVE) thuộc đại học Texas [6] (xem Bảng 3.2).
Có thể thấy tình huống điển hình của bài toán nén ảnh khung hình, cho hệ thống màn
hình tinh thể lỏng độ phân giải cao, chính là yêu cầu nén lần lượt các khung hình trong
một chuỗi khung hình động (hay video), mà người dùng đang xem trên ti-vi tinh thể lỏng
chẳng hạn, và đấy chính là lý do chúng ta cần phải tiến hành thực nghiệm các giải pháp
nén ảnh khung hình không chỉ trên các bức ảnh rời rạc mà cần thiết phải tiến hành nén với
62
các khung hình trong chuỗi khung hình và tái hiện chúng một cách liên tục để quan sát
những tác động tiêu cực mà giải pháp nén có thể mang lại đối với thị giác người quan sát.
Một lợi điểm của việc nén và tái hiện các hình ảnh trong một chuỗi khung hình là giúp
chúng ta dễ dàng nhận ra một số hiệu ứng tiêu cực về thị giác mà một số giải pháp nén có
thể mắc phải như nhiễu đốm, nhiễu khối, rung,… mà khi quan sát trên một ảnh tĩnh chúng
ta khó nhận ra và đánh giá không đúng mức độ tác động của nó với thị giác người.
Các bộ dữ liệu thực nghiệm trong luận án hội tụ đầy đủ các đặc tính thiết yếu cho việc
kiểm nghiệm các giải pháp nén ảnh khung hình cho màn hình tinh thể lỏng. Trong đó chứa
nhiều hình ảnh và chuỗi khung hình video với độ nét và độ chi tiết cao, chúng sẽ tạo ra
những thách thức lớn cho các giải pháp nén ảnh và làm cho nhiều giải pháp nén ảnh khung
hình đã được đề xuất bộ lộ rõ những yếu điểm khi các kết quả thực nghiệm được thể hiện
đồng thời qua ảnh tĩnh và cả ảnh động. Điển hình trong số đó là các chuỗi khung hình
MobileCalendar, Cheerleaders, Paris, và các hình ảnh Parrots, Womanhat, và Building2
(xem Bảng 3.1 và Bảng 3.2).
Các mục tiếp theo trong chương này sẽ trình bày chi tiết về các đề xuất kỹ thuật và giải
pháp mới của luận án như đã được trình bày trong Hình 3.1.
Bảng 3.1. Các chuỗi khung hình định dạng CIF (kích thước 352×288) sử dụng trong
thực nghiệm (nguồn [33] và [34]).
Foreman
Hall
Football
MobileCalendar
Cheerleaders
FlowerGarden
BetesPasBetes
LePoint
Paris
3inrow
WashDC
Vtc1nw
Vtc1nw
FlamingoHilton
Bus
Coastguard
News
MotherDaughter
5row1
vtc2mp
CaesarsPalace
Redflower
Container
Waterfall
stefan
63
Bảng 3.2. Các hình ảnh sử dụng trong thực nghiệm được lấy từ tập dữ liệu ảnh “LIVE
image quality assessment database release 2”(nguồn [6]).
Bikes
Buildings
Building2
Rapids
Caps
House
Lighhouse2
Sailing1
Sailing4
Parrots
Monarch
Ocean
Plane
Woman
Womanhat
Lighhouse2
Sailing2
Sailing3
Statue
3.2. Khắc phục hiện tƣợng nhiễu khối trong AHIC với đề xuất cải
tiến MAIC
3.2.1. Nhiễu khối trong AHIC – Nguyên nhân và giải pháp khắc phục
Như đã phân tích trong mục 2.6.2.1 a), nguyên nhân chính của hiện tượng nhiễu khối
trong AHIC là do sai số phát sinh khi nén 8 giá trị Min. Để tránh hiện tượng này chúng tôi
đề xuất cải tiến quy trình xử lý thành phần độ chói Y bao gồm:
Tránh lượng tử hóa kép gây nên nhiễu khối: hay nói cụ thể là tránh tình trạng lượng
tử hóa dữ liệu đầu ra của một quy trình lượng tử hóa, như cách đã thực hiện trong
AHIC là lượng tự hóa 8 giá trị Min vốn là kết quả của quá trình lượng tử hóa 8 khối
ảnh kích thước 4×4 trước đó, sai số phát sinh khi khôi phục lại các giá trị Min đã tác
động lên toàn bộ 4×4 phần tử trong một khối được khôi phục từ giá trị Min này và
tạo nên sai số dạng khối, sai số dạng khối sẽ trở nên trầm trọng khi giá trị Min khôi
phục có sai số lớn so với giá trị gốc (khoảng từ 5 đến 7 đơn vị trở lên) vì lúc này các
khối ảnh khôi phục sẽ có khác biệt lớn so với các khối ảnh xung quanh và gây ra
hiện tượng nhiễu khối về mặt thị giác.
64
Xây dựng phương pháp lượng tử hóa tối ưu mới dựa trên tham số thống kê trung
bình (Mean) có tính ổn định cao hơn, nhằm tối thiểu hóa sai số khi lượng tử hóa các
giá trị Mean.
3.2.2. Phát triển phƣơng pháp lƣợng tử tối ƣu sai số “Midrise Uniform
Quantizer”
Midrise Uniform Quantizer là một phương pháp lượng tử hóa được đề cập trong [3],
cho phép lượng tử hóa các giá trị có phân phối xác xuất đều với sai số tối thiểu. Quy trình
thực hiện như sau:
Lượng tử hóa với b bit, hay L=2b là số mức lượng tử
Gọi ZMI là giá trị đầu vào có dạng “zero mean signal” và QS là bước lượng tử
(quantifier step size), giá trị lượng tử hóa được xác định bởi:
𝑛
(
)
(3.1)
−
Giá trị khôi phục:
(
)
−
(3.2)
Hình 3.2 minh họa đồ thị của hàm lượng tử hóa Midrise Uniform Quantizer cho các
giá trị đầu vào có phân phối đều trong khoảng (-a; +a) với tám mức lượng tử hóa, hay
tương ứng với mức lượng tử 3bit/value, giá trị bước lượng tử hóa QS = a/4.
Output
+a
Code=7
3.5QS
Code=6
2.5QS
1.5QS
-4QS
-3QS
-2QS
-1QS
Code=4
0.5QS
Code=3
-a
Code=2
Code=1
Code=0
Code=5
-0.5QS
1QS
2QS
3QS
+a
4QS
Input
-1.5QS
-2.5QS
-3.5QS
-a
Hình 3.2. Đồ thị hàm lượng tử Midrise Uniform Quantizer với 8 mức lượng tử, các giá
trị đầu vào có phân phối xác xuất đều trong khoảng (-a, a). Giá trị bước lượng tử QS = a/4
3.2.3. Đề xuất giải pháp cải tiến MAIC giúp khắc phục nhiễu khối
Trên cơ sở nghiên cứu cải tiến quy trình xử lý thành phần độ chói Y trong AHIC theo
65
các định hướng đã nêu ở phần trên, từ đó hình thành nên giải pháp cải tiến MAIC (Mean
Adaptive Image Coding) được thể hiện qua các sơ đồ trong Hình 3.3 và Hình 3.4.
Có ba điểm khác biệt trong mô hình mới MAIC so với mô hình AHIC như sau: Thứ
nhất, thay vì dùng giá trị Min Max là những giá trị thường thiếu ổn định do dễ bị tác động
bởi nhiễu, luận án đề xuất dùng giá trị trung bình (mean) là giá trị có tính ổn định cao hơn
trong tín hiệu ảnh, nó ít bị tác động bởi nhiễu. Thứ hai, thực hiện trừ giá trị tín hiệu đầu
vào bởi giá trị trung bình đã giải mã (mean decoded) để thu được tín hiệu "zero mean"
trước khi được lượng tử hóa với 3bit/giá trị, bằng con đường này, sẽ tránh được lượng tử
hóa kép gây nên nhiễu khối mà giải pháp AHIC mắc phải. Thứ ba, sử dụng bộ lượng tử
hóa MUQ (Midrise Uniform Quantizer) thay thế bộ lượng tử AQC.
Mean 4x4 8 Mean
&↓4x4
MUQ
Encoder
37 bits
Coded Mean
8x4x4
block
MUQ Decoder
↑4x4
Zero mean signal
Decoded mean signal
-
4 line buffer
RGB
(24 bits)
RGBtoYCbCr
Y
8x4x4
block
Cb
8x4x4
Block YCbCr
Cr
8x4x4
block
+
MUQ Encoder
424 bits
Coded Data
Filter & ↓4x4
8x1x1
block
BTC Encoder
24 bits
Coded Cb
Filter & ↓4x4
8x1x1
block
BTC Encoder
24 bits
Coded Cr
(a) MAIC Encoder
37 bits
Coded Mean
MUQ Decoder
MUQ
Decoder
+
8x4x4
block Y
Y
24 bits
Coded Cb
BTC
Decoder
8x1x1
block
Filter &
↑4x4
8x4x4 Cb 8x4x4 block
block Cb
YCbCr
24 bits
Coded Cr
BTC
Decoder
8x1x1
block
Filter &
↑4x4
8x4x4 Cr
block Cr
YCbCrtoRGB
424 bits
Coded Data
↑4x4
4 line buffer
Zero mean signal
RGB
(24 bits)
(b) MAIC Decoder
Hình 3.3. Sơ đồ khối của giải pháp nén MAIC. (a) Bộ mã hóa. (b) Bộ giải mã.
4x4
Zero mean
signal
Midrise Uniform
Code
Quantizer
3bits/value
4x4 block
Code
3bits/value
Invert Midrise
Uniform Quantizer
maxv = max(|block|)
4x4
Decoded
Zero mean signal
qs_send
5 bits
qs_send = maxv >> 3
qs_send
5 bits
qs_use = (qs_send 3
qs_send
5 bits
qs_send
5 bits
qs_use = (qs_send và 32 thì gán Qstep = 32
Rồi tính
Qstep_send = Qstep-1; và
Qstep_use = Qstep_send +1
MUQ encoder
Phần khởi động:
Để có được giá trị maxv cần
+ 1 phép tìm kiếm Max của trị tuyệt đối các
giá trị đầu vào với độ phức tạp tuyến tính
theo N.
+ Một phép dịch sang trái 3 bit để thu được
giá trị Qstep_send:
Qstep_send = maxv >> 3
+ Một phép dịch bit và một phép cộng nhằm
khôi phục giá trị lượng tử hóa sử dụng cho
phần mã hóa:
Qstep_use = (Qstep_send 7 thì gán Code = 7
Sẽ gồm:
+ N phép cộng
+ N phép chia lấy phần nguyên
+ Một phép kiểm tra và hiệu chỉnh giá trị
AQC decoder
Phần khởi động:
MUQ decoder
Phần khởi động:
+ Tính Qstep_use từ Qstep_send bằng một
phép cộng.
Qstep_use = Qstep_send +1
+ Tính Qstep_use từ Qstep_send bằng phép
dịch bit và phép cộng.
Qstep_use = (Qstep_send > 1): một nửa giá trị bước lượng tử
98
ZMI
Code =
: Giá trị mã
QS
If (Code > L) then Code = L
Decoded = Code*QS + Half_QS + Min : Giá trị giải mã
Trong đó: “>>” and “2
Mean_send=Mean>>2
Selector
Kx8 Min_send
Kx8 Mean_send
If bi≠0 then Mi=Min_sendi
else Mi=Mean_sendi
Kx8 M value
(Kx48 bits)
Kx8
bi
Calculate
Kx8 Min
Min & Mean
Kx8 Mean
of block
Range=max(block)
R_send=(Range>>2)
R_use=(R_send[...]... nghiên cứu các giải pháp nén ảnh áp dụng vào trong công nghệ màn hình tinh thể lỏng vẫn đang cần các nghiên cứu cải tiến và phát triển, để ngày càng có được các giải pháp hoàn thiện hơn với hiệu năng cao hơn 4 1.3 Mục tiêu và phạm vi nghiên cứu của luận án Mục tiêu của luận án là nghiên cứu phát triển các giải pháp tiên tiến nén dữ liệu ảnh khung hình áp dụng cho màn hình tinh thể lỏng độ phân giải cao,... liệu Hình 2.8 Phạm vi áp dụng của bài toán nén ảnh khung hình cho màn hình tinh thể lỏng độ phân giải cao Ở đây có một số khái niệm cần làm rõ: + Ảnh khung hình trong hệ thống overdrive, chính là một ảnh để có thể hiện thị đầy đủ trên màn hình tinh thể lỏng, có số điểm ảnh tương ứng với độ phân giải màn hình được xác định bởi nhà sản xuất Do đó ảnh khung hình của màn hình tinh thể lỏng độ phân giải. .. giá các giải pháp nén ảnh khung hình 2.4.2 Các độ đo hiệu năng giải pháp nén ảnh khung hình 2.4.2.1 Tỷ số nén Tỷ số nén ảnh là một số đo dung lượng (DL) của ảnh gốc (ảnh chưa nén) chia cho dung lượng ảnh đã được nén (hay mã hóa) và được kí hiệu là Cr (Compression Ratio): ( 𝑛 𝑛 𝑛) ( 𝑛 𝑛 𝑛) (2.1) Đối với phần lớn các giải pháp nén ảnh cho màn hình tinh thể lỏng sử dụng phương pháp mã hóa khối ảnh, có... xuất cải tiến cải thiện hiệu năng Nghiên cứu kế thừa và phát triển đề xuất các giải pháp nén mới nâng cao hiệu năng so với những giải pháp hiện đã được đề xuất Theo một số các tiêu chí đánh giá hiệu năng nén gồm: chỉ số nén, chất lượng nén, và độ phức tạp tính toán Phạm vi nghiên cứu của luận án bao gồm: 1 Nghiên cứu phát triển các giải pháp nén ảnh áp dụng cho màn hình tinh thể lỏng độ phân giải cao... của một số giải pháp nén ảnh tiên tiến đã được đề xuất áp dụng cho màn hình tinh thể lỏng Trên cơ sở đó đưa ra một số định hướng nghiên cứu cải tiến Chương 3: Nghiên cứu và phân tích sâu hơn các khuyết điểm trong một số giải pháp nén ảnh tiên tiến sử dụng nền tảng cơ bản là các kỹ thuật mã hóa khối và biến đổi không gian màu Từ đó đề xuất các kỹ thuật khắc phục áp dụng vào trong các sơ đồ giải pháp. .. lên hướng phát triển tiếp theo của luận án 8 CHƢƠNG 2: TỔNG QUAN VỀ VẤN ĐỀ NÉN ẢNH CHO MÀN HÌNH TINH THỂ LỎNG Trong chương này luận án sẽ trình bày sơ lược về lịch sử phát triển của màn hình tinh thể lỏng và kỹ thuật tăng tốc overdrive, vấn đề nén ảnh áp dụng cho hệ thống overdrive của của màn hình tinh thể lỏng, mối tương quan giữa chất lượng nén và chất lượng ảnh hiển thị trên màn hình, một số yêu cầu... sẽ kéo theo sự cải thiện về giá thành của sản phẩm màn hình tinh thể lỏng Xuất phát từ yêu cầu thực tiễn trên, nhiều nghiên cứu đã được triển khai nhằm tìm ra những giải pháp nén ảnh khung hình áp dụng phù hợp và hiệu quả trên hệ thống overdrive của màn hình tinh thể lỏng Kết quả đã có khá nhiều các giải pháp nén ảnh khung hình cho màn hình tinh thể lỏng được đề xuất qua các bài báo [[5], [9], [10],... toán nén ảnh khung hình cho màn hình tinh thể lỏng là ở khâu tái tạo và hiển thị Áp dụng các chuẩn nén ảnh/ video thông dụng: JPEG, MPEG, AVI, Quan sát không gian đối tượng chụp, quay (camera) Tái tạo và hiển thị trên màn hình tinh thể lỏng Truyền trực tiếp qua các kênh: vệ tinh, cáp, Vấn đề nén ảnh cho màn hình tinh thể lỏng phục vụ cho khâu tái tạo và hiển thị Nén dữ liệu File ảnh/ video Giải nén. .. cầu đặc trưng cho hệ thống nén ảnh trên màn hình tinh thể lỏng, tổng quan về nén ảnh nhằm giảm bộ nhớ khung hình trong màn hình tinh thể lỏng Và sau cùng là một số cơ sở lý thuyết có liên quan Kỹ thuật nén ảnh trình bày trong chương này sẽ được giới hạn trong không gian hai chiều (chiều rộng và chiều cao) 2.1 Lịch sử phát triển của màn hình tinh thể lỏng và vấn đề chất lƣợng hiện thị hình ảnh động 2.1.1... hệ thống overdrive, hoặc tiến xa hơn sẽ nghiên cứu đề xuất các giải pháp nén tiên tiến về mặt hiệu năng, nhằm mang lại hiệu quả cao khi áp dụng vào hệ thống overdrive trong màn hình tinh thể lỏng 1.2 Tình hình nghiên cứu trên thế giới Hiện nay, nhiều giải pháp nén ảnh khung hình khác nhau đã được đề xuất áp dụng cho hệ thống overdriver trong màn hình tinh thể lỏng Từ giải pháp đơn giản chỉ áp dụng ... quát số phương pháp mã hóa ảnh thực cho hình 38 2.6 Tổng quan giải pháp nén ảnh cho hình tinh thể lỏng 42 2.6.1 Khái quát giải pháp nén ảnh cho hệ thống overdrive 42 i 2.6.2 Một số hướng... sử phát triển hình tinh thể lỏng vấn đề chất lƣợng thị hình ảnh động 2.1.1 Lịch sử phát triển hình tinh thể lỏng Ngày nay, giai đoạn phát triển bùng nổ thiết bị kỹ thuật số hình tinh thể lỏng. .. tinh thể lỏng cần nghiên cứu cải tiến phát triển, để ngày có giải pháp hoàn thiện với hiệu cao 1.3 Mục tiêu phạm vi nghiên cứu luận án Mục tiêu luận án nghiên cứu phát triển giải pháp tiên tiến nén