ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH DỰA TRÊN THỊ GIÁC CHO BÀI TOÁN NÉN VIDEO ĐẠT ĐỘ NÉN TUYỆT ĐỐI VÀ CHẤT LƯỢNG KHI NÉN
Trang 1ĐẠI HỌC HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH DỰA TRÊN THỊ
GIÁC CHO BÀI TOÁN NÉN VIDEO
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội - 2023
Trang 2ĐẠI HỌC HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH DỰA TRÊN THỊ
GIÁC CHO BÀI TOÁN NÉN VIDEO
Chuyên ngành: Khoa học Máy tính
Mã số: 9480101.01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: 1 PGS.TS Lê Thanh Hà
2 TS Đinh Triều Dương
Hà Nội - 2023
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS TS Lê Thanh Hà và TS Đinh Triều Dương tại bộ môn Khoa học máy tính, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào nào khác Các kết quả được viết chung với các tác giả khác đều được sự đồng ý trước khi đưa vào luận án
Nghiên cứu sinh
Trang 4Trong quá trình học tập, nghiên cứu và hoàn thiện luận án tiến sĩ, tôi đã nhận được sự giúp đỡ, chỉ bảo tận tình của các thầy, cô giáo, nhà khoa học, Phòng thí nghiệm Tương tác người máy HMI, Bộ môn Khoa học máy tính tại Trường Đại học công nghệ, Đại học Quốc gia Hà Nội
Tôi xin gửi lời cảm ơn chân thành tới các bạn đồng nghiệp trong Khoa Khoa học cơ bản và Ngoại ngữ trường Đại học Phòng cháy chữa cháy những người động viên, góp ý, tạo điều kiện thời gian, công việc cho tôi trong quá trình học tập, nghiên cứu và viết luận án Cám ơn học viên các lớp tham gia các buổi thực nghiệm xây dựng
bộ dữ liệu cho luận án
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình và bạn bè, những người
đã luôn ủng hộ và hỗ trợ tôi về mọi mặt để tôi yên tâm học tập, nghiên cứu, và hoàn thành luận án
Xin trân trọng cảm ơn!
Trang 55
MỤC LỤC
LỜI CAM ĐOAN 3
LỜI CẢM ƠN 4
MỤC LỤC 5
DANH MỤC TỪ VIẾT TẮT 8
DANH MỤC HÌNH VẼ 10
DANH MỤC BẢNG 12
MỞ ĐẦU 13
1 Mục tiêu 17
2 Phương pháp nghiên cứu 18
3 Phạm vi nghiên cứu 18
4 Đóng góp của luận án 19
5 Bố cục luận án 19
CHƯƠNG 1 TỔNG QUAN ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH TRONG NÉN VIDEO 21
1.1 Một số khái niệm cơ bản về video 21
1.1.1 Video 21
1.1.2 Không gian màu 21
1.1.3 Khung hình video 23
1.2 Nén video và hiệu năng nén video 24
1.2.1 Giới thiệu về nén video 24
1.2.2 Mô hình nén video tổng quát 25
1.2.3 Các chuẩn nén video 26
1.2.4 Hiệu năng nén video 29
1.2.5 Các nghiên cứu về nén video tại Việt Nam 30
1.3 Đánh giá chất lượng hình ảnh 31
1.3.1 Giới thiệu chung về đánh giá chất lượng hìnhảnh 31
1.3.2 Đánh giá chất lượng hình ảnh chủ quan 33
1.3.3 Đánh giá chất lượng hình ảnh khách quan 34
1.3.4 Một số phương pháp đánh giá chất lượng khách quan 36 1.3.5 Bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan
40
Trang 66
KẾT LUẬN CHƯƠNG 1 44
CHƯƠNG 2 PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH THEO THỊ GIÁC 45
2.1 Xây dựng bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan 46
2.1.1 Xây dựng bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan theo khối đặc trưng 46
2.1.2 Xây dựng bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan theo khối ngẫu nhiên 56
2.2 Phương pháp đánh giá chất lượng hình ảnh có tham chiếu sử dụng mạng Nơ ron tích chập 68
2.2.1 Kiến trúc của phương pháp đề xuất 69
2.2.2 Tiêu chí đánh giá hiệu quả 72
2.2.3 Tối ưu hoá huấn luyện 73
2.2.4 Kỹ thuật trích chọn đặc trưng 73
2.2.5 Kết quả huấn luyện 75
2.2.6 Kiểm nghiệm phương pháp đánh giá chất lượng hình ảnh có tham chiếu sử dụng mạng Nơ ron tích chập 76
KẾT LUẬN CHƯƠNG 2 91
CHƯƠNG 3 PHƯƠNG PHÁP ĐÁNH GIÁ SỰ SUY GIẢM CHẤT LƯỢNG HÌNH ẢNH ỨNG DỤNG TRONG NÉN VIDEO 93
3.1 Phương pháp đánh giá sự suy giảm chất lượng hình ảnh theo đặc trưng nội dung khối ảnh gốc 93
3.1.1 Phương pháp đánh giá sự suy giảm chất lượng hình ảnh bằng cách trích chọn đặc trưng cơ bản 93
3.1.2 Phương pháp đánh giá sự suy giảm chất lượng hình ảnh trích chọn đặc trưng bằng mạng Nơ ron tích chập 99
3.2 Ứng dụng phương pháp đánh giá sự suy giảm chất lượng hình ảnh bằng cách trích chọn đặc trưng cơ bản 101
3.2.1 Nén video theo chất lượng cho trước trên bộ nén H.264/AVC 101
3.2.2 Nén giảm tỷ lệ bit video đảm bảo chất lượng trên bộ nén H.264/AVC 105
Trang 77
3.3 Ứng dụng phương pháp đánh giá sự suygiảmchất lượnghình ảnh trích
chọn đặc trưng bằng mạng Nơ ron tích chập 108
3.3.1 Nén video theo chất lượng cho trướctrên bộ nénH.265/HEVC 108
3.3.2 Nén giảm tỷ lệ bit video đảm bảo chất lượng trên bộ nén H.265/HEVC 111 KẾT LUẬN CHƯƠNG 3 122
KẾT LUẬN VÀ KIẾN NGHỊ 124
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 127
TÀI LIỆU THAM KHẢO 128
Trang 88
DANH MỤC TỪ VIẾT TẮT Từ/Cụm từ
ACR Absolute Category Rating Xếp hạng danh mục tuyệt đối AVC Advanced Video Coding Nâng cao nén video
CNN Convolutional Neural Network Mạng nơ ron tích chập DCT Discrete Cosine Transform Biến đổi cosin rời rạc DMOS Difference Mean Opinion Score Điểm khác biệt chủ quan trung bình
DSCQS Double Stimulus Continuous
Quality Scale Thang đo chất lượng liên tục hai tác nhân
DSIS Double Stimulus Continuous
Quality Scale Thang đo suy giảm hai tác nhân FSIM Feature Similarity Index Chỉ số đặc trưng tương tự HEVC High Efficiency Video Coding Bộ mã hoá phân giải cao HVS Human Visual System Thị giác
IQA Image Quality Assessment Đánh giá chất lượng hình ảnh
ITU International
Telecommunication Union Liên minh Viễn thông Quốc tế MAE Mean Absolute Error Sai số tuyệt đối trung bình MOS Mean Opinion Score Điểm chủ quan trung bình MSE Mean Squared Error Sai số bình phương trung bình PSNR Peak Signal-to-Noise Ratio Tỉ số tín hiệu trên nhiễu đỉnh
QP Quantisation Parameter Hệ số lượng tử RDO Rate-Distortion Optimization Tối ưu hóa tỷ lệ nén và độ biến dạng
RFSIM Riesz-transform based Feature
SIMilarity metric
Chỉ số tương tự tương tự dựa trên phép biến đổi Riesz
RMSE Root Mean Squared Error Sai số bình phương trung bình gốc
SAMVID Subjective Assessment
Methodology for Video Quality
Phương pháp đánh giá chất lượng hình ảnh chủ quan một tác nhân có kiểm soát
SRSIM Spectral Residual Based
Similarity Chỉ số tương tự phổ dư thừa SSIM Structural Similarity Image
Trang 1010
DANH MỤC HÌNH VẼ
Hình 1.1 Sơ đồ khối của một bộ nén video tổng quát 25
Hình 1.2 Trình tự phát triển các chuẩn nén video từ năm 1990đến nay 27
Hình 1.3 Cấu trúc mã hóa video của H.264/AVC 27
Hình 1.4 Cấu trúc mã hóa của phiên bản H.265/HEVC đầutiên 28
Hình 1.5 Đường cong hiệu năng chất lượng - tỉ lệ nén 29
Hình 1.6 Tương quan giữa PSNR với DMOS trên VQEG FRTV Phase I 37
Hình 1.7 Kiến trúc CNN đánh giá chất lượng ảnh theo Bosse 40
Hình 2.1 Một ví dụ về các vùng trong ảnh biến dạng 46
Hình 2.2 Thuật toán phân vùng 48
Hình 2.3 Kết quả phân vùng 49
Hình 2.4 Lựa chọn khối 50
Hình 2.5 Sơ đồ hoạt động phần mềm đánh giá chất lượng ảnh 51
Hình 2.6 Trình tự đánh giá chất lượng ảnh 51
Hình 2.7 Phần mềm đánh giá chất lượng ảnh 52
Hình 2.8 Biểu đồ thống kê dữ liệu do DMOS theo phân loại khối 55
Hình 2.9 Mối quan hệ giữa DMOS trung bình và mức lượng tử tất cả các khối 56
Hình 2.10 Ví dụ cặp khối ảnh kích thước 64x64 (trái) và 128x128(phải) 57
Hình 2.11 Phân phối chuẩn giá trị Z-score của dữ liệu 60
Hình 2.12 Độ lệch chuẩn trung bình các điểm đo chất lượng 62
Hình 2.13 Mối tương quan giữa chất lượng và hệ số lượng tử 62
Hình 2.14 Ví dụ kết quả thực nghiệm đánh giá chất lượng các khốitrên cùng một khung hình nén 63
Hình 2.15 Kết quả đo chất lượng khách quan trên dữ liệu HMII 66
Hình 2.16 Kiến trúc phương pháp đánh giá chất lượng hình ảnh 69
Hình 2.17 Trích xuất đặc trưngbằng VGGnet 74
Hình 2.18 Trích xuất đặc trưngbằng ResNeXt-50 74
Hình 2.19 Trích xuất đặc trưngbằng Xception 74
Hình 2.20 Trích xuất đặc trưngbằng Inception-v4 74
Hình 2.21 Trích xuất đặc trưngbằng Inception-ResNets 75
Hình 2.22 Chất lượng cục bộ của một ảnh nén JP2K trong CSIQ 78
Trang 1111
Hình 2.23 Chất lượng cục bộ của một ảnh nén JPEG trong TID2008 79
Hình 2.24 Nội suy chất lượng cục bộ từ 64 X 64 sang 32 X 32 79
Hình 2.25 Tương quan chất lượng theo phương pháp đề xuất trên tập con các dữ liệu chủ quan CSIQ, LIVE, TID2008 và TID2013 82
Hình 3.1 Đường cong chất lượng của khối theo Bảng 2.2 94
Hình 3.2 Sơ đồ của phương pháp đánh giá sự suy giảm chất lượng hình ảnh 99
Hình 3.3 Kết quả huấn luyện 100
Hình 3.4 Sơ đồ thuật toán xác định hệ số lượng tử với mức chất lượng QC 102
Hình 3.5 Kết quả nén khung hình 104
Hình 3.6 So sánh giữa 2 cách mã hoá: màu xanh là vùng H.264_m tốt hơn; vùng màu đỏ H.264 tốt hơn 105
Hình 3.7 Chọn hệ số lượng tử tối ưu theo chất lượng 106
Hình 3.8 Giá trị hệ số lượng tử sau tối ưu 108
Hình 3.9 Khung hình video sau khi mã hoá theo 2 bộ nén 108
Hình 3.10 Sơ đồ tổng quát của bộ nén H.265/HEVC cải tiến 109
Hình 3.11 Sơ đồ thuật toán PAPS 110
Hình 3.12 Chất lượng hình ảnh dự đoán một số khối khung hình đầu tiên video “FourPeople” 113
Hình 3.13 Sơ đồ thuật toán APQP 114
Hình 3.14 Hệ số lượng tử trên khung hình video“FourPeople” 115
Hình 3.15 Cài thuật toán đặt trên bộ nén H.265/HEVC 116
Hình 3.16 Khung hình đầu tiên video“FourPeople”nén với chất lượng thị giác không đổi 116
Hình 3.17 Đánh giá hiệu năng bộ nén đề xuất so với bộ nén HEVC 117
Trang 1212
DANH MỤC BẢNG
Bảng 1.1 Các bộ dữ liệu đánh giá chất lượng ảnh chủ quan 43
Bảng 2.1 Ví dụ các khối đánh giá từ 1 khối gốc 53
Bảng 2.2 Kết quả đánh giá khối nhiều chi tiết theo bảng 2.1độphân giải đủ 53
Bảng 2.3 Kết quả đo DMOS trung bình theo từng loại khối 54
Bảng 2.4 Thống kê lấy mẫu thực nghiệm 57
Bảng 2.5 Kết quả lọc nhiễu theo phương pháp Z-score 60
Bảng 2.6 Bảng kết quả thử nghiệm Hình 2.14 64
Bảng 2.7 Mối tương quan giữa điểm thực nghiệm và điểm kháchquan 65
Bảng 2.8 Hiệu suất của các mô hình 67
Bảng 2.9 Hiệu năng của phương pháp đề xuất theo các trình trích chọn đặc trưng 76
Bảng 2.10 Kết quả SRCC và PLCC của các loại biến dạng khác nhau trên TID2013 83 Bảng 2.11 Kết quả SRCC và PLCC của các loại biến dạng khác nhau trên TID2008 85
Bảng 2.12 Kết quả SRCC và PLCC của các loại biến dạng khác nhau trên LIVE 86 Bảng 2.13 Kết quả SRCC và PLCC của các loại biến dạng khác nhau trên CSIQ 87 Bảng 2.14 Tương quan SRCC trên tập dữ liệu TID2013 của các phương pháp không có tham chiếu 88
Bảng 2.15 Kết quả SRCC và PLCC trên tập con gồm 4 loại biến dạng đặc trưng 90
Bảng 3.1 So sánh kết quả các phương pháp hồi quy 97
Bảng 3.2 Kết quả mã hoá một số mẫu video 104
Bảng 3.3 Kết quả mã hoá một số mẫu video 107
Bảng 3.4 So sánh chất lượng hình ảnh bộ nén cải tiến so với bộ nén gốc 111
Bảng 3.5 So sánh hiệu năng của bộ nén đề xuất so với bộ nén gốc 118
Bảng 3.6 So sánh thời gian nén của bộ nén đề xuất so với bộ nén gốc 119
Bảng 3.7 So sánh hiệu năng của bộ nén đề xuất với các nghiên cứuliên quan 120
Trang 1313
MỞ ĐẦU
Ngày nay, thông tin hình ảnh chiếm phần lớn băng thông trên tất cả ứng dụng
đa phương tiện như truyền hình, internet và di động Người dùng có nhu cầu ngày càng tăng cả về số lượng video cũng như chất lượng nội dung video, đồng thời với khả năng truy cập rộng rãi hơn và độ tin cậy tốt hơn Đến năm 2022, dự đoán số lượng thiết bị kết nối mạng sẽ đạt 1000 lần dân số thế giới; sẽ có 7 nghìn tỷ thiết bị được kết nối cho 7 tỷ người1 Cisco dự đoán [1] rằng điều này sẽ dẫn đến lưu lượng truy cập internet toàn cầu trong năm 2022 khoảng 150.7 terabyte mỗi giây, với hơn 80% trong
số này là lưu lượng video Sự bùng nổ trong công nghệ video và nhu cầu liên quan đến nội dung video được thúc đẩy bởi một số nguyên nhân như:
• Số lượng người dùng tăng cùng với sự gia tăng về chất lượng video cũng như tính di động của thiết bị kết nối
• Gia tăng số lượng nội dung video do người dùng tạo ra trên các mạng xã hội
và các trang lưu trữ, xử lý, xem trực tuyến và tải xuống
• Sự xuất hiện của những giải pháp làm việc mới bằng cách sử dụng các ứng dụng trực tuyến và lưu trữ điện toán đám mây phân tán
• Các định dạng giải trí nhập vai và tương tác mới dành cho phim, truyền hình
và phát trực tuyến ngày càng trở nên phổ biến
Điều này đang tạo ra áp lực lớn về sự cân bằng giữa dung lượng thiết bị lưu trữ, truyền tải khả dụng của người dùng và tỷ lệ bit cần thiết để truyền nội dung video với chất lượng mong muốn Do đó, các nhà quản lý mạng, người tạo nội dung và nhà cung cấp dịch vụ đều đang tìm cách tốt hơn để truyền video chất lượng cao nhất ở tỷ
lệ bit thấp nhất, điều mà chỉ có thể đạt được thông qua nén video Nén video là một quá trình mã hóa biến đổi một cảnh video thành dữ liệu mới có tổng số bit nhỏ hơn Nén video cần có hai hệ thống gồm bộ nén (bộ mã hóa) và bộ giải nén (bộ giải mã)
1 http://www.wireless-world-research.org/fileadmin/sites/default/files/publications/Outlook/ Outlook4.pd
Trang 14Trong nén video, đánh giá chất lượng hình ảnh có ý nghĩa quan trọng trong việc tính toán hiệu năng và làm căn cứ để lựa chọn cách mã hoá tối ưu Tất cả các bộ nén video thuộc họ MPEG-x và H.26x đều là các bộ nén dự đoán chuyển động theo khối Chúng đạt được hiệu năng nén cao bằng cách sử dụng phương pháp lượng tử hóa có tổn thất trong miền tần số Hậu quả mất mát thông tin của việc nén trong các
bộ nén video là việc xuất hiện các biến dạng (nhiễu) hình ảnh trong video được giải
mã Dễ nhận thấy nhất là sự sai khác dọc theo các cạnh trong các khối nơi áp dụng lượng tử hóa hoặc làm mất chi tiết hình ảnh [2] Ví dụ trong Hình 1, khung hình đầu tiên của video thử nghiệm thường dùng Johnny được nén với cùng một hệ số lượng
tử (Quantisation parameter- QP) trên toàn khung Khung hình sau khi nén suy giảm chất lượng đáng kể so với khung hình ban đầu Đồng thời, sự thay đổi chất lượng được cảm nhận không đồng đều trên toàn khung Các nhiễu xuất hiện trên khuôn mặt nhân vật dễ nhận biết nhất trong khi các lỗi xuất hiện ở tường tòa nhà ít nhìn thấy Hình 1 không chỉ cho thấy có nhiễu tạo ra bởi nén video mà còn thể hiện mức độ nhạy cảm với nhiễu theo yếu tố thị giác (Human Visual System - HVS) với không gian (và thời gian) khác nhau Những vấn đề này đã được tìm hiểu vào đầu những năm 1990 [3] và được bổ sung trong các nghiên cứu tiếp theo [2] Từ nhận định này, có thể tạo ra một
bộ nén video theo nhận thức, trong đó áp dụng nén sâu hơn cho các khu vực hình ảnh trong đó hệ thống thị giác của con người ít nhạy cảm hơn với biến
Trang 1515
dạng và nén tốt hơn ở những khu vực còn lại Để thực hiện mục tiêu này, câu hỏi chính cần được giải quyết là làm thế nào để đánh giá chất lượng theo thị giác
Hình 1 Khung hình đầu tiên của video thử nghiệm Johnny trước và sau khi nén 2
Con người là đối tượng đánh giá chất lượng video được nén, nên cần phải xem xét các thuộc tính khác nhau của HVS trong toàn bộ quá trình nén video và việc đánh giá chất lượng hình ảnh trực tiếp bằng mắt người là cách đo chính xác nhất Cách đánh giá bằng con người nhằm xác định chất lượng video có tốt hay không được gọi là đánh giá chất lượng chủ quan Con người cảm nhận và đánh giá hình ảnh thông qua hệ thống thị giác gồm có mắt và não Cách đánh giá chất lượng chủ quan tuy cho kết quả chính xác theo cảm nhận của con người nhưng khó sử dụng để lựa chọn cách nén video tối ưu do tốn kém chi phí đánh giá và việc đánh giá cần thực hiện liên tục trong quá trình nén, điều này không khả thi với khả năng của con người Ngoài ra, việc cảm nhận chất lượng video bị ảnh hưởng bởi bản thân người xem như: môi trường, trạng thái tâm lý của người quan sát và mức độ chú tâm Do đó, trong các bộ nén video hiện nay các phương pháp đo khách quan được sử dụng thay thế phương pháp đo chủ quan nhằm đánh giá hiệu năng nén
Việc lựa chọn chế độ nén cho các khối hình ảnh trong các khung hình quyết định hiệu năng của bộ nén video Tùy thuộc vào loại khung hình, bộ nén video thực hiện tối ưu hóa tỷ lệ nén với biến dạng (Rate Distortion Optimization - RDO) bằng cách giảm thiểu hàm chi phí [4] Hàm chi phí như vậy là sự kết hợp giữa tốc độ nén
2 Hình ảnh minh họa online của luận án tại địa chỉ: https://sites.google.com/daihocpccc.edu.vn/luanan/
Trang 1616
và độ biến dạng, trong đó đơn vị đo là sai số bình phương trung bình (Mean Squared Error - MSE) giữa các giá trị pixel trong khối hình ảnh gốc và các pixel trong khối được tạo lại sau khi giải nén MSE đã được sử dụng rộng rãi trong nén hình ảnh và video do công thức tính toán đơn giản, có thể dễ dàng giải quyết trong toán học (cụ thể là trong tính toán tối ưu hóa) Tuy nhiên, MSE được xác định là tương quan kém với chất lượng cảm nhận thị giác [5] [6]
Để khắc phục những yếu điểm của MSE đã nói ở trên, một số phương pháp đánh giá chất lượng thay thế đã được phát triển cho các ứng dụng nén hình ảnh và video Các phương pháp này cho kết quả gần với thị giác nhưng tính toán phức tạp dẫn đến việc tích hợp của chúng trong các chương trình nén video thực tế là không khả thi Phương pháp đo chất lượng hình ảnh hay dùng là độ tương tự cấu trúc (Structural Similarity Image Metric - SSIM) [7] Phương pháp này đã được tích hợp trong các kiến trúc nén video [8] [9] để cải thiện chất lượng video theo các ràng buộc nhất định Tuy nhiên, thang đo SSIM làm phức tạp việc tìm cách nén tối ưu Hơn nữa,
độ nhạy của SSIM liên quan đến một số biến đổi chất lượng vẫn chưa được hiểu rõ
Gần đây, các nghiên cứu sử dụng học máy để đánh giá chất lượng hình ảnh như đề cập trong [10], [11], [12], [13] cho kết quả tương đối khả quan Những nghiên cứu này sử dụng các mạng học sâu từ bộ dữ liệu đánh giá chất lượng chủ quan nhằm đưa ra các mô hình dự đoán chất lượng phù hợp với đánh giá thị giác Các dữ liệu đánh giá chất lượng ảnh chủ quan đã được công bố và sử dụng rộng rãi như: LIVE Image [14], TID2008 [15], TID2013 [16], CSIQ [17], IVC [18] và MICT [19] được dùng để huấn luyện, kiểm tra, đánh giá hiệu quả của của phương pháp Tất cả các bộ
dữ liệu nêu trên đều đánh giá chất lượng trên toàn hình ảnh trong khi chất lượng của mỗi vùng hình ảnh là khác nhau dù có cùng một mức độ nhiễu Ngoài ra, dữ liệu thực nghiệm hiện có quy mô nhỏ không đủ để đưa ra mô hình học máy khái quát đầy đủ đặc trưng thị giác các loại biến dạng khi nén
Như vậy, để nâng cao hiệu năng nén video bằng cách cải thiện chất lượng hình ảnh theo cảm nhận thị giác của con người cần giải quyết hai vấn đề chính như sau:
Trang 17Từ những nhận định trên, nghiên cứu sinh lựa chọn luận án nghiên cứu “ Đánh
giá chất lượng hình ảnh dựa trên thị giác cho bài toán nén video" với mong muốn
giảm tỷ lệ bit và cải thiện chất lượng theo nhận thức thị giác áp dụng cho từng vùng của khung hình trong nén video Luận án tập trung phát triển phương pháp mô hình hóa bằng học sâu để đánh giá sự biến dạng do nén tại vị trí ảnh dựa trên nhận thức thị giác của con người
1 Mục tiêu
Luận án đặt ra một số mục tiêu như sau:
Phát triển các bộ dữ liệu thực nghiệm đánh giá chất lượng hình ảnh chủ quan
Dữ liệu là cơ sở cực kỳ quan trọng để xây dựng, kiểm nghiệm các phương pháp đánh giá khách quan có tin cậy, phù hợp hay không Bộ dữ liệu đề xuất có quy mô dữ liệu
đủ lớn và đánh giá chất lượng cục bộ thay vì đánh giá chất lượng toàn ảnh như các dữ liệu hiện tại Việc đánh giá chất lượng cục bộ nhằm phát hiện sự sai khác mức độ biến dạng có thể nhận biết bằng mắt người trong cùng một ảnh sau khi áp dụng cùng mức
so với ảnh gốc dựa trên nội dung của từng vùng trong ảnh
Trang 18tỷ lệ bit nhưng vẫn giữ hoặc cải thiện chất lượng hình ảnh
2 Phương pháp nghiên cứu
Phương pháp phân tích và tổng hợp lý thuyết: Luận án phân tích các căn cứ khoa học cũng như các nghiên cứu có liên quan được công bố gần đây về nén video dựa trên thị giác
Phương pháp thực nghiệm: Để có được dữ liệu huấn luyện và kiểm nghiệm mô hình đánh giá chất lượng hình ảnh, luận án đã tiến hành thực nghiệm quy mô lớn theo quy trình chuẩn Kết quả thực nghiệm cho hai bộ dữ liệu đánh giá chất lượng chủ quan đáp ứng yêu cầu nghiên cứu nghiên tiếp theo của luận án
Phương pháp mô hình hóa: Luận án thực hiện xây dựng mô hình đánh giá chất lượng hình ảnh theo hai hướng: phân tích đặc trưng và học sâu sử dụng mạng nơ ron tích chập (CNN)
3 Phạm vi nghiên cứu
Về dữ liệu: Xuất phát từ mục đích phục vụ nghiên cứu về nén video, hình ảnh thực nghiệm đánh giá chất lượng chủ quan trích xuất từ các video mẫu chuẩn dưới biến dạng nén thông thường Việc đánh giá chất lượng thực hiện bằng phương pháp đánh giá có tham chiếu theo từng vùng trong ảnh nhằm làm rõ khác biệt chất lượng với cùng mức độ mã hoá
Về phương pháp đánh giá chất lượng hình ảnh khách quan: Nghiên cứu tập trung vào mô hình hoá phương pháp đánh giá khách quan có tham chiếu dựa trên đặc trưng thị giác
Trang 1919
về ứng dụng nâng cao hiệu năng mã hoá: Nghiên cứu áp dụng phương pháp đánh giá chất lượng hình ảnh nâng cao hiệu năng của hai chuẩn mã hoá phổ biến, gần thời điểm nghiên cứu nhất là H264/AVC và H265/HEVC
4 Đóng góp của luận án
Luận án có ba đóng góp khoa học chính:
Một là, luận án đề xuất hai bộ dữ liệu thực nghiệm đánh giá chất lượng hình
ảnh chủ quan theo khối đặc trưng (VP9) gồm 600 cặp khối ảnh kích thước 64 x 64, và
bộ dữ liệu thực nghiệm đánh giá chất lượng hình ảnh chủ quan theo khối ngẫu nhiên (HMII) gồm 40.286 cặp khối ảnh có kích thước 64 x 64 (mở rộng 128 x 128)
Hai là, đề xuất ba phương pháp đánh giá chất lượng hình ảnh, bao gồm: (1)
phương pháp đánh giá sự suy giảm chất lượng hình ảnh bằng cách trích chọn các đặc trưng cơ bản; (2) phương pháp đánh giá sự suy giảm chất lượng hình ảnh bằng mạng
nơ ron tích chập; (3) phương pháp đánh giá sự suy giảm chất lượng hình ảnh có tham chiếu sử dụng mạng nơ ron tích chập
Ba là, đề xuất hai phương pháp nén video có cải tiến, bao gồm: (1) bộ nén
H.264 với mô hình hóa từ bộ dữ liệu VP9 và trích chọn đặc trưng cơ bản; (2) bộ nén
H 265/HEVC tích hợp phương pháp đánh giá sự suy giảm chất lượng hình ảnh bằng mạng nơ ron tích chập và mô hình hóa từ tập dữ liệu HMII
dữ liệu và các nghiên cứu tiếp theo Ngoài ra, nội dung chương này cũng trình bày các bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan phổ biến hiện nay
Trang 2020
Trong chương 2, luận án đề xuất xây dựng hai bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan: cơ sở thực hiện, phương pháp, cách tiến hành và xử lý kết quả thực nghiệm Đồng thời luận án đề xuất phương pháp đánh giá chất lượng ảnh khách quan có tham chiếu sử dụng CNN được thử nghiệm so sánh với các phương pháp khác trên các bộ dữ liệu đánh giá chất lượng hình ảnh đã công bố
Chương 3 của luận án đề xuất các phương pháp ước lượng sự suy giảm chất lượng hình ảnh khi nén bằng trích chọn đặc trưng cơ bản và trích chọn đặc trưng bằng CNN Các phương pháp này áp dụng vào các bộ nén video nhằm nâng cao hiệu năng nén
Trang 2121
CHƯƠNG 1 TỔNG QUAN ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH
TRONG NÉN VIDEO 1.1 Một số khái niệm cơ bản về video
1.1.1 Video
Thuật ngữ video dùng để chỉ nguồn thông tin hình ảnh trực quan, bao gồm một chuỗi liên tiếp các một khung hình (frame) theo thời gian [20] Trong khung hình có thể có nhiều đối tượng, mỗi đối tượng đều có hình dạng, đặc trưng, kết cấu, độ sâu và
độ sáng riêng Các đặc trưng thị giác như màu sắc, độ sáng và độ tương phản của video tự nhiên thay đổi liên tục trên từng khung hình cũng như trong các khung hình nối tiếp nhau Đặc điểm điển hình của một video bao gồm các đặc trưng không gian
và đặc trưng thời gian
Biểu diễn một video ở dạng kỹ thuật số là việc lấy mẫu một cảnh hình ảnh thực
tế theo không gian (thường là trên một lưới hình chữ nhật trong mặt phẳng ảnh video)
và thời gian Mỗi mẫu không - thời gian (điểm ảnh) được biểu diễn như là một số hoặc tập hợp các số mô tả độ sáng và màu sắc của mẫu
1.1.2 Không gian màu
Không gian màu là một mô hình toán học dùng để mô tả các màu sắc trong thực tế được biểu diễn dưới dạng số học [20] Trên thực tế có rất nhiều không gian màu khác nhau được mô hình tùy theo mục đích sử dụng khác nhau Trong biểu diễn hình ảnh video, 2 mô hình không gian màu RGB và YUV thường được sử dụng
Không gian màu RGB (Red - Green - Blue) là không gian màu rất phổ biến được dùng trong đồ họa máy tính và nhiều thiết bị kỹ thuật số khác Không gian màu RGB là sự kết hợp của 3 màu sắc cơ bản: màu đỏ (R, Red), xanh lục (G, Green) và xanh lơ (B, Blue) để mô tả tất cả màu sắc khác Nếu như một ảnh số được mã hóa bằng 24 bit, trong đó 8 bit cho kênh R, 8 bit cho kênh G, 8 bit cho kênh B, thì mỗi kênh sẽ nhận giá trị từ 0-255 Với mỗi giá trị khác nhau của các kênh màu kết hợp
Trang 22Mô hình màu YUV có thể thu được từ phép biến đổi tuyến tính từ không gian màu RGB như sau [20]:
Trang 2323
1.1.3 Khung hình video
Khung hình, trong ngữ cảnh video, là một hình ảnh tĩnh, khi được phát theo trình tự với các khung hình khác, sẽ tạo ra hình ảnh chuyển động Độ phân giải khung hình thường được tính bằng số lượng điểm ảnh theo hàng và theo cột của khung hình
Độ phân giải thường thấy của video là 640 X 480 (VGA), 1024 X 768(XGA), 1280 X 720(HD), 1920 X1080 (Full HD), gần đây là 2560 X1440 (2K-QHD),
4096 X 2160(4K-UHD) [22] Tốc độ khung hình (frame rate) là số lượng khung hình được hiển thị trong một khoảng thời gian (thường được tính bằng giây) - frame per second (fps) Tốc độ này phụ thuộc vào từng chuẩn video sử dụng, ở Bắc Mỹ và Nhật Bản thường sử dụng 30 hình/ giây làm chuẩn cho video phát sóng quảng bá, 24 hình/giây cho các chuẩn video gia dụng, ở các nước khác thì 25 hình/giây là tiêu chuẩn [23] Kích thước khung hình (frame size) là tập hợp của các điểm ảnh theo chiều dọc
và chiều ngang của khung hình
Tỷ lệ lấy mẫu cho biết mức độ lấy mẫu giữa các thành phần màu của video Lấy mẫu là quá trình chuyển đổi một tín hiệu thành một chuỗi số Trong kỹ thuật nén video, tỷ lệ lấy mẫu rất quan trọng, nó ảnh hưởng trực tiếp tới thuật toán nén Một số kiểu lấy mẫu phổ biến trong nén video định dạng YUV [21]:
• Lấy mẫu 4:4:4 có nghĩa là cả ba thành phần (Y, U, V) có cùng độ phân giải Số
4 có nghĩa là mỗi mẫu có 4 thành phần Y, U, V
• Lấy mẫu 4:2:2 có nghĩa là các thành phần màu (U, V) có cùng độ phân giải và bằng một nửa độ phân giải của thành phần độ sáng (Y) Số 4 nghĩa là mỗi mẫu có 4 thành phần Y và có 2 thành phần U, V
• Lấy mẫu 4:2:0 có nghĩa là các thành phần màu (U, V) có độ phân giải bằng một phần tư độ phân giải của thành phần độ sáng (Y)
Trang 24và chất lượng Điều này cho thấy tầm quan trọng của việc tối ưu hóa chất lượng dữ liệu đa phương tiện khi được truyền đi trên mạng, trong đó nén dữ liệu video là một trong những việc làm hết sức cần thiết Tỷ lệ bit cần thiết để truyền dữ liệu video thô rất lớn đặc biệt là đối với tiêu chuẩn Ultra High Definition (UHDTV) mới [22] Ở tốc
độ 120 khung hình mỗi giây với tỷ lệ lấy mẫu 10 bit, tỷ lệ bit tăng lên 60 Gbps cho một luồng video không nén Giá trị này còn tăng hơn nữa nếu các định dạng 3-D hoặc multiview được sử dụng Do đó, dữ liệu video độ phân giải lớn cần thiết được nén lại
để lưu trữ và truyền thông
Việc nén dữ liệu video đem lại hai ưu điểm chính như sau:
1 Nâng cao khả năng sử dụng video số hóa trong các môi trường trao đổi và lưu trữ Ví dụ, với tốc độ đường truyền internet như hiện nay vẫn không đủ để hỗ trợ thực hiện dữ liệu video không nén theo thời gian thực (thậm chí là trong cả tường hợp video ở tỷ lệ và kích thước khung hình thấp) và trong khi đó một đĩa DVD chỉ có thể lưu được một đoạn video thô (chưa nén) có độ dài vài phút với chất lượng hình ảnh,
độ phân giải của màn hình hiển thị
2 Nén video làm nâng cao hiệu quả của việc sử dụng các tài nguyên lưu trữ
và truyền video Nếu có một kênh truyền tốc độ cao, có thể truyền video nén với độ phân giải và chất lượng cao hoặc có thể tùy chọn truyền video đa kênh thay vì đơn kênh
Với các ưu điểm trong lưu trữ và truyền dữ liệu, nén dữ liệu video được coi là một thành phần quan trọng trong hầu hết tất các các ứng dụng và dịch vụ đa phương tiện hiện nay và trong những năm tiếp theo
Trang 2525
1.2.2 Mô hình nén video tổng quát
Bộ nén video nén một chuỗi video từ đầu vào thành dạng đã được nén và giải nén thành một video đầu ra Video sau khi giải nén giống hệt video gốc thì quá trình nén được gọi là nén không mất mát thông tin Nếu video sau khi giải nén khác với video gốc thì quá trình nén được gọi là nén mất mát thông tin
Một bộ nén video bao gồm 3 phần chính: mô hình thời gian, mô hình không gian và bộ mã hóa entropy như Hình 1.1 Mô hình thời gian giảm dư thừa thời gian bằng cách khai thác sự tương đồng giữa các khung cạnh nhau, thường sử dụng khung hình trước khung hiện tại Đầu vào của nén thời gian là tín hiệu video nguồn Đầu ra của mô hình thời gian là phần dư (residual) của khung (là phần trừ đi của khung trước
và khung hiện tại) và tập các mô hình tham số, tập vector chuyển động (vector motion)
mô tả cách bù chuyển động
Video gốc
Dữ liệu
mã hoá
Hình 1.1 Sơ đồ khối của một bộ nén video tổng quát
Đầu vào của mô hình không gian là khung dư (residual) Mô hình nén giảm dư thừa không gian bằng cách sử dụng sự tương đồng giữa các khối (block) trong cùng một khung hình Để giảm dư thừa không gian, bộ nén áp dụng chuyển đổi mẫu dư và lượng tử hóa kết quả Bộ chuyển đổi chuyển mẫu sang miền giá trị khác được biểu diễn bằng hệ số chuyển đổi Các hệ số được lượng tử hóa loại bỏ đáng kể các giá trị
và đưa ra biểu diễn nhỏ gọn của khung dư Đầu ra của mô hình không gian là một tập các hệ số chuyển đổi lượng tử
Trang 2626
Đầu ra của mô hình không gian (vector chuyển động) và mô hình thời gian (hệ số) được nén bởi bộ mã hóa entropy Loại bỏ các dư thừa tĩnh trong dữ liệu và đưa ra dòng bit hoặc file có thể truyền hoặc lưu trữ Chuỗi nén bao gồm tham số vector chuyển động, hệ số dư mã và thông tin tiêu đề
Bộ giải mã video xây dựng lại khung video từ dòng bit nén Hệ số và vector chuyển động được giải mã bởi bộ giải mã entropy sau đó mô hình không gian giải mã
để xây dựng lại khung dư Bộ giải mã sử dụng tham số vector chuyển động cùng với một hoặc nhiều khung đã được giải mã trước đó để tạo khung hiện tại và khung được hoàn thiện bằng cách thêm vào khung dư
1.2.3 Các chuẩn nén video
Lịch sử phát triển của các chuẩn mã hóa video được trình bày trong Hình 1.2 Chuẩn nén video kỹ thuật số đầu tiên là H.120, được phát triển bởi Tổ chức Viễn thông quốc tế (ITU) vào năm 1984 Đến năm 1988, H.120 có phiên bản 2, phiên bản này hỗ trợ tính toán bù chuyển động Chuẩn nén thứ hai là H.261 [24] là chuẩn được phổ biến rộng rãi đầu tiên Chuẩn H.261 hỗ trợ bù chuyển động khối kích thước 16 x16, phương pháp biến đổi Cosin rời rạc (Discrete Cosine Transform-DCT), lượng tử
và mã hóa entropy được phát triển khoảng đầu năm 1991 bởi tổ chức ITU thuộc lĩnh vực đo lường (International Telecommunication Union - Telecommunication Standardization Sector - ITU-T) Các chuẩn nén video đều thực hiện trên cơ sở khối (macroblock) Khối là một đơn vị xử lý trong hình ảnh và nén video thường là một khối pixel lân cận
Tiếp theo, chuẩn JPEG được phát triển vào năm 1992 bởi hai tổ chức ISO/IEC- JTCI và ITU-T, chuẩn này hiện nay vẫn được sử dụng rộng rãi Chuẩn JPEG hỗ trợ nén mất mát thông tin (lossless coding) và mã hóa số học Chuẩn MPEG-1 được phát triển bởi tổ chức ISO/IEC-JTCI vào năm 1993 Chuẩn MPEG-1 hỗ trợ khung dự đoán
từ hai hướng (B - frame), hỗ trợ tỷ lệ bit từ 1-2 Mbit/s MPEG-2 được phát triển bởi hai tổ chức ISO/IEC JTCI và ITU-T vào năm 1994 [25] Tính năng kỹ thuật mới của MPEG-2 có thể nén hiệu quả với ảnh hỗn hợp và có tỷ lệ bit từ 4-30 Mbit/s Tiếp
Trang 2727
theo là chuẩn MPEG-4 ra đời vào năm 1999 và trở thành chuẩn quốc tế vào năm 2000 [26] So với các chuẩn trước đó, chuẩn MPEG-4 có nhiều nổi bật hơn như hiệu năng nén cao, cho phép sử dụng tỷ lệ bit lên tới 38.4Mbit/s, cho phép nén kết hợp video và text MPEG-4 là tiêu chuẩn cho các ứng dụng truyền thông đa phương tiện
Hình 1.2 Trình tự phát triển các chuẩn nén video từ năm 1990 đến nay
Vectors chuyển động
Hình 1.3 Cấu trúc mã hóa video củaH.264/AVC
Trang 2828
H.264 được nhóm các chuyên gia hình ảnh động (Moving Picture Experts Group - MPEG) và nhóm các chuyên gia video (Video Coding Experts Group - VCEG) phát triển và được gọi là nén video nâng cao (Advanced Video Coding - AVC), còn được gọi tên khác là MPEG- Part 10 [23] H.264 không xác định rõ một CODEC (COde/DECode) mà chỉ xác định cú pháp của một dòng bit video nén cùng với phương pháp giải mã dòng bit này Hình 1.3 mô tả cấu trúc mã hóa của phiên bản H.264 Một khung hình được chia thành các khối kích thước16 x16 rồi đi qua các bước mã hoá nội khung, mã hóa liên khung và lượng tử hóa trước khi chuyển đến bước Entropy để tìm số bit nhỏ nhất cần dùng để biểu diễn
Bộ nén video phân giải cao (High Efficiency Video Coding - HEVC) hay còn gọi là H.265 là một chuẩn nén video mới nhất hiện tại đang được cộng tác phát triển bởi nhóm ITU-T VCEG và nhóm ISO/IEC MPEG HEVC là tiêu chuẩn video thế hệ tiếp theo sau H.264/AVC [27] [28] Mục tiêu của nỗ lực tiêu chuẩn hóa HEVC nhằm làm tăng gấp đôi hiệu năng nén video so với H.264/AVC đang tồn tại, trong khi có thể hỗ trợ cho tất cả những ứng dụng tiềm năng khác như: Cuộc gọi video, lưu trữ, quảng bá, streaming nhất là cho video kích thước hình lớn
Hình 1.4 Cấu trúc mã hóa của phiên bản H.265/HEVC đầu tiên Hình 1.4 cho thấy rằng nén HEVC được xây dựng dựa trên nền tảng cơ bản của H.264/AVC Tất cả những bước xử lý chính đều được giữ nguyên, như mã hóa nội khung, mã hóa liên khung, các bộ lọc, lượng tử hóa Tuy nhiên bên cạnh đó, H.265/HEVC đã có những thay đổi Phần sơ đồ của H.265/HEVC chỉ có 1 xử lý mới duy nhất là: phân tích điều khiển bộ lọc (filter control analysis) Dễ nhận biết nhất là
sự tách biệt của mã hóa nội khung thành 2 khối là dự đoán nội khung (intra-picture
Trang 2929
prediction) và ước tính nội khung (intra-picture estimation) Tuy nhiên, một số kỹ thuật phát triển mới và các module đã được ứng dụng trong HEVC để đạt được hiệu năng nén cao
1.2.4 Hiệu năng nén video
Hiệu năng nén của một bộ video CODEC là khả năng cân bằng giữa chất lượng video sau khi nén, tỉ lệ bit (bitrate) và chi phí tính toán Chất lượng ở đây có thể là đại lượng đo chất lượng chủ quan hoặc đo chất lượng khách quan Tỉ lệ bit (số bit trên giây) cần thiết để truyền tải video và chi phí tính toán liên quan đến yêu cầu năng lượng cần thiết để thực hiện việc nén video Nếu video được nén trực tuyến thời gian thực, chi phí tính toán phải đủ nhỏ để có thể xử lý được nhiều khung hình mỗi giây
Nếu bỏ qua chi phí tính toán, hiệu năng tỉ lệ nén - độ biến dạng của một bộ video CODEC là khả năng cân bằng giữa chất lượng video và tỉ lệ bit Trong đó, biến dạng (nhiễu) là hiện tượng méo tín hiệu cơ bản gây cản trở quá trình quan sát hình ảnh và trích xuất thông tin Đồ thị về tương quan giữa chất lượng và tỉ lệ bit sẽ cho thấy đường cong tỉ lệ nén - độ biến dạng như Hình 1.5 Khi tỷ lệ bit giảm, chất lượng cũng giảm Khi sử dụng cùng một nguồn video, hiệu năng của các video CODEC khác nhau có thể được so sánh thông qua đường cong chất lượng - độ biến dạng này Hình 1.5 cũng cho thấy rằng, một hệ nén càng có hiệu năng tốt thì đường cong chất lượng
- độ biến dạng tương ứng có xu hướng di chuyển lên phía trên
Hình 1.5 Đường cong hiệu năng chất lượng - tỉ lệ nén
Trang 3030
So sánh hiệu năng giữa các video CODEC là một việc tương đối khó khăn Một video CODEC được gọi là tốt nếu có đường cong chất lượng - độ biến dạng tốt đồng thời chi phí tính toán phải nhỏ Tuy nhiên, các thông số này thường phụ thuộc vào bản thân nội dung video Video có nội dung khác nhau có thể dẫn đến hiệu năng chất lượng - độ biến dạng khác nhau
1.2.5 Các nghiên cứu về nén video tại Việt Nam
Trong những năm qua đã có nhiều nghiên cứu nhằm cải tiến và ứng dụng các
mô hình nâng cao hiệu năng nén video tại Việt Nam Phó giáo sư, Tiến sĩ Lê Thanh
Hà (trường Đại học Công nghệ) công bố các nghiên cứu tập trung vào việc nâng cao hiệu năng nén cho chuẩn H.264/AVC [29], [30] và các kỹ thuật tạo khung ảo mới cho chuẩn 3D-HEVC [31]
Các nghiên cứu của Phó giáo sư, Tiến sĩ Trần Xuân Tú (trường Đại học Công nghệ) tập trung chủ yếu vào việc xây dựng và phát triển các mạch tích hợp phần cứng cho chuẩn H.264/AVC [32], [33] Kết quả nghiên cứu của nhóm này đã được ghi nhận bằng giải nhì Nhân Tài Đất Việt năm 2015
Tiến sĩ Vũ Hữu Tiến (Học viện Công nghệ Bưu chính Viễn thông) đã tập trung nghiên cứu giải pháp giảm ảnh hưởng của lỗi lan truyền giữa các khung hình khi truyền tín hiệu video theo chuẩn H.264/AVC qua kênh truyền vô tuyến có sự hiện diện của fading [34], [35] Nổi bật gần đây, tác giả đã đề xuất một phương pháp nén video nhận thức mới, trong đó hệ số lượng tử được điều chỉnh theo thang đo chất lượng tham chiếu đầy đủ kết hợp với CNN nhằm giữ chất lượng hình ảnh ổn định trong khi vẫn đạt được hiệu năng nén cao [36]
Nhóm của Phó giáo sư, Tiến sĩ Hoàng Văn Xiêm (trường Đại học Công nghệ)
đã có nhiều công bố liên quan đến nén video Hướng nghiên cứu nổi bật là các nghiên cứu nâng cao hiệu năng nén video liên lớp nhằm tối ưu các mức chất lượng video khác nhau theo nhu cầu người dùng và khả năng đáp ứng của phần cứng Trong [37] các tác giả đã xây dựng và đánh giá hiệu năng mã hóa video phân tán với chuẩn VVC
Trang 3131
cải tiến có đề xuất phương pháp xác định các vùng quan tâm trong các khung hình của video thông qua các đặc trưng cơ bản Trong [38], tác giả đề xuất mở rộng lớp chất lượng dựa trên nén kỹ thuật nén video đa năng gốc nhằm mục tiêu mang lại hiệu năng nén cao hơn Hệ số lượng tử cũng được tác giả nghiên cứu điều chỉnh cho nén video liên lớp dựa trên H.265/HEVC làm giảm tốc độ bit lần lượt 6.9% và 12.6% cho cấu hình nén low delay (LD) và random access (RA) trong nghiên cứu [39]
Nhóm của Tiến sĩ Nguyễn Vũ Thắng (đại học Bách khoa Hà Nội) gần đây có nhiều nghiên cứu nổi bật về giảm độ phức tạp thuật toán ước lượng chuyển động trong
bộ nén H.265/HEVC Trong đó, nhóm đề xuất phương pháp tìm kiếm mẫu dạng kim cương bất đối xứng giúp giảm độ phức tạp tính toán của ước lượng chuyển động lần lượt là gần 69,5% và 72% và thời gian mã hóa giảm 65% và 69% so với tìm kiếm mẫu vuông với tốc độ bit và PSNR hầu như không thay đổi [40] Trong [41], tác giả đề xuất một thuật toán mới nhằm giảm số lượng mẫu tìm kiếm của bộ ước lượng chuyển động nội khung giúp giảm thời gian tính 68,23%, 65,83% so với thuật toán gốc Ngoài
ra, tác giả trong [42] đã đưa ra thiết kế phần cứng được tối ưu hóa ước lượng chuyển động nguyên trên HEVC để mã hóa video 8K
Hiện tại các nghiên cứu về nén video ở Việt Nam đã có nhiều kết quả đáng khích lệ Tuy nhiên, chưa có nghiên cứu nào hướng đến mục tiêu xây dựng phương pháp đánh giá chất lượng ảnh cho nén video
1.3 Đánh giá chất lượng hình ảnh 1.3.1 Giới thiệu chung về đánh giá chất lượng hình ảnh
Đánh giá chất lượng hình ảnh là một nội dung cơ bản quan trọng trong quá trình xử lý ảnh và video Nhận thức thị giác của con người rất phức tạp, khó có thể hiểu và mô hình hoá đầy đủ Đánh giá chất lượng video còn phức tạp hơn nhiều so với đánh giá chất lượng ảnh (Image Quality Assessment - IQA) do thông tin không chỉ trong không gian hai chiều của khung hình mà còn theo thời gian Đánh giá chất lượng chủ quan vẫn là phương pháp đánh giá tốt nhất Trong phương pháp này, một
Trang 32Đánh giá chất lượng ảnh có ý nghĩa quan trọng trong các bộ nén: (i) so sánh hiệu năng giữa các bộ nén khác nhau trên các tốc độ bit và nội dung video; (ii) so sánh ảnh hưởng của các tham số và tuỳ chọn mã hoá nhằm lựa chọn giá trị tối ưu Điển hình trong bộ nén là tối ưu hóa tỷ lệ nén và độ biến dạng bằng vòng lặp
Hơn một thập kỷ trước, các nghiên cứu về thị giác máy bắt đầu chú ý đến độ nhạy cảm của con người đối với các biến dạng hình ảnh và video Độ nhạy này thay đổi theo độ sáng màn hình [43] [44] [45], đặc điểm tần số không gian và thời gian cục
bộ [46], các loại chuyển động đối tượng, chuyển động của mắt, các loại biến dạng khác nhau và môi trường quan sát [47] Để đảm bảo tính khoa học của các thử nghiệm chủ quan và hiệu quả mô hình hoá các mô hình khách quan, ảnh hưởng của các độ nhạy này phải rất đa dạng, phong phú
Một điều lưu ý là HVS có sự khác biệt giữa các đối tượng, tùy thuộc vào độ tuổi, bệnh tật, trạng thái sức khoẻ hoặc khiếm khuyết về thị giác Những sở thích chủ quan hoặc cảm giác nhàm chán có thể ảnh hưởng đến đánh giá của người xem
Trang 3333
1.3.2 Đánh giá chất lượng hình ảnh chủ quan
Thời gian gần đây có những phương pháp đo chất lượng hình ảnh khách quan tin cậy, tuy nhiên không có phương pháp vào được chấp nhận rộng rãi như một thước
đo chất lượng chuẩn Do đó, vẫn cần phải sử dụng thử nghiệm đánh giá chủ quan để xây dựng các dữ liệu đánh giá chất lượng từ đó xây dựng các mô hình đánh giá chất lượng dùng cho các bộ nén ảnh và video Các phương pháp đánh giá chủ quan được
sử dụng rộng rãi để đánh giá, so sánh hoặc xác nhận hiệu năng của các thuật toán nén video Phương pháp đánh giá chất lượng hình ảnh chủ quan chia làm hai loại: một tác nhân và nhiều tác nhân
Phương pháp đánh giá chất lượng hình ảnh chủ quan một tác nhân không có sự tham chiếu rõ ràng và người đánh giá được cung cấp một chuỗi các hình ảnh kiểm nghiệm ngẫu nhiên, thường bao gồm cả hình ảnh ban đầu Phương pháp này đề xuất trong ITU-R Rec BT.500 trong đó mỗi một đợt đánh giá theo phương pháp có thời lượng giới hạn trong khoảng từ 30 đến 60 phút [48] Thang đo chất lượng của phương pháp sử dụng là xếp hạng danh mục tuyệt đối (Absolute Category Rating -ACR) đề xuất trong trong ITU-T Rec P.910 [49] Một trong những ưu điểm chính của các phương pháp đánh giá một tác nhân là giảm thời gian thử nghiệm
SAMVIQ [50] là một dạng của phương pháp đánh giá một tác nhân, nhưng là phương pháp mà người đánh giá có một số quyền kiểm soát đối với thứ tự xem và số lần lặp lại Thử nghiệm được tổ chức thành một loạt các trình tự kiểm tra được đánh giá theo một thứ tự nhất định và trong đó người đánh giá không thể tiếp tục trình tự tiếp theo cho đến khi trình tự trước đó đã được đánh giá hoàn chỉnh Trong mỗi trình
tự, một số thuật toán và điều kiện kiểm tra có thể được trình bày theo bất kỳ thứ tự nào do người đánh giá lựa chọn (tuy nhiên, các nút lựa chọn được chọn ngẫu nhiên cho mỗi trình tự mới được đánh giá)
Đánh giá chất lượng hình ảnh chủ quan hai tác nhân vẫn là phương tiện phổ biến nhất để đánh giá chất lượng hình ảnh nén Quy trình được sử dụng phổ biến nhất được đề xuất trong ITU-R Rec Trong đó có hai phương pháp: Thang đo chất lượng
Trang 3434
liên tục hai tác nhân (Double Stimulus Continuous Quality Scale - DSCQS) và Thang
đo suy giảm hai tác nhân (Double Stimulus Impairment Scale - DSIS) Phương pháp DSCQS phù hợp nhất với các trường hợp chất lượng của hình ảnh gốc và hình ảnh biến dạng tương tự với mục đích là để đánh giá hiệu năng của bộ nén so với bộ nén gốc Thử nghiệm cho hai hình ảnh xuất hiện liên tục và người đánh giá cho biết chất lượng mà không biết hình ảnh gốc vì thứ tự được sắp xếp ngẫu nhiên DSIS tương tự như DSCQS ngoại trừ việc cặp hình ảnh chỉ được hiển thị một lần và người đánh giá biết hình ảnh gốc hiển thị trước hình ảnh biến dạng DSIS thường phù hợp hơn để đánh giá tính ổn định của hệ thống hoặc ảnh hưởng của các biến dạng đáng chú ý hơn
Một số bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan đã được xây dựng như CSIQ, LIVE, TID2008, TID 2018 về ảnh và VQEG-FR, IVC-HD, EPFL- PoliMI, LIVE video, VQEG-HD, đối với video Từ một số hình ảnh gốc, các hình ảnh đánh giá được tạo ra bằng cách thêm vào ảnh gốc các kiểu biến dạng khác nhau Người quan sát được lựa chọn đánh giá chất lượng dưới những điều kiện quy định trong [48]
Ý kiến chủ quan thu được trong thực nghiệm được tính toán trung bình giữa những người cùng đánh giá hình ảnh gọi là MOS (mean opinion score) hoặc DMOS (differential mean opinion score) Cả hai cách đều dùng điểm đánh giá trung bình, tuy nhiên đối với MOS người quan sát đánh giá chủ quan không có tham chiếu đến ảnh gốc còn DMOS thì có tham chiếu đến ảnh gốc Trong các nghiên cứu tiếp theo của luận án, thực nghiệm xây dựng bộ dữ liệu có sử dụng ảnh tham chiếu do đó thang đo DMOS được dùng để làm đơn vị đo chất lượng hình ảnh
1.3.3 Đánh giá chất lượng hình ảnh khách quan
Đánh giá chất lượng ảnh và video khách quan đóng một vai trò quan trọng trong quá trình xử lý hình ảnh và video, đặc biệt liên quan đến nén video và truyền thông Chúng có ba công dụng chính:
Trang 35(ii) Tối ưu hóa chất lượng: Đánh giá chất lượng rất cần thiết trong vòng lặp
mã hóa để đưa ra quyết định RQO lựa chọn chế độ mã hóa và cài đặt tham số nào đảm bảo hiệu năng tối ưu với các ràng buộc về nội dung và tỷ lệ nhất định
(iii) Điều khiển truyền phát: Trong trường hợp truyền tải nội dung video trên mạng, ưu điểm lớn của bộ nén và bộ phát là nhận biết chất lượng tín hiệu tại thiết bị thu sau khi giải mã Điều này cho phép bộ nén được thông tin về các điều kiện kênh hiện hành và đưa ra quyết định phù hợp về mặt kiểm soát chất lượng và kiểm soát lỗi
Tùy thuộc vào việc đánh giá có tham chiếu hay không, các phương pháp đánh giá chất lượng khách quan được phân thành 3 loại: có tham chiếu, tham chiếu không đầy đủ hoặc không tham chiếu
(i) Các phương pháp có tham chiếu (FR - Full reference) được sử dụng rộng rãi trong các ứng dụng có hình ảnh gốc, chẳng hạn như khi đánh giá hiệu năng thuật toán nén ảnh và video hoặc trong quá trình nén khi đưa ra lựa chọn tối ưu mã hóa
(ii) Các phương pháp không tham chiếu (NR - No reference) chỉ được sử dụng khi nội dung tham chiếu không có sẵn [51], ví dụ như khi đánh giá ảnh hưởng của hệ thống truyền thông ở thiết bị thu Rất khó để xây dựng các các phương pháp đo này
và việc sử dụng chúng thường bị giới hạn trong các một số loại biến dạng Chúng khái quát mô hình chủ quan kém hiệu quả và nên thay thế bằng phương pháp tham chiếu không đầy đủ nếu có thể
(iii) Các phương pháp tham chiếu không đầy đủ (RR - Reduce reference) [52]
sử dụng thông tin một phần về hình ảnh gốc trong quá trình đánh giá chất lượng Tại
bộ giải mã, các tính năng tương tự được trích xuất từ tín hiệu được tái tạo và so sánh
Trang 3636
trong số liệu RR Một phản hồi về chất lượng tái cấu trúc tại bộ giải mã sau đó có thể được đưa trở lại bộ nén để nó có thể đưa ra quyết định mã hóa dựa trên trạng thái kênh hiện hành Rõ ràng bất kỳ thông tin bổ sung nào đều làm tăng tỷ lệ bit của thông tin được mã hóa và điều này phải được đánh giá chi phí nhằm đạt được chất lượng yêu cầu
1.3.4 Một số phương pháp đánh giá chất lượng khách quan
a Các phương pháp dựa trên sai số bình phương tối thiểu
Phương pháp dựa trên sai số bình phương tối thiểu hiện đang được sử dụng phổ biến là PSNR Trong cùng một điều kiện thử nghiệm, PSNR có thể dùng để ước lượng biến dạng một cách hiệu quả đối với một số tín hiệu hình ảnh nhất định Huynh - Thu
và Ghanbari [3] đã chỉ ra rằng PSNR có thể cung cấp kết quả đánh giá nhất quán khi được sử dụng để so sánh giữa các bộ nén tương tự hoặc cải tiến bộ nén dựa trên cùng một dữ liệu thử nghiệm Tuy nhiên các phương pháp đánh giá theo MSE nói chung có thể thất bại đối với một số loại suy giảm chất lượng nhất định, chẳng hạn như dịch chuyển nhỏ theo không gian hoặc thời gian, thay đổi chiếu sáng hoặc thay đổi nhỏ trong kết cấu theo đặc trưng thị giác [5] Trong những trường hợp này, chất lượng theo nhận thức có thể rất nhỏ trong khi sự thay đổi chất lượng được đánh giá có thể là đáng kể Tổng quát về những hạn chế của các phương pháp đánh giá chất lượng dựa trên MSE được trình bày bởi Girod [6] cũng như Wang và Bovik [5] Wang và Bovic liệt kê điều kiện sử dụng phương pháp đánh giá chất lượng MSE: (i) không phụ thuộc vào mối quan hệ thời gian hoặc không gian giữa các mẫu; (ii) chất lượng tín hiệu độc lập với mọi mối quan hệ giữa tín hiệu gốc và tín hiệu lỗi; (iii) chất lượng tín hiệu độc lập với các dấu hiệu của tín hiệu lỗi; (iv) tất cả các mẫu đóng góp như nhau vào chất lượng tín hiệu
Dựa trên bộ dữ liệu VQEG FRTV Phase I, Zhang và Bull [53] đã phân tích mối tương quan giữa các chỉ số chất lượng PSNR và điểm đánh giá khác biệt chủ quan (DMOS) (Hình 1.6) Kết quả biểu diễn trên Hình 1.6 cho thấy có mối tương quan nhất định giữa hai đại lượng nhưng không quá cao đặc biệt đối với một số biến
Trang 3737
dạng do Pure coding hay Transmission error Điều này cho thấy các phương pháp
đánh giá chất lượng dựa trên sai số bình phương tối thiểu chưa phản ánh được chất lượng theo nhận thức tri giác của con người
Hình 1.6 Tương quan giữa PSNR với DMOS trên VQEG FRTV Phase I [53]
b Các phương pháp đánh giá trên nền tảng thị giác
Các đặc trưng của HVS được khai thác trong nén cũng như đánh giá chất lượng Khi các thuộc tính HVS được khai thác, mối tương quan với các đánh giá chủ quan nâng lên, so với các biện pháp đánh giá thông thường như MSE
Độ nhạy cảm đối với sự tương phản và các thuộc tính gần ngưỡng và siêu ngưỡng của HVS đã được Chandler và Hemami sử dụng trong phương pháp VSNR (Visual Signal-to-Noise Ratio) đánh giá chất lượng ảnh [54] Phương pháp này mô phỏng sự phân tích vỏ não của HVS bằng cách sử dụng biến đổi wavelet VSNR đánh giá kiểm nghiệm trên bộ dữ liệu hình ảnh LIVE với kết quả rất tốt Dựa trên cách tiếp cận được sử dụng trong VSNR, Larson và Chandler [17] đã phát triển mô hình biến dạng rõ ràng nhất (MAD)
Trong nén video nhận thức, Zhang và Bull đã đề xuất một đơn vị đo chất lượng Artifact-Based Video Metric (AVM) [55] bằng cách sử dụng DT-CWT làm cơ sở để
Trang 3838
đánh giá cả nội dung được nén và tổng hợp AVM tương quan tốt với điểm chất lượng chủ quan VQEG và có ưu điểm là có thể dễ dàng tích hợp vào bộ nén do tính linh hoạt cao và độ phức tạp thấp
Lấy cảm hứng từ AVM, một phương pháp đo chất lượng video dựa trên nhận thức (PVM) gần đây đã được đề xuất bởi Zhang và Bull [53] PVM mô phỏng các quá trình nhận thức HVS bằng cách kết hợp một cách thích nghi sự biến dạng đáng chú ý
và các tạo tác làm mờ bằng mô hình phi tuyến tính nâng cao
c Các phương pháp đánh giá chất lượng theo mô hình thống kê
Tính toàn vẹn của thông tin trong một hình ảnh hoặc video là một vấn đề quan trọng cho nhận thức trực quan Wang và cộng sự [7] đã phát triển một phương pháp đánh giá chất lượng hình ảnh ddộ tương tự cấu trúc (Structural Similarity Image Metric - SSIM) ước tính sự suy giảm độ tương tự cấu trúc dựa trên các thuộc tính thống kê của thông tin địa phương giữa một hình ảnh tham chiếu và hình ảnh bị bóp méo Đây cải tiến của chỉ số chất lượng hình ảnh phổ quát (UIQI) trước đây [56] và kết hợp ba biện pháp tương tự cục bộ dựa trên độ chói, độ tương phản và cấu trúc
SSIM có hiệu suất vượt trội so với PSNR trong nhiều trường hợp và nó tương đối đơn giản để tính toán Tuy nhiên, SSIM thiếu chính xác với sự thay đổi tỷ lệ, sự dịch chuyển và góc xoay của hình ảnh Biến thể CW-SSIM [57] của SSIM đã được phát triển dựa trên wavelet phức tạp để giải quyết các vấn đề này cũng như phiên bản nhiều tỷ lệ (MS-SSIM) [58] Một phiên bản mở rộng rộng hơn nữa cho SSIM được gọi là V-SSIM, cũng tính đến thông tin tạm thời [8] có trọng số các chỉ số SSIM của tất cả các khung Các phương pháp này đã chứng minh hiệu suất được cải thiện so với PSNR trên bộ dữ liệu VQEG FRTV Phase I Các số liệu chất lượng dựa trên mô hình thống kê cũng bao gồm các đóng góp từ Sheikh [59], Lu [60] và Shnayderman [3]
Trang 3939
d Các phương pháp đánh giá chất lượng dùng học máy
Một số phương pháp đo chất lượng khách quan có tham chiếu được xây dựng trên nền tảng CNN cho hiệu quả đáng khích lệ Trong đó, mạng CNN thực hiện trích xuất các đặc trưng thị giác, học và dự đoán chất lượng hình ảnh giữa ảnh gốc và ảnh biến dạng Do dữ liệu đánh giá chất lượng trên toàn ảnh khi các mạng CNN trích xuất đặc trưng thị giác thực hiện trên các khối nhỏ của ảnh, các nghiên cứu đã đề xuất lấy ngẫu nhiên một số khối nhất định hoặc lấy tất cả các khối trong ảnh để dự đoán chất lượng cho khối Sau đó chất lượng toàn ảnh được tính trung bình hoặc tính theo trọng
số chất lượng của các khối Jie li trong [11] có ý tưởng dùng mô hình saliency tính trọng số cho các khối và lựa chọn các khối có trọng số lớn nhất Trong [12], tác giả
đề xuất một mạng CNN đa nhiệm nhằm đánh giá chất lượng đồng thời phân loại nhiễu của ảnh Tổng hợp lại, các mô hình CNN cho hiệu quả tốt nhưng gặp phải vấn đề là
số lượng ảnh dùng cho học và kiểm nghiệm còn ít Để khắc phục tình trạng đó, một
số giải pháp được sử dụng để làm dày hơn bộ dữ liệu nhưng chưa triệt để Gần đây,
để xây dựng mô hình đánh giá chất lượng không tham chiếu, Wu trong [13] đã tạo ra
dữ liệu mới bằng cách sử dụng phương pháp đánh giá có tham chiếu để đo chất lượng theo thị giác và dùng dữ liệu này để huấn luyện cho mạng đánh giá chất lượng không
có tham chiếu Cách làm này có thể áp dụng đối với đánh giá không tham chiếu, mặc
dù mức độ tin cậy của phương pháp đánh giá có tham chiếu ảnh hưởng rất nhiều đến
dữ liệu huấn luyện
Trong các nghiên cứu sử dụng sử dụng CNN đánh giá chất lượng ảnh, Bosse trong [10] có đề xuất nổi bật về cấu trúc mạng song song theo hai phương pháp có tham chiếu và không tham chiếu Phương pháp có tham chiếu lựa chọn ngẫu nhiên các khối để dự đoán chất lượng riêng cho khối đó và tính chất lượng toàn ảnh bằng 2 cách: tính trung bình và tính có trọng số tổng chất lượng của các khối Trong cấu trúc
đề xuất có tham chiếu (Hình 1.7), cả chất lượng của từng khối và trọng số được huấn luyện đồng thời từ các bộ dữ liệu đã công bố như: CSIQ [24], LIVE [38], TID2008 [39] và TID2013 [40] Kết quả phương pháp huấn luyện trên bộ dữ liệu quy mô lớn
Trang 4040
TID2013 [40] và thử nghiệm trên các bộ dữ liệu còn lại cho kết quả khả quan Tuy nhiên, đề xuất này của Bosse phù hợp đánh giá chất lượng trên toàn ảnh chưa thể hiện hết vai trò chất lượng riêng biệt của khối
Hình 1.7 Kiến trúc CNN đánh giá chất lượng ảnh theo Bosse trong [10]
Gần đây, các nghiên cứu đã đạt được hiệu suất tốt trong đánh giá chất lượng hình ảnh không có tham chiếu như Yue trong [61] đã đề xuất phương pháp đánh giá chất lượng hình ảnh bị biến dạng bán giám sát với mạng Nơ ron bảo toàn tính nhất quán Hay Pan trong [62] xây dựng mạng Nơ ron dự đoán chất lượng hình ảnh không
có tham chiếu DACNN Dựa trên hành vi đa kênh của hệ thống thị giác và chức năng
độ nhạy tương phản, Liu đã phân tách hình ảnh thành một số dải tần số không gian thông qua các tính năng lọc và trích xuất đa thang đo để ánh xạ hình ảnh tới điểm chất lượng chủ quan không tham chiếu của nó bằng cách áp dụng CNN [63] Chao Zeng trong [64] đề xuất sơ đồ trích xuất tính năng dùng chung cho cả cài đặt FR và NR nhằm dự đoán chất lượng có cấu trúc hai nhánh huấn luyện trên bộ dữ liệu KADID-10K [65]
1.3.5 Bộ dữ liệu đánh giá chất lượng hình ảnh chủ quan
Trong những năm qua có nhiều bộ dữ liệu thực nghiệm đánh giá chất lượng ảnh chủ quan được công bố Thông số 9 bộ dữ liệu nổi bật được thống kê trong Bảng 1.1 bao gồm dữ liệu và các điều kiện thực nghiệm Mỗi bộ dữ liệu được tạo ra từ một
số lượng ảnh gốc bằng cách thêm vào các loại biến dạng điển hình Các biến dạng có cường độ khác nhau dẫn đến mức độ suy giảm chất lượng khác nhau Mỗi đánh giá