Hầu hết các đánh giá chất lượng hình ảnh đã cho đến nay vẫn được thực hiện bằng cách sử dụng các mẫu hình ảnh có nguồn gốc từ các chương trình phát sóng truyền hình, nhưng với sự tăng trưởng gần đây trong phổ biến của dịch vụ chuyển phát hình ảnh cho máy tính và các thiết bị đầu cuối di động, đã phát sinh một nhu cầu cho sự phát triển của các phương pháp đánh giá chất lượng tương thích với nhiều định dạng hình ảnh khác nhau và môi trường xem. Trong phương pháp SAMVIQ đặt ra trong khuyến nghị ITU-R BT.1788, một môi trường đánh giá được chuẩn bị có thể phát lại đoạn hình ảnh chuẩn hoặc hình ảnh đánh giá trên một màn hình máy tính, và các đối tượng có thể cho điểm trong khi xem lại các đoạn hình ảnh với tốc độ của họ. Hình 12 minh họa một ví dụ về cách bố trí màn hình đánh giá được sử dụng trong các phương pháp SAMVIQ. Các cảnh hình ảnh đánh giá và số lần xem còn lại cho các đối tượng quyết định, do mỗi hình ảnh đánh giá có thể được đánh giá trong khi so sánh và kiểm tra, người ta cho rằng phương pháp này sẽ tạo ra kết quả đánh giá lặp lại và ổn định hơn.
44
Vùng hiển thị hình ảnh đánh giá
Thanh trượt đầu vào đánh giá
Phím hiển thị hình ảnh tham chiếu
Phím phát lại Phím dừng Hình ảnh trước Hình ảnh tiếp theo Kết thúc đánh giá Hình 12. Ví dụ về bố trí màn hình đánh giá SAMVIQ 4.3 Tổng kết
Việc sử dụng các phương pháp đánh giá chủ quan luôn cho kết quả tốt nhất và đáng tin cậy nhất. Tuy nhiên để thực hiện các phương pháp này thì việc bố trí các điều kiện thử nghiệm đòi hỏi chi phí cao và tốn kém. Do đó phương pháp này được khuyến khích sử dụng trong trường hợp không quá khắt khe về vấn đề chi phí nhằm đạt được kết quả đo đánh giá chính xác và tin cậy nhất.
Khi sử dụng các phương pháp chủ quan để đánh giá một hệ thống mới thì các phương pháp so sánh cặp PC là rất phù hợp. Phương pháp này cho phép thiết lập thử nghiệm để đánh giá từng thông số: mã hóa, mất gói tin…Có thể nói đối với việc đánh giá chất lượng video của các ứng dụng đa phương tiện cho các hệ thống mới lắp đặt để nghiệm thu đưa vào sử dụng thì phương pháp này rất hữu ích. Thực tế cho thấy trên thế giới rất nhiều các nhà cung cấp dịch vụ đã sử dụng các phương pháp này để đánh giá các hệ
45
thống thử nghiệm IPTV.
Sự ra đời của việc nén truyền hình số tạo ra sự suy yếu chất lượng hình ảnh phụ thuộc vào phân cảnh và thay đổi theo thời gian. Ngay cả trong các đoạn video ngắn được mã hóa kỹ thuật số, chất lượng hình ảnh có thể dao động trong khoảng khá rộng tùy thuộc vào nội dung phân cảnh và sự suy giảm chất lượng có thể tồn tại trong thời gian ngắn. Để đánh giá được cả những suy giảm chất lượng nêu trên, phương pháp chủ quan SAMVIQ có thể được sử dụng. Việc thiết lập điều kiện thử nghiệm cũng như thang đo đánh giá của các phương pháp này cho phép đánh giá sự suy yếu hình ảnh phụ thuộc vào phân cảnh và thay đổi theo thời gian, thể hiện ở việc lựa chọn các phân cảnh và phương thức trình diễn cũng như các tiêu chí đánh giá, xử lý kết quả đánh giá.
Bốn phương pháp đánh giá chủ quan ACR, ACR-HR, DCR và PC có thể được sử dụng để đánh giá chất lượng video đối với tất cả các hệ thống phân phối dịch vụ đa phương tiện. Tuy nhiên vấn đề quan trọng trong việc lựa chọn một trong các phương pháp thử nghiệm này là sự khác biệt giữa các phương pháp này trong việc sử dụng tham chiếu, 4 phương pháp trên có thể chia làm 2 nhóm, nhóm thứ nhất là nhóm các phương pháp không sử dụng tham chiếu rõ ràng bao gồm ACR, ACR-HR và PC, nhóm còn lại sử dụng tham chiếu rõ ràng (DCR).
Phương pháp DCR sẽ được sử dụng khi kiểm tra độ chính xác truyền dẫn các nguồn tín hiệu. Đây là một nhân tố quan trọng trong việc đánh giá các hệ thống chất lượng cao. DCR từ lâu đã là một phương pháp quan trọng được định nghĩa trong [ITU-R BT.500-9], để đánh giá những hình ảnh truyền hình có chất lượng đặc trưng đại diện cho mức độ thoại truyền hình và hội nghị truyền hình cực cao. Những ý kiến đánh giá cụ thể về mức DCR rất có giá trị khi người xem phát hiện ra sự suy giảm.
Vì vậy, để kiểm tra độ xác thực đối với các nguồn tín hiệu, nên sử dụng phương pháp DCR. DCR cũng nên được áp dụng để đánh giá hệ thống chất lượng cao trong truyền thông đa phương tiện. Khả năng phân biệt về sự suy giảm không thể nhận thấy/nhận thấy trong DCR hỗ trợ điều này, cũng như so sánh về chất lượng tham chiếu.
ACR là một phương pháp dễ dàng và nhanh chóng để thực hiện và trình diễn các tác nhân kích thích tương tự như của các hệ thống sử dụng thông thường. Vì thế, phương pháp ACR rất phù hợp cho các bài thử nghiệm khả năng.
46
ACR-HR là phương pháp phát triển hoàn toàn của ACR về sự trình diễn phân cảnh và tốc độ. Điểm chính của ACR-HR vượt trên ACR đó là việc loại bỏ ảnh hưởng về cảm nhận của quan sát viên bởi video tham chiếu. Điều này làm giảm tác động của phân cảnh tham chiếu (ví dụ người xem thích hay không thích một đoạn video tham chiếu), chất lượng video tham chiếu (ví dụ sự khác biệt nhỏ về chất lượng camera), và người giám sát (ví dụ chất lượng cao so với khách hàng) trong những khoảng điểm cuối cùng. ACR-HR phù hợp với nhưng thử nghiệm lớn, được cung cấp tất cả các video tham chiếu tại mức chất lượng ít “tốt” nhất. Tuy nhiên, ACR-HR có thể không nhạy cảm với một số suy yếu có thể dễ dàng phát hiện bằng các phương pháp trực tiếp khác (ví dụ DCR). Ví dụ, sự suy giảm hệ thống trong việc đạt được màu sắc (như màu xám mờ) có thể không phát hiện được bằng phương pháp ACR- HR.
Ưu điểm chính của phương pháp PC là nó có nguồn khả năng nhận biết cao, điều này có giá trị đặc biệt khi các hình ảnh thử nghiệm có chất lượng gần như bằng nhau. Khi một số lượng lớn các danh mục đã được đánh giá trong cùng một thử nghiệm tương tự, thủ tục dựa trên phương pháp PC có xu hướng kéo dài. Trong trường hợp này, một thử nghiệm ACR hay DCR có thể được thực hiện đầu tiên với một số quan sát trong giới hạn, sau đó chỉ được thử nghiệm bằng phương pháp PC trên các mục mà đã nhận được cùng một sự đánh giá.
47
CHƯƠNG 5. PHƯƠNG PHÁP ĐÁNH GIÁ KHÁCH QUAN CHẤT LƯỢNG VIDEO TRONG CÁC ỨNG DỤNG ĐA PHƯƠNG TIỆN
Do tâm lý đánh giá của người tham gia rất quan trọng trong việc đánh giá chất lượng chủ quan của hình ảnh, mặt khác phương pháp này cũng tốn nhiều thời gian, nỗ lực và thiết bị đặc thù để đánh giá. Điều này làm cho rất khó khăn để nâng cao hiệu quả đánh giá chất lượng và thiết kế của dịch vụ và thông qua giám sát chất lượng cũng như kiểm soát các dịch vụ.
Vì vậy đã hình thành nhu cầu mạnh mẽ cho các phương pháp đánh giá khách quan chất lượng hình ảnh dựa trên việc sử dụng các tính năng vật lý của tín hiệu truyền thông, dịch vụ, mã hóa và truyền tải, … để ước lượng chất lượng hình ảnh.
Công nghệ đánh giá chất lượng video khách quan ước lượng chất lượng video từ thông tin điểm ảnh. Đặc biệt, nó định lượng chất lượng bằng cách so sánh thông tin điểm ảnh tham chiếu và các video bị suy yếu. Các kỹ thuật đánh giá khách quan chất lượng hình ảnh thường cố gắng mô phỏng tạo các đặc trưng của hệ thống thị giác con người để đạt được các thang điểm chất lượng hình ảnh có tương quan tốt với những mức đánh giá mà người xem trực tiếp.
Hiện nay thông thường trong phương pháp đánh giá khách quan, điểm đánh giá chất lượng được tính trung bình (MOS), với thang điểm từ 1 đến 5 như sau:
Điểm số 5 4 3 2 1
Chất lượng tín
hiệu Video Rất tốt Tốt Trung bình Xấu Rất xấu
5.1 Các mô hình tham chiếu trong phương pháp đánh giá khách quan
Như đã đề cập phương pháp đánh giá khách quan chất lượng video xây dựng các mô hình cho phép đánh giá chất lượng hình ảnh từ các tham số liên quan đến mạng truyền dẫn và các hệ thống mã hóa và giải mã. Hiện nay có 3 mô hình đang được xem xét và thực hiện bao gồm: Mô hình tham chiếu đầy đủ, mô hình tham chiếu rút gọn và mô hình không tham chiếu.
5.1.1 Mô hình tham chiếu đầy đủ ( Full _reference)
Những giải thuật trong mô hình tham chiếu đầy đủ thực hiện so sánh chi tiết giữa hình ảnh đầu vào và đầu ra của hệ thống. Việc so sánh này là một quá trình tính toán phức tạp không chỉ bao gồm quá trình xử lý theo điểm ảnh mà còn theo thời gian và không gian giữa dòng dữ liệu video đầu vào và đầu ra. Kết quả của các giải thuật tham chiếu đầy đủ khá phù hợp với các kết quả đánh giá chủ quan (MOS).
Một trong những giải thuật ra đời sớm nhất của mô hình tham chiếu đầy đủ là PSNR (Peak Signal to Noise Ratio), theo đúng nghĩa của thuật ngữ sử dụng, giải thuật này
48
đánh giá tỷ số giữa giá trị lớn nhất của tín hiệu trên tạp âm, giá trị này tính theo dB. Thông thường giá trị PSNR được coi là “tốt” ở vào khoảng 35dB và nhỏ hơn 20dB là không chấp nhận được. Hiện nay PSNR được dùng rộng rãi trong kỹ thuật đánh giá chất lượng hình ảnh và video.
Bên cạnh giải thuật PSNR hiện tại có khá nhiều các giải thuật cho mô hình tham chiếu đầy đủ đã được phát triển ví dụ như: Đo chất lượng hình ảnh động - MPQM (Moving Pictures Quality Metric -1996) của EPFL Thụy Sỹ, đo chất lượng hình ảnh - VQM (Video Quality Metric -1999) của Viện nghiên cứu Viễn thông Mỹ (NTIA ITS) và đánh giá chất lượng hình ảnh liên tục - CVQE (Continuous Video Quality Evaluation - 2004)[7]. Các giải thuật này phù hợp cho các ứng dụng video có tốc độ bit thấp. Trong ba giải thuật trên chỉ có giải thuật VQM được tiêu chuẩn và được tích hợp trong tiêu chuẩn ITU-T J.144 [10].
Giải pháp dựa trên mô hình tham chiếu đầy đủ cho phép đánh giá chính xác chất lượng tín hiệu hình ảnh thu được ở đầu thu, vì nó so sánh cả hai tín hiệu ở mức rất chi tiết tới từng điểm ảnh riêng biệt.
Mã hóa Giải mã
Hệ thống đo đánh giá Đầu ra/ Video
bị suy giảm Đầu vào/ Video
tham chiếu
Tỷ lệ chất lượng hình ảnh khách quan
Hình 13. Mô hình triển khai tham chiếu đầy đủ
5.1.2 Mô hình tham chiếu rút gọn ( Reduce – Reference)
Mô hình tham chiếu rút gọn (RR) như Hình 14 thực hiện đánh giá khách quan chất lượng hình ảnh bằng cách so sánh hình ảnh đã xử lý bị bóp méo do mã hóa và tổn thất truyền tải với một lượng nhỏ thông tin trích xuất từ các hình ảnh nguồn. Do mô hình RR sử dụng các đặc tính của các hình ảnh nguồn và tín hiệu hình ảnh suy giảm, nên nó là khá chính xác, mặc dù không được chính xác bằng mô hình FR.
Các đặc tính cụ thể được trích xuất từ cả hình ảnh nguồn lẫn tín hiệu đã xử lý. Các dữ liệu tham chiếu liên quan đến các thông số tại điểm A được báo hiệu đến hệ thống đo tại điểm B để cho phép so sánh các thông số tại điểm cuối của chuỗi. Các thông số có thể gồm: đặc tính khối, thông tin tín hiệu không gian, thời gian, tạp nhiễu.
49
A
A
B
B
Hình 14. Mô hình tham chiếu rút gọn
5.1.3 Mô hình không tham chiếu ( Non(Zero) _ reference)
Các giải thuật cho mô hình không tham chiếu nói chung phù hợp cho việc giám sát, phân tích trực tuyến chất lượng video tại đầu cuối (in-service). Kiểu thuật toán này có thể xem xét các yếu tố ảnh hưởng ít hơn thuật toán trong mô hình tham chiếu đầu đủ, chính vì thế mà mô hình này có thể triển khai trong nhiều ngữ cảnh hơn. Thiết kế các giải thuật cho mô hình không tham chiếu là một công việc khó khăn, chính vì thể mà hiện tại chỉ có một vài phương pháp được đề xuất [16][17][18][19], một vài công ty đưa vào trong sản phẩm thương mại của họ [26][27][28] và được coi là bí mật công nghệ.
Hình 15. Mô hình không tham chiếu
5.2 Một số phương pháp đánh giá khách quan chất lượng hình ảnh trong các ứng dụng đa phương tiện ứng dụng đa phương tiện
Có 5 tổ chức đề xuất mô hình đánh giá khách quan chất lượng hình ảnh trong các ứng dụng đa phương tiện bao gồm:
- NTT (Nhật Bản) với Mô hình FR - NTT_QE;
- OPTICOM (Đức) với Mô hình FR - PEVQ phiên bản 3.4; - SwissQual (Thụy Sỹ) với Mô hình FR - Vquad;
- Tektronix (Mỹ) với Mô hình FR - VQEG.bat phiên bản 2.5.93;
50
Mô hình RR - Yonsei_RR56k, Yonsei_RR128k & Yonsei_RR256k.
Ngoài ra, mặc dù chưa được tiêu chuẩn hóa, tuy nhiên có rất nhiều nghiên cứu về các phương pháp đánh giá theo mô hình NR, trong khuôn khổ luận văn các phương pháp đánh giá theo mô hình NR được đề cập đến bao gồm:
- Phương pháp đánh giá chất lượng hình ảnh tự nhiên NIQE
5.2.1 Phương pháp đánh giá khách quan chất lượng hình ảnh video trong các ứng dụng đa phương tiện theo giải thuật FR-NTT
Hình 16. Giải thuật NTT trong đánh giá khách quan chất lượng video trong các ứng dụng đa phương tiện
Thuật toán NTT được đưa ra trong Hình 16. Cụ thể, phương pháp này đánh giá chất lượng video bị ảnh hưởng bởi biến dạng video thông qua các bước sau:
Bước 1: Quá trình căn chỉnh không gian/thời gian giữa các video tham chiếu và video bị biến dạng .
Bước này sắp xếp, căn chỉnh các điểm ảnh và khung hình của video tham chiếu và video bị biến dạng để có thể so sánh chúng một cách thích hợp, đồng thời loại bỏ nhiễu nhằm loại các ảnh hưởng của nhiễu tần số cao trong video bị biến dạng mà con người không thể nhận biết. Ngoài ra trong bước này cũng thực hiện hiệu chỉnh tăng/lệch phù hợp với giá trị điểm ảnh của video tham chiếu so với video bị biến dạng. Quá trình hiệu chỉnh này loại bỏ ảnh hưởng do sự sắp xếp màu ở trong bộ giải mã hay hiển thị (bao gồm cả card video).
Bước 2: Xác định các thông số đánh giá chất lượng mã hóa, bao gồm: 1) Tỷ lệ tín hiệu lớn nhất trên nhiễu PSNR
2) Giá trị Biến dạng khối Log (-Min_HV)
Giá trị này cho biết độ biến dạng khối bằng cách tính toán tỷ lệ giữa các cạnh ngang, cạnh dọc (HV) và các cạnh khác.
3) Năng lượng chuyển động trung bình của khối (Ave_MEB)
51
và biến dạng cục bộ. Để tính toán giá trị này cần cần tính toán độ sáng khác nhau giữa các khung trên mỗi khối 8x8 điểm ảnh, việc này được thực hiện trên cả video tham chiếu và video đã qua xử lý.
4) Sự biến thiên năng lượng cục bộ (FV_LME)
Thông số này phản ánh sự biến thiên thời gian của biến dạng không gian cục bộ và mô tả mức độ biến đổi của méo không gian trong chuỗi.
5) Độ dài đóng băng
Giá trị của thông số này thể hiện sự suy giảm tốc độ khung và sự đóng băng khung hình bằng việc chỉ sử dụng tín hiệu video suy giảm cho quá trình căn chỉnh. Quá trình này sẽ đưa ra thông số liên quan đến đóng băng khung hình
Bước 3 Đánh giá sự biến dạng liên quan đến mất gói tin.
Bước này bắt nguồn từ hai thông số thêm vào liên quan đến sự biến dạng video gây ra do mất gói tin.
(1) Biến dạng khối cục bộ, xảy ra trong các khung hình cụ thể nhận được từ sự tính toán mức độ thay đổi thời gian trong tất cả các khung hình khi thay đổi độ sáng