(LUẬN VĂN THẠC SĨ) Xây dựng thuật toán ẩn lỗi hiệu quả nhằm nâng cao chất lượng truyền video trên kênh truyền vô tuyến

Giới thiệu về H.264

Tổng quan về nén video

Video sơ khai là một chuỗi hình ảnh liên tiếp, trong đó công nghệ phim nhựa lưu lại các ảnh với tốc độ 24 ảnh mỗi giây Khi phát lại, những hình ảnh này được chiếu tuần tự trên màn ảnh với tốc độ tương tự như lúc quay, tạo ra hiệu ứng chuyển động mượt mà.

Trong thời đại kỹ thuật số, hình ảnh được chuyển đổi thành các điểm ảnh với thông tin về màu sắc và độ sáng được số hóa, lưu trữ dưới các định dạng như RAW, BMP Để giảm bớt số lượng bit cần thiết cho việc lưu trữ hình ảnh, nhiều phương pháp mã hóa khác nhau đã được áp dụng, dựa trên đặc tính dư thừa thông tin từ cách biểu diễn và bản chất của hình ảnh, trong đó ảnh thường bao gồm các mảng có màu sắc và độ sáng tương tự nhau, được gọi là dư thừa thông tin theo không gian.

Trong video số, bên cạnh hai dạng dư thừa thông tin, còn có dư thừa thông tin theo thời gian, khi các khung hình liên tiếp thường tương tự nhau, dẫn đến khung hình sau mang ít thông tin hơn khung hình trước Ba dạng dư thừa thông tin này đã được khai thác để nén video, đạt tỉ lệ nén lên tới hàng trăm lần mà vẫn đảm bảo chất lượng hình ảnh sắc nét và trung thực.

Trong lĩnh vực công nghệ video, mã hoá (encoding) thường được hiểu là quá trình nén (compress) dữ liệu Mã hoá không chỉ giúp giảm kích thước tệp mà còn tối ưu hóa việc lưu trữ và truyền tải video hiệu quả hơn.

Nén video dựa trên sự dư thừa thông tin theo không gian và thời gian là một phương pháp hiệu quả, điển hình là các bộ phim HD Blu-ray Chẳng hạn, một phiên bản phim năm 2012 có định dạng FullHD (1920x800) với độ dài 158 phút và tốc độ 24fps có dung lượng video khoảng 13GiB (~14 * 10^9 byte) Nếu lưu trữ video này dưới dạng tập hợp các ảnh liên tiếp với 24 bit màu, dung lượng cần thiết sẽ tính theo công thức: 1920 * 800 * 3 * 24 * 158.

* 60 = 1,48 * 10 12 byte Từ đó, có thể thấy lỷ số nén video đạt được tới hơn 100 lần.

Đặc điểm và ứng dụng của H.264

Hiện nay, nhiều chuẩn nén hình ảnh như H.261, MPEG-1 part 2, H.262, H.263, và MPEG-4 part 2 đã ra đời, với những cải tiến công nghệ đáng kể theo thời gian Các chuẩn nén mới giúp giảm kích thước tập tin video sau khi nén một cách hiệu quả hơn, đồng thời duy trì hoặc cải thiện chất lượng hình ảnh Tuy nhiên, điều này cũng đồng nghĩa với việc các thuật toán và phương pháp xử lý trở nên phức tạp hơn.

Ra đời vào tháng 05/2003, H.264 là chuẩn mã hóa video được phát triển nhờ sự hợp tác giữa hai nhóm ITU-T VCEG và ISO/IEC MPEG, và hiện nay được đánh giá là một trong những chuẩn mã hóa thông tin tốt nhất Chuẩn H.264 không quy định cách thực hiện mã hóa, mà chỉ xác định định dạng hình ảnh sau mã hóa và quy trình giải mã, cho phép các nhà sản xuất thiết bị và phần mềm tự do lựa chọn phương pháp mã hóa Một trong những ưu điểm nổi bật của H.264 là khả năng nén tốt hơn, giúp tiết kiệm chi phí bằng cách giảm lưu lượng đường truyền trong quá trình truyền tải video và giảm chi phí lưu trữ video.

Hình 1 - Quá trình mã hoá và giải mã video H.264

H.264 được thiết kế để sử dụng cho nhiều mục đích khác nhau, có thể kể ra như [4] :

 Phát video quảng bá qua cáp đồng trục, DSL, vệ tinh, sóng mặt đất,…

 Lưu trữ trên ổ cứng, đĩa quang,…

 Hội nghị truyền hình qua mạng ISDN, LAN, DSL, mạng di động,…

 Truyền hình theo yêu cầu Video-on-demand,…

Danh sách dịch vụ không giới hạn và luôn có khả năng bổ sung các dịch vụ mới là một yếu tố quan trọng, đặc biệt được chú trọng trong quá trình thiết kế H.264.

H.264 được cấu trúc thành hai lớp chính: lớp mã hóa video (Video Coding Layer - VCL) và lớp trừu tượng mạng (Network Abstraction Layer - NAL) VCL là phần quan trọng nhất, thực hiện mã hóa nội dung video một cách hiệu quả, trong khi NAL đảm nhiệm việc định dạng dữ liệu đã mã hóa để phù hợp với việc truyền tải qua mạng hoặc lưu trữ.

Khi so sánh với các chuẩn mã hoá video trước, ví dụ MPEG-2, H.264 có một số đặc điểm mới, hoặc cải tiến như sau:

 Bù chuyển động với nhiều kích thước block khác nhau Block nhỏ nhất có kích thước 4x4 điểm ảnh giúp cho hình ảnh ít bị dạng khối hơn

Ước lượng chuyển động đến mức ẳ pixel giúp cải thiện độ chính xác và tạo ra hình ảnh mịn màng hơn Trước đây, các chuẩn chỉ thực hiện đến mức ẵ pixel, nhưng với công nghệ mới, khả năng ước lượng đã được nâng cao đáng kể.

Trong H264, việc sử dụng nhiều khung tham chiếu, lên tới 5 khung, giúp nâng cao độ chính xác trong việc dự đoán véc-tơ chuyển động Điều này khác biệt so với các chuẩn trước đó, thường chỉ sử dụng một hoặc hai khung tham chiếu Nhờ vào khả năng này, kết quả giải mã trở nên sát hơn với nguồn hình ảnh trước khi mã hóa.

 Khung B có thể được sử dụng làm khung tham chiếu Điều này cho phép việc mã hoá được thực hiện linh hoạt hơn, hiệu quả hơn

Lọc làm mịn trong mỗi chu trình xử lý (in-loop de-blocking filter) đóng vai trò quan trọng trong việc loại bỏ các đường viền khối giả, những hiện tượng này thường phát sinh do quá trình biến đổi và lượng tử.

H.264 thực hiện biến đổi với khối kích thước nhỏ hơn, chủ yếu sử dụng khối 4x4, thay vì khối 8x8 như trong các chuẩn mã hoá trước đó Điều này giúp bộ mã hoá hoạt động chi tiết hơn và giảm thiểu hiện tượng vòng giả (“ringing artifact”).

Bài viết này đề cập đến hai phương pháp mã hóa entropy quan trọng trong lĩnh vực nén dữ liệu, bao gồm mã hóa số học nhị phân tương thích ngữ cảnh (CABAC) và mã hóa có độ dài từ thay đổi tương thích ngữ cảnh (CAVLC) CABAC cung cấp hiệu suất nén cao hơn nhờ vào khả năng điều chỉnh theo ngữ cảnh, trong khi CAVLC là một lựa chọn hiệu quả cho các ứng dụng yêu cầu tốc độ xử lý nhanh Cả hai phương pháp này đều đóng vai trò quan trọng trong việc tối ưu hóa dung lượng lưu trữ và băng thông truyền tải.

 Biến đổi cosin rời rạc (DCT) được thay bằng biến đổi số nguyên

Sử dụng bộ tham số để đồng bộ hóa các luật mã hóa và phân loại dữ liệu là cách hiệu quả để bảo vệ thông tin quan trọng, ngăn ngừa mất mát dữ liệu.

Sắp xếp macro-block linh hoạt cho phép phân mảnh mỗi khung hình thành nhiều nhóm slices khác nhau, giúp các nhóm slice được giải mã độc lập Tính năng này đặc biệt hữu ích trong việc xử lý lỗi ở mức macro-block.

 Cho phép thay đổi linh hoạt kích thước slice

 Dự phòng dữ liệu: để tăng độ an toàn, H.264 cho phép phía mã hoá bổ sung dữ liệu dự phòng cho một vùng của khung hình

Dữ liệu trong mỗi slice được phân loại thành ba gói A, B, C dựa trên mức độ quan trọng Mỗi gói sẽ có mức độ ưu tiên khác nhau trong quá trình truyền tin và lưu trữ.

Lớp trừu tượng mạng – NAL

Mục tiêu của lớp trừu tượng mạng là đảm bảo tính “phù hợp với môi trường” Với NAL, dữ liệu được mã hoá bởi lớp VCL có thể áp dụng linh hoạt trên nhiều môi trường khác nhau.

 RTP/IP, H.32X, MPEG-2 cho việc trao đổi/quảng bá thông tin thời gian thực trên mạng vô tuyến/hữu tuyến

 Các định dạng file khác nhau để lưu trữ, hay để gửi trên mạng như một bản tin MMS

Trong NAL sử dụng một số khái niệm như: đơn vị NAL (NAL units), luồng byte (byte stream), gói

Đơn vị NAL là thành phần cơ bản trong dữ liệu video sau mã hóa, bao gồm một nhóm các byte, với byte đầu tiên là tiêu đề chứa thông tin về loại dữ liệu NAL có khả năng được áp dụng trong cả hai phương pháp truyền tải, bao gồm theo luồng (bitstream-oriented) và theo gói (package-oriented).

Đơn vị NAL trong các hệ thống như H.320 và H.222.0 yêu cầu việc truyền tải dưới dạng luồng bit, đòi hỏi phương pháp phân tách các đơn vị NAL Mỗi đơn vị NAL được nhận diện thông qua một nhóm 3 byte gọi là tiền tố khởi đầu (start code prefix).

Trong các hệ thống RTP/IP, đơn vị NAL được chuyển đổi thành các gói của lớp truyền tải sau khi mã hóa Mỗi đơn vị NAL có thể được chứa trong một gói riêng biệt, do đó không cần thiết phải có tiền tố khởi đầu như trước đây.

Đơn vị NAL được phân loại thành hai loại: loại thứ nhất chứa thông tin từ lớp VCL, phản ánh nội dung video đã được mã hóa, trong khi loại thứ hai bao gồm các thông tin khác như bộ tham số mã hóa và các thông tin phụ trợ.

Bộ tham số mã hoá bao gồm các tham số quan trọng cho quá trình giải mã, chẳng hạn như định dạng video (PAL, NTSC, ) và phương pháp mã hoá entropy (CABAC/CAVLC).

Lớp mã hoá video – VCL

H.264, giống như các chuẩn video trước đây từ H.261, tuân theo một cấu trúc mã hóa video nhất định Thay vì bổ sung thêm khối mới, H.264 tập trung vào việc cải tiến hiệu quả nén của từng khối, từ đó nâng cao hiệu suất nén tổng thể so với các chuẩn trước đó.

Hình 3 - Sơ đồ khối mã hoá 1 Macro-Block trong H.264 a Hình, Khung, và Miền

Video H.264 bao gồm một chuỗi hình ảnh, trong đó mỗi hình có thể là một khung hoàn chỉnh hoặc chỉ là một phần của khung Mặc dù khái niệm hình và khung thường được sử dụng thay thế cho nhau, nhưng chúng vẫn có những điểm khác biệt nhất định.

Khung hình thường được chia thành hai miền đan xen: miền trên và miền dưới Miền trên chứa các dòng điểm ảnh chẵn (0, 2, …, H-2), trong khi miền dưới chứa các dòng lẻ (1, 3, …, H-1), với H là tổng số điểm ảnh theo chiều dọc Tùy thuộc vào thời điểm của hai miền này, khung có thể được phân loại thành loại p (progressive) khi cả hai miền cung cấp thông tin hình ảnh tại cùng một thời điểm, hoặc loại i (interlaced) khi hai miền chứa thông tin của hai thời điểm khác nhau.

Hình 4 - Progressive - interlaced frame b Phân loại khung

Trong nén video khung được phân ra thành 3 loại: khung I, khung P, và khung B (Hình 5) [7]

Khung I (intra-coded) là hình ảnh hoàn chỉnh tương tự như hình ảnh tĩnh thông thường Thông tin trong khung I có thể được nén dựa trên tính dư thừa thông tin không gian, giống như quy trình nén ảnh tĩnh, chẳng hạn như chuẩn nén JPEG.

Khung P (predicted/predictive) chỉ lưu trữ thông tin về sự thay đổi so với khung trước đó, giúp giảm thiểu dung lượng dữ liệu Ví dụ, khi có hình ảnh một quả bóng vàng di chuyển trên nền trắng, bộ mã hóa H.264 chỉ mã hóa thông tin về chuyển động của quả bóng mà không lưu lại thông tin về nền trắng, từ đó tiết kiệm đáng kể dung lượng lưu trữ.

 Khung B (bi-predictive): mang thông tin về sự khác biệt giữa khung hiện tại với các khung trước đó và các khung sau đó

Mức độ nén dữ liệu trong video phụ thuộc vào tỷ lệ giữa các khung I, P và B, do khung P và B có dung lượng nhỏ hơn khung I Khi tỷ lệ khung I giảm, tỷ lệ nén sẽ tăng cao Tuy nhiên, việc giảm tỷ lệ khung I cũng làm gia tăng ảnh hưởng của hiệu ứng lan truyền lỗi, vì chỉ có khung I không bị ảnh hưởng bởi vấn đề này.

Hình 6 - Hiệu ứng lan truyền lỗi

Giảm tỉ lệ khung I có thể hạn chế khả năng tua nhanh khi xem phim, vì nhiều phần mềm chỉ cho phép tua đến các vị trí của khung I Định dạng YCbCr cũng liên quan đến vấn đề này.

Mắt người nhạy cảm hơn với độ sáng so với màu sắc, cho phép nhận biết sự thay đổi nhỏ trong độ sáng Để tối ưu hóa chất lượng video, các hệ thống mã hóa và hiển thị đã áp dụng không gian màu YCbCr thay vì RGB, đồng thời giảm tần suất lấy mẫu cho các thành phần Cb và Cr.

YCbCr, hay còn gọi là YUV, là một không gian màu gồm ba thành phần: Y (độ sáng), Cb và Cr (màu sắc) Do mắt người nhạy cảm hơn với độ sáng, nên trong quá trình lấy mẫu video, Cb và Cr thường được lấy mẫu với tần suất thấp hơn Tần suất lấy mẫu được biểu thị bằng các bộ số như 4:4:4, 4:2:2, và 4:2:0, trong đó 4:2:0 là tần suất phổ biến nhất.

Cb, Cr bằng ẳ thành phần Y (ẵ theo chiều dọc và ẵ theo chiều ngang)

Một hình (picture) được phân ra thành nhiều khối macro-block (MB) Mỗi

MB là một hình vuông có kích thước 16x16 mẫu độ sáng và 8x8 mẫu màu, đóng vai trò là phần tử cơ bản trong quá trình mã hoá và giải mã hình ảnh Mảnh và nhóm mảnh là các khái niệm quan trọng trong việc xử lý và truyền tải dữ liệu hình ảnh.

Mảnh (slice) là một chuỗi các MB trong quá trình quét hình theo dòng (raster scan) Mỗi hình thường được chia thành một hoặc nhiều mảnh, và trong quá trình mã hóa/giải mã, mỗi mảnh hoạt động như một đơn vị độc lập Việc giải mã một mảnh không ảnh hưởng đến các mảnh khác, cho phép thực hiện mã hóa/giải mã song song, từ đó nâng cao tốc độ xử lý.

Hình 9 - Mảnh (slice) khi không sử dụng FMO

Trong H.264, việc áp dụng FMO đã giới thiệu khái niệm nhóm mảnh (slice group), đồng thời làm thay đổi định nghĩa về mảnh Theo đó, các MB trong một hình ảnh được phân chia thành các nhóm mảnh khác nhau.

Việc chia MB hiện nay không còn thực hiện theo cách quét dòng, mà được xác định thông qua một bảng ánh xạ, trong đó các MB thuộc nhóm nào sẽ được mô tả rõ ràng Khái niệm "mảnh" giờ đây được hiểu là một chuỗi các MB liên tiếp trong cùng một nhóm mảnh.

Hình 10 - Chia MB vào các nhóm mảnh (slice group)

Trường hợp không sử dụng FMO, khi đó, sẽ là một trường hợp đặc biệt của FMO – toàn bộ hình chỉ có một nhóm mảnh duy nhất

Việc mã hoá một mảnh không phụ thuộc vào việc sử dụng FMO hay không Mỗi mảnh có thể được mã hoá bằng một trong các phương pháp sau đây.

 Mảnh loại I: là mảnh với tất cả các MB được mã hoá với đầy đủ thông tin gốc, không phải tham chiếu tới khác khung hình khác

 Mảnh loại P: là mảnh có chứa một số MB được mã hoá có sử dụng tham

 Mảnh loại B: bổ sung thêm một số MB có 2 dự đoán bù chuyển động.

Các thuật toán ẩn lỗi

Ẩn lỗi ở mức MB

Hầu hết các thuật toán ẩn lỗi trước đây được thực hiện ở mức MB, tức là khi trong khung có một hoặc một số khối bị mất Các thuật toán này được chia thành hai loại: thuật toán ẩn lỗi ở mức MB trên miền không gian.

Tài liệu [5] trình bày hai phương pháp ẩn lỗi trong không gian và thời gian cho mô hình thử nghiệm H.26L, đồng thời cũng được áp dụng trong bộ phần mềm tham chiếu H.264/AVC Phương pháp ẩn lỗi không gian sử dụng kỹ thuật ngoại suy dựa trên giá trị trung bình cộng có hệ số của các điểm ảnh ở biên (WABP), như minh họa trong Hình 11.

Hình 11 - Ẩn lỗi trên miền không gian WABP cho MB 16x16

Phương pháp WABP được áp dụng cho từng điểm ảnh cần nội suy trong MB bị mất, với các giá trị Y, Cb, Cr được tính bằng trung bình cộng của các giá trị tương ứng từ 4 điểm ảnh ở biên của các MB lân cận Khi thực hiện tính toán trung bình cộng, 4 giá trị đầu vào sẽ được gán trọng số khác nhau dựa trên khoảng cách tính theo điểm ảnh từ điểm ảnh đầu vào đến điểm ảnh cần nội suy Bên cạnh đó, thuật toán ẩn lỗi ở mức MB trong miền thời gian cũng được đề cập.

Cách ẩn lỗi trên miền thời gian tương tự như trên miền không gian, với việc dự đoán các giá trị MVs cho khối bị mất dựa vào mối liên hệ giữa khối đó và các khối lân cận Nguyên lý MV cho thấy rằng một vùng không gian nhỏ thường có tính đồng nhất, do đó, việc nội suy MVs cho một MB có thể thực hiện hiệu quả dựa trên các khối xung quanh.

MV của các MB lân cận là có cơ sở.

Thuật toán ẩn lỗi ở mức khung

Từ phiên bản 10.0, JM áp dụng hai phương pháp ẩn lỗi ở mức khung là FC và MVC Trong đánh giá chủ quan, cả hai phương pháp này cho chất lượng tương đương với các đoạn hình tĩnh Tuy nhiên, khi xem xét chất lượng qua PSNR, đặc biệt ở các cảnh chuyển động, MVC thường mang lại chất lượng tốt hơn FC khoảng 2dB.

Thuật toán FC sao chép toàn bộ điểm ảnh từ khung hình tham chiếu sang khung hình hiện tại (khung hình bị mất), tạo ra một hình ảnh khôi phục hoàn toàn giống với khung hình tham chiếu.

Hình 12 - Phương pháp Frame Copy b Thuật toán Motion Vector Copy

Với phương pháp MVC, quá trình khôi phục khung hình bị mất bắt đầu bằng cách sao chép các MV của từng khối nhỏ 4x4 từ khung hình t-1 sang khung hình t Sau đó, các giá trị Y, Cb, Cr của khung hình tái tạo t sẽ được phục hồi dựa trên các MV đã sao chép.

(Trong biểu thức (III.2), (i,j) là chỉ số xác định vị trí của khối 4x4).

Đề xuất thuật toán sửa lỗi mất toàn khung

Thuật toán MVC thường hiệu quả trong việc khắc phục lỗi mất toàn bộ khung, nhưng vẫn có thể cải thiện để nâng cao chất lượng Cụ thể, khi sao chép MV từ các khối không chuyển động, khung hình tái tạo có thể xuất hiện một số khối bị lỗi, như minh họa trong Hình 13 Lỗi này xảy ra trong một số tình huống nhất định.

 P-MB nhưng không chuyển động

Trong hai trường hợp này, kết quả của thuật toán MVC tương đương với kết quả của thuật toán FC Thuật toán được đề xuất trong đề tài này bao gồm các bước cơ bản như sau:

Để tái tạo MV cho từng khối nhỏ 4x4, cần thực hiện các bước sau: đầu tiên, lựa chọn nhóm MV tham chiếu phù hợp, chú ý đến hướng của MV Tiếp theo, xác định MV tái tạo bằng cách sử dụng giá trị trung vị từ các MV đã chọn.

 Trong trường hợp có khối không chuyển động, sẽ mở rộng vùng chọn

Hình 13 - Lỗi trong MVC khi có các khối không chuyển động a Phương pháp véc-tơ trung vị có định hướng

Theo phương pháp này, véc-tơ chuyển động của khối 4x4 được tái tạo dựa trên MV của khối tại cùng một vị trí trong khung hình tham chiếu và 4 yếu tố khác.

MV xung quanh MV đó [1]

MV0 là véc-tơ chuyển động của khối 4x4 trong khung hình tham chiếu, nằm cùng vị trí với khối cần tái tạo Các véc-tơ chuyển động MV1, MV2, MV3 và MV4 tương ứng với các khối lân cận của khối có MV0.

Hình 14 - Vị trí các khối lân cận

Trong H.264, mỗi khung hình có thể tham chiếu đến tối đa 5 khung hình khác, dẫn đến việc các khối khác nhau trong cùng một khung hình có thể sử dụng các khung hình tham chiếu khác nhau Cụ thể, trong trường hợp này, 5 véc-tơ MV1:MV5 có thể có giá trị ref_idx khác nhau Giá trị ref_idx của khối tái tạo sẽ được tính bằng trung bình cộng của ref_idx của MV trung vị theo hướng x và MV trung vị theo hướng y.

Hướng chuyển động của véc-tơ chuyển động đóng vai trò quan trọng trong việc dự đoán MV Trong thuật toán đề xuất, thay vì sử dụng cả 4 MV lân cận để tính trung vị, chỉ lấy các MV có cùng hướng chuyển động với MV0 Hai véc-tơ được xem là có cùng hướng khi góc giữa chúng không vượt quá 45 độ.

Việc mở rộng lựa chọn các MV lân cận để tính trung vị có thể bao gồm cả các MV ở xa hơn, như MV5, 6, 7, 8 Tuy nhiên, hiện tại chưa có cơ sở vững chắc để khẳng định rằng việc mở rộng này mang lại lợi ích Thực tế kiểm nghiệm cho thấy, trong một số trường hợp, việc chỉ sử dụng 4 MV lân cận lại cho kết quả tốt hơn so với việc sử dụng 8 MV.

Hình 15 - Lọc lấy các véc-tơ cùng hướng b Xử lý các MB tĩnh

Trong một số trường hợp, phương pháp véc-tơ trung vị có định hướng có thể mang lại kết quả tốt hơn so với phương pháp MVC, nhưng độ ổn định của kết quả không cao Khi MV0 là véc-tơ 0, véc-tơ tái tạo thường cũng có giá trị 0, dẫn đến kết quả tương tự như phương pháp copy khung FC, điều này không hợp lý trong các đoạn hình ảnh chuyển động tốc độ cao Để khắc phục vấn đề này, đầu vào của phép tính trung vị sẽ được mở rộng để xem xét MV của 8 khối 4x4 xung quanh.

Hình 16 - Bổ sung 4 khối lân cận

Khi đó, nội suy véc-tơ chuyển động của khối cần tái tạo được thực hiện theo công thức sau:

Bản chất (III.7) và (III.8) là mở rộng của (III.4) và (III.5), trong khi (III.9) chính là (III.6).

Kết quả thực hiện – đánh giá

So sánh kết quả giữa các thuật toán

Ở phần này, ta sẽ so sánh kết quả của các thuật toán:

 Véc-tơ trung vị với 5 véc-tơ tham khảo (MD5)

 Véc-tơ trung vị với 5 véc-tơ tham khảo có chọn lọc hướng (MD5 + DC)

Véc-tơ trung vị được xác định bằng cách sử dụng 5 véc-tơ tham khảo có chọn lọc hướng và bổ sung thêm 4 véc-tơ góc khi véc-tơ tại cùng vị trí bằng 0, bao gồm các véc-tơ MD5, DC và ZMMed8.

 Kết hợp giữa MVC và véc-tơ trung vị với 5 véc-tơ tham khảo có chọn lọc hướng (MVC | MD5+DC)

 Kết hợp giữa MVC và véc-tơ trung vị với 9 véc-tơ tham khảo có chọn lọc hướng

Chuỗi video sử dụng để đánh giá là chuỗi “Stefan” với kích thước khung hình CIF 352x288 Chuỗi video mẫu được mã hoá từ khung thứ 200 tới khung

299, với 1 khung I và toàn bộ các khung còn lại là khung P, và ngẫu nhiên loại bỏ 5% số khung để giả lập trường hợp mất gói tin

Sử dụng phần mềm phân tích chất lượng video MSU [3] để đánh giá tỷ số tín hiệu trên nhiễu ta có kết quả như sau:

Thuật toán FC MVC MD5 MD5 +

MVC | MD9+DC PSNR trung bình 20.04523 23.85117 23.8814 23.9118 23.87713 23.9133 23.92026

Bảng 3 - So sánh kết quả các thuật toán với mẫu Stefan

Các biểu đồ trong Hình 17 so sánh chi tiết PSNR giữa các thuật toán tại 7 khung sau từng khung lỗi (khung 12, 36, 46, 60, 67): a) b) c) d) e)

Hình 17 - So sánh kết quả các thuật toán với mẫu Stefan

Thuật toán Frame-Copy cho kết quả thấp hơn so với các thuật toán khác, với sự chênh lệch khoảng gần 4dB Trong khi đó, thuật toán Motion-Vector-Copy, nhờ vào cải tiến kết hợp sử dụng phương pháp trung vị có chọn lọc hướng, đạt được kết quả tốt hơn khoảng 0.06-0.07dB.

2 So sánh kết quả giữa các mẫu video Ở phần này, ta sẽ so sánh kết quả của các thuật toán MVC, MVC với cải tiến MD5+DC, và MVC với cải tiến MD9+VC trên 3 mẫu Akiyo (phát thanh viên), Foreman (một cuộc nói chuyện bình thường), và Stefan (trận tennis) Điều kiện thử nghiệm vẫn tương tự như trên: mã hoá 100 khung, tỉ lệ mất khung là 5% Kết quả thu được như chỉ ra trong bảng sau:

FC MVC MVC | MD5+DC MVC | MD9+DC

Bảng 4 - So sánh kết quả giữa các mẫu video

Hình 18 - So sánh kết quả giữa các mẫu video

Theo kết quả ở Bảng 4, ta có thể thấy:

Thuật toán mới đã cho thấy hiệu suất cải thiện rõ rệt khi xử lý các mẫu video chuyển động nhanh, như mẫu Stefan, trong khi hiệu quả giảm khi áp dụng cho các mẫu video tĩnh, chẳng hạn như mẫu Akiyo.

Mẫu Foreman và Akiyo cho thấy rằng thuật toán MVC cải tiến MD9+DC đạt kết quả tốt hơn so với thuật toán MVC gốc, nhưng vẫn không vượt trội hơn so với thuật toán cải tiến MD5+DC.

Thuật toán đề xuất

Sau khi thực hiện nhiều thử nghiệm với các mẫu video khác nhau và phân tích kết quả thu được, người thực hiện đề tài đã đề xuất một thuật toán ẩn lỗi hiệu quả.

Xác định giá trị MV của khối 4x4 trong khung tham chiếu tại vị trí hiện tại Dựa vào giá trị MV này (MV0), áp dụng phương pháp nội suy phù hợp để đạt được kết quả chính xác.

 Nếu MV0 nằm trong khoảng từ không (0) đến giá trị ngưỡng (trường hợp khối tham chiếu chuyển động chậm): sử dụng phương pháp MVC

Nếu MV0 lớn hơn hoặc bằng giá trị ngưỡng, trong trường hợp khối tham chiếu chuyển động nhanh, cần áp dụng phương pháp trung vị có chọn lọc hướng với 5 MV tham chiếu.

Định dạng
Số trang	43
Dung lượng	1,76 MB