Hình 2.4: Ước lượng chuyển động hai chiều
Khung k Khung k-i Khung đƣợc nội suy MV ứng viên MV đƣợc lựa chọn (xi,yi) (xj,yj) (xi,yi) (x1,y1) (x2,y2) Khung k Khung k-i MV đƣợc chọn MV ứng viên trong một phạm vi tìm kiếm Khung đƣợc nội suy
Làm mịn chuyển động không gian
Sau khi ƣớc lƣợng chuyển động hai chiều sẽ có thể xuất hiện các vectơ chuyển động không chính xác khi so với trƣờng chuyển động thực, điều này có thể đƣợc cải thiện bằng thuật toán làm mịn chuyển động không gian. Lọc trung bình vectơ có trọng số đƣợc sử dụng để loại bỏ nhiễu trong ảnh do tất cả các thành phần trong ảnh nhiễu sẽ đƣợc xem xét đến. Bộ lọc trung bình vectơ có trọng số sẽ tìm kiếm các vectơ chuyển động ứng viên tại mỗi khối cũng nhƣ đối với các khối lân cận để duy trì sự kết hợp không gian của các vectơ này trong trƣờng chuyển động.
Bộ lọc này đƣợc điều chỉnh bằng một tập các trọng số điều khiển bộ lọc làm mịn tùy thuộc vào lỗi dự đoán MSE của khối đối với mỗi vectơ ứng viên. Bộ lọc vectơ trung bình có trọng số đƣợc định nghĩa nhƣ trong [13]
1 1 || || || || j wvmf j L j N L j i j j N w x x w x x (5) Trong đó:
- x1,….,xN là các vectơ chuyển động của khối hiện tại trong khung đƣợc nội suy trƣớc đó và các khối lân cận gần nhất.
- w1,….wN tƣơng ứng với một tập các trọng số biến đổi thích ứng. - xwvmf đại diện cho đầu ra vectơ chuyển động của bộ lọc.
Việc lựa chọn trọng số đƣợc thực hiện theo lỗi dự đoán đƣợc xác định nhƣ sau:
c j j MSE x B MSE x B w ( , ) ( , ) (6) Trong đó:
- xc đại diện cho vectơ ứng viên của khối đƣợc làm mịn B
MSE biểu thị sự so khớp giữa khối B hiện tại trong khung chính kế tiếp và khối trong khung chính trƣớc đó đƣợc bù chuyển động bằng vectơ xc và xj.
Bù chuyển động
Sau khi thu đƣợc trƣờng vectơ chuyển động cuối cùng, khung nội suy có thể đƣợc hình thành bằng cách sử dụng bù chuyển động hai chiều và đã đƣợc định nghĩa trong các sơ đồ mã hóa video tiêu chuẩn.
Cải tiến quá trình nội suy
Hình 2.5: Quá trình nội suy khung kết hợp ước lượng chuyển động trước và sau
Sơ đồ trên mô tả một hƣớng mở rộng mới cho quá trình nội suy khung. Trong khi quá trình nội suy khung nhƣ đã đề cập ở trên (hình 2.2) chỉ sử dụng một khối ƣớc lƣợng chuyển động trƣớc, quá trình nội suy khung ở hình 2.5 kết hợp thêm một ƣớc lƣợng chuyển động sau để tạo khung nội suy tốt hơn. Đối với ƣớc lƣợng chuyển động sau, vectơ chuyển động sẽ đƣợc ƣớc lƣợng dựa trên key frame k-i thay vì xuất phát từ key frame k.
Quá trình nội suy khung kết hợp ƣớc lƣợng chuyển động trƣớc và sau sẽ thực hiện các quá trình tƣơng tự nhƣ đã đƣợc mô tả ở trên (hình 2.2). Sau đó, hai kết quả khung nội suy sẽ đƣợc kết hợp bằng cách tính trung bình cộng để có đƣợc khung nội suy cuối cùng. Lọc thông thấp Ƣớc lƣợng chuyển động trƣớc Lọc thông thấp Ƣớc lƣợng chuyển động hai chiều Làm mịn chuyển động Bù chuyển động hai chiều Key frame trƣớc Key frame kế tiếp Khung đƣợc nội suy Các vectơ chuyển động Lọc thông thấp Ƣớc lƣợng chuyển động sau Lọc thông thấp Ƣớc lƣợng chuyển động hai chiều Làm mịn chuyển động Bù chuyển động hai chiều Key frame trƣớc Key frame kế tiếp Khung đƣợc nội suy Các vectơ chuyển động Kết hợp Khung đƣợc nội suy
2.3. Ứng dụng DVC trong việc tiết kiệm năng lƣợng cho cảm biến
Một mạng cảm biến không dây bao gồm số lƣợng lớn các nút đƣợc triển khai dầy đặc bên trong hoặc ở rất gần đối tƣợng cần thăm dò, thu thập thông tin dữ liệu. Vị trí các cảm biến không cần định trƣớc vì vậy nó cho phép triển khai ngẫu nhiên trong các vùng không thể tiếp cận hoặc các khu vực nguy hiểm. Khả năng tự tổ chức mạng và cộng tác làm việc của các cảm biến không dây là những đặc trƣng rất cơ bản của mạng này. Với số lƣợng lớn các cảm biến không dây đƣợc triển khai gần nhau thì truyền thông đa liên kết đƣợc lựa chọn để công suất tiêu thụ là nhỏ nhất (so với truyền thông đơn liên kết) và mang lại hiệu quả truyền tín hiệu tốt hơn so với truyền khoảng cách xa.
Mạng cảm biến hình ảnh không dây đƣợc triển khai để giám sát các khu vực địa lý từ xa. Để tiết kiệm năng lƣợng trong việc truyền và nhận bit qua mạng cảm biến, nội dung hình ảnh và video đƣợc ghi lại cần đƣợc mã hóa trƣớc khi truyền đến trạm gốc. Tuy nhiên, mã hóa video là một hoạt động phức tạp vốn có thể gây ra sự hao hụt năng lƣợng lớn tại các cảm biến bị hạn chế về dung lƣợng pin. Do đó, cần có đánh giá các tùy chọn mã hóa video khác nhau để cho phép thiết kế và lựa chọn kỹ thuật nén tiết kiệm năng lƣợng nhất cho đối với mạng cảm biến hình ảnh không dây.
Mô hình mã hóa video dự đoán và phân tán đƣợc thực nghiệm và đánh giá hiệu quả năng lƣợng nhằm chọn ra mô hình mã hóa nào phù hợp nhất để triển khai trên các thiết bị cảm biến thực tế. Đối với mã hóa video dự đoán, kết quả cho thấy mặc dù hiệu quả nén cao hơn, tuy nhiên, mã hóa liên khung luôn khiến cạn kiệt năng lƣợng hơn nhiều so với mã hóa trong khung. Chính vì vậy, nén hình ảnh dựa trên mã hóa trong khung đƣợc sử dụng để cải thiện hiệu quả năng lƣợng trong mô hình mã hóa video dự đoán. Đối với mã hóa video phân tán, kết quả của cho thấy rằng bộ mã hóa Wyner-Ziv có hiệu suất năng lƣợng tốt hơn so với bộ mã hóa PRISM.
Dựa trên kết quả thực nghiệm nhóm nghiên cứu tại trƣờng National University of Sciences and Technology, đối với mô hình mã hóa video dự đoán (PVC), kết quả thử nghiệm cho thấy rằng mã hóa liên ảnh luôn tiêu thụ năng lƣợng cao hơn nhiều (trung bình 817,40mJ/khung hình) so với mã hóa trong ảnh (61,18mJ/khung hình)[14].
Chính vì vậy, mã hóa trong khung luôn đƣợc lựa chọn để mã hóa khung chính trong mô hình mã hóa phân tán. Đối với mô hình mã hóa video phân tán thực tế, mức tiêu thụ năng lƣợng để mã hóa cho khung chính thậm chí thấp hơn nữa theo thực nghiệm của nhóm tác giả.
Nhóm tác giả đã sử dụng 3 chuỗi video là mobile, carphone và foreman với độ phân giải QCIF (176 x 144). Tại đây, nhóm tác giả đã so sánh các mức tiêu thụ năng lƣợng khi mã hóa khung chính đối với các chuỗi video với GOP là 2, 4 và 8, kết quả cho thấy mức tiêu thụ năng lƣợng đều giảm hơn đáng kể nếu số lƣợng GOP tăng lên đối với từng chuỗi video.
Bảng 2.1: Các mức tiêu thụ năng lượng trong mã hóa dự đoán và phân tán
Chuỗi video Mã hóa liên khung
Mã hóa trong khung
Mã hóa khung chính
GOP = 2 GOP = 4 GOP =8 Mobile 825.20 mJ 67.58 mJ 42.83 mJ 25.54 mJ 18.91 mJ Carphone 812.44 mJ 57.70 mJ 35.40 mJ 21.51 mJ 16.18 mJ Foreman 814.55 mJ 58.26 mJ 36.10 mJ 22.97 mJ 17.55 mJ
Đối với mô hình mã hóa dự đoán, kết quả đã chỉ ra rằng mã hóa liên khung luôn tiêu thụ một lƣợng lớn năng lƣợng so với mã hóa trong khung, và do đó không phải là một lựa chọn phù hợp để mã hóa video sử dụng các cảm biến cần yêu cầu tiêu thụ lƣợng thấp. Đối với mô hình DVC, năng lƣợng tiêu thụ để mã hóa khung chính sử dụng mã hóa trong khung đều đạt mức năng lƣợng thấp hơn đáng kể và phù hợp với yêu cầu của mạng cảm biến hình ảnh không dây.
2.4. Kết luận chƣơng
Chƣơng II mô tả kiến trúc mã hóa video phân tán thế hệ mới, đƣợc xây dựng trên nền tảng bộ mã hóa chuẩn HEVC. Tƣơng tự nhƣ các kiến trúc mã hóa video thế hệ cũ, với kiến trúc DVC-HEVC, video đầu vào đƣợc phân tách thành 2 nhóm bao gồm khung chính và khung WZ. Trong khi các khung chính đƣợc mã hóa với chuẩn
HEVC cấu hình Intra, các khung WZ đƣợc mã hóa phân tán gồm các bƣớc phân loại khung, biến đổi không gian, lƣợng tử hóa và mã hóa LDPC.
Tạo thông tin phụ là một trong các kỹ thuật then chốt của mã háo video phân tán, thông tin phụ chính xác hơn đồng nghĩa là ít lỗi hơn và do đó bộ giải mã cần yêu cầu ít bit chẵn lẻ hơn từ bộ mã hóa và từ đó số lƣợng bit cần truyền đƣợc giảm. Chính vì vậy, chƣơng II đã mô tả về quá trình tạo thông tin phụ dựa trên kỹ thuật nội suy khung gồm các bƣớc ƣớc lƣợng chuyển động trƣớc, ƣớc lƣợng chuyển động hai chiều, làm mịn chuyển động và bù chuyển động hai chiều. Một cải tiến nhỏ đƣợc đề cập đến trong quá trình nội suy khung đó là chúng ta có thể kết hợp thêm một bộ ƣớc lƣợng chuyển động sau cùng với ƣớc lƣợng chuyển động trƣớc, các bƣớc sau đó đƣợc thực hiện đều tƣơng tự nhau, từ đó khung nội suy cuối cùng có đƣợc bằng cách lấy trung bình cộng của hai khung nội suy từ hai quá trình trên. Đây là một cải tiến nhỏ nhằm có thể thu đƣợc khung nội suy với độ chính xác tốt hơn.
Chƣơng II cũng đã đề cập đến một trong những ứng dụng của mạng cảm biến hình ảnh không dây trong việc giúp các cảm biến có thể tiết kiệm năng lƣợng hơn nhờ giảm thiểu mức độ phức tạp tại phía mã hóa. Bằng việc đƣa ra các thông số thực nghiệm về tiêu thụ năng lƣợng đối với mã hóa liên khung và mã hóa trong khung cũng nhƣ của mô hình mã hóa phân tán và mã hóa dự đoán, chúng ta có thể thấy đƣợc lợi ích của mô hình mã hóa phân tán nói chung và mô hình mã hóa video phân tán nói riêng trong việc giảm thiểu mức độ tiêu thụ năng lƣợng, một trong những yêu cầu bắt buộc đối với các mạng cảm biến.
CHƢƠNG III. MÔ PHỎNG VÀ ĐÁNH GIÁ
Chƣơng này sẽ đƣa ra các kịch bản mô phỏng và đánh giá tính hiệu quả của mô hình mã hóa video phân tấn thế hệ mới, DVC-HEVC. Do thông tin phụ là một thành phần quan trọng và nằm trong mô hình DVC-HEVC, hiệu quả tạo thông tin phụ sẽ đƣợc đánh giá gián tiếp thông qua các phép đo hiệu năng mã hóa và chất lƣợng giải mã của DVC-HEVC khi so sánh với các chuẩn tƣơng ứng. Chƣơng này bắt đầu bằng mục mô tả điều kiện đánh giá, tiếp theo là mục đánh giá chất lƣợng các khung chính đƣợc ra với chuẩn HEVC, cuối cùng là kết quả đo lƣợng hiệu năng nén và chất lƣợng giải mã của bộ mã hóa DVC-HEVC.
3.1. Điều kiện đánh giá
Để đánh giá sự hiệu quả của thông tin phụ SI đƣợc tạo ra bởi các kỹ thuật mã hóa Intra cho khung chính, chúng tôi đã tiến hành nhiều thực nghiệm với nhiều chuỗi video với các chuẩn mã hóa Intra khác nhau: H.264/AVC và H.265/HEVC. Trong đó, 04 chuỗi video theo chuẩn QCIF đƣợc chọn bao gồm: Soccer, Foreman, Coastguard,
và Hall Monitor dùng để khảo sát hiệu năng của các bộ mã hóa khung chính, mã hóa khung WZ, và từ đó là hiệu năng chung của toàn hệ mã hóa DVC. Trong luận văn, hiệu năng mã hóa đƣợc đánh giá sử dụng PSNR là hàm đo chất lƣợng video thu đƣợc sau khi giải mã khung chính và khung WZ tƣơng ứng với tốc độ Bitrate của mỗi khung video.
Kích thƣớc của mỗi GOP đƣợc cấu hình trong các phép thử nghiệm là 2 tƣơng ứng với trƣờng hợp có: 1 khung chính và 1 khung WZ trong mỗi GOP. Đây là cấu hình thông dụng hay đƣợc dùng khi mã hóa DVC. Đồng thời với cấu hình này, chất lƣợng mã hóa của các khung chính dựa vào kỹ thuật mã hóa Intra có ảnh hƣởng rất lớn tới chất lƣợng và độ tin cậy của thông tin phụ SI đƣợc tạo ra, từ đó ảnh hƣởng trực tiếp đến hiệu năng mã hóa tổng cộng của bộ mã hóa DVC.
Với các mô hình mã hóa video theo phƣơng pháp phân tán, ứng dụng thƣờng là trong các hệ thống cảm biến không dây; do vậy, kích thƣớc khung hình thƣờng nhỏ. Trên cơ sở đó, các chuỗi video đƣợc lựa chọn bao gồm 04 chuỗi video đã đƣợc sử dụng phổ biến khi đánh giá hiệu năng mã hóa DVC trƣớc kia, bao gồm: Foreman, Hall monitor, Coastguard và Soccer. Các chuỗi này đƣợc tải về từ [http://trace.eas.asu.edu/yuv/].
Các thông số nhƣ kích thƣớc, tốc độ khung hình, số khung hình,… đƣợc sử dụng trong các đánh giá đƣợc mô tả chi tiết ở bảng 3.1 trong khi hình ảnh đầu tiên của các chuỗi video này đƣợc hiển thị ở hình 3.1.
Bảng 3.1: Bảng mô tả tóm tắt các thông số sử dụng đánh giá
Tên chuỗi video Foreman Hall Monitor Coastguard Soccer
Số khung hình 299 299 299 299
Kích cỡ QCIF (176 × 144)
Tốc độ khung hình 15 Hz
Kích cỡ nhóm ảnh 2 (Key – WZ – Key)
Tham số lƣợng tử QM1, QM3, QM5, QM7
Hình 3.1: Mô tả khung hình đầu tiên của 4 chuỗi video
Với bộ mã hóa DVC, bảng giá trị ma trận lƣợng tử (QM) đƣợc sử dụng nhƣ trong bài báo [9], trong khi các giá trị lƣợng tử tƣơng ứng đƣợc sử dụng trong bộ mã hóa chuẩn HEVC đƣợc sử dụng tƣơng ứng nhƣ bảng 3.2.
Bảng 3.2: Giá trị lượng tử cho khung chính tại GOP=2, QCIF 15Hz
Sequences QM1 QM3 QM5 QM7
Foreman 40 38 34 29
Hall Monitor 37 36 33 29
Coastguard 38 37 30 30
Soccer 44 41 36 31
Các bộ mã hóa tham chiếu:
- H.264/AVC Intra: H.264/AVC Intra là mô hình mã hóa theo chuẩn H.264/AVC [8] có độ phức tạp thấp, cho phép khai thác tính tƣơng quan về mặt không gian trong các khung hình video. Do vậy, hiệu năng mã hóa có thế thấp hơn so với việc khai thác tính tƣơng quan về mặt thời gian nhƣ trong mô hình H.264/AVC Inter. Tuy nhiên, với ƣu điểm là độ phức tạp thấp, mô hình H.264/AVC Intra thƣờng đƣợc sử dụng trong các mạng cảm biến không dây [13]. Đây cũng là mô hình mã hóa đƣợc dùng phổ biến trong việc đánh giá hiệu năng mã hóa DVC trƣớc đây.
- HEVC Intra:HEVC là mô hình mã hóa video mới nhất hiện này, cấu hình Intra cho phép mã hóa hiệu quả các video nhƣng với yêu cầu thời gian mã hóa thấp. Do vậy, đây chính là mô hình mã hóa tham chiếu chính với mô hình mã hóa đƣợc nghiên cứu và đề xuất trong luận văn này. Chƣơng II đã mô tả mô hình mã hóa HEVC và đặc biệt là cấu hình mã hóa toàn Intra.
- DVC-AVC: Đây là bộ mã hóa video phân tán thế hệ cũ, sử dụng chuẩn H.264/AVC Intra để mã hóa và giải mã hóa các key frames. Đây cũng là một tham chiếu cơ bản để đánh giá hiệu năng mã hóa cho mô hình mã hóa video đề xuất. Bộ mã hóa video DVC-AVC sử dụng để đánh giá trong luận văn này đƣợc
- DVC-HEVC:Đây là bộ mã hóa video phân tán thế hệ mới, đƣợc nghiên cứu và đƣa ra các giải pháp tạo thông tin phụ trong luân văn này. Bộ mã hóa này sử dụng chuẩn HEVC để mã hóa và giải mã hóa các khung chính. Đồng thời, để nâng cao hiệu năng mã hóa, chúng tôi đề xuất thêm phƣơng pháp tạo khung hình phụ, kết hợp hiệu quả các mô hình ƣớc lƣợng chuyển động từ cả hai chiều nhƣ mô tả ở chƣơng II.
3.2. Đánh giá chất lƣợng key frames
Việc mã hóa và giải mã hóa các khung chính có vai trò quan trọng, ảnh hƣởng trực tiếp tới việc mã hóa các khung hình WZ sau này. Trên cơ sở đó, chƣơng này sẽ đánh giá chất lƣợng giải mã khung chính với hai chuẩn mã hóa video phổ biến là chuẩn H.264/AVC [8] và chuẩn HEVC.
Phƣơng pháp đánh giá bao gồm cả đánh giá chủ quan và khách quan. Trong đó, đánh giá chủ quan sẽ dựa vào cảm nhận của mắt ngƣời khi xem xét các khung hình sau