5. Cấu trúc luận văn
2.2. Tạo thông tin phụ
Với mục đích cải thiện chất lƣợng thông tin phụ (SI), nhiều tài liệu đã đƣợc giới thiệu [10-12]. Hầu hết trong số đó tập trung vào phƣơng pháp nội suy thay vì phƣơng pháp ngoại suy. Tạo thông tin phụ đƣợc giới thiệu lần đầu tiên với bốn bƣớc bao gồm ƣớc lƣợng chuyển động trƣớc, ƣớc lƣợng chuyển động hai chiều, lọc trung bình vectơ có trọng số và bù chuyển động khối không chồng chéo. Tuy nhiên, do không có khung gốc ở bộ giải mã, các vectơ chuyển động đƣợc tạo ra bằng số dƣ tối thiểu giữa hai khung chính đƣợc giải mã là không chính xác, thông tin phụ có chất lƣợng thấp đƣợc tạo ra dẫn đến hiệu quả mã hóa thấp trong mã hóa video phân tán. Để giải quyết vấn đề này, một phƣơng pháp sàng lọc bù chuyển động đƣợc đề xuất bằng cách tìm các vectơ chuyển động không chính xác và tinh chỉnh các khối bù sai này bằng cách chọn một trong các chế độ (bù chuyển động trƣớc, bù chuyển động sau, bù chuyển động hai chiều)
Thông tin phụ cho mã hóa video phân tán có thể đƣợc tạo bằng một số phƣơng pháp, chẳng hạn nhƣ: ngoại suy khung trong đó khung kế tiếp đƣợc ƣớc tính dựa trên các khung tham chiếu trƣớc đó hoặc nội suy khung trong đó khung đƣợc ƣớc tính dựa trên các khung lân cận sử dụng cả tham chiếu trong quá khứ và tƣơng lai của các khung đƣợc giải mã. Kỹ thuật nội suy khung đƣợc gọi là MCTI (Motion Compensation Temporal Interpolation - Nội suy tạm thời bù chuyển động). Thông tin phụ chính xác hơn thông qua nội suy khung đồng nghĩa là ít lỗi hơn và do đó bộ giải mã cần yêu cầu ít bit chẵn lẻ hơn từ bộ mã hóa và từ đó số lƣợng bit cần truyền đƣợc giảm. Nhƣ đã đề cập ở trên, phía giải mã sẽ cố gắng dự đoán khung WZ dựa trên các khung chính.
Kỹ thuật nội suy khung đơn giản nhất có thể đƣợc sử dụng là cố gắng tạo ra Y (dựa đoán của khung WZ) bằng khung chính, tức là từ khung liền kề trƣớc đó hoặc có thể thực hiện phép nội suy giữa các khung chính k-i và k. Tuy nhiên, nếu các kỹ thuật này đƣợc sử dụng để tạo thông tin phụ trong các chuỗi video chuyển động trung bình hoặc cao, Y sẽ chỉ là ƣớc lƣợng thô của X (khung WZ) do độ tƣơng quan giữa hai
28
khung liền kề theo thời gian sẽ khá thấp. Trong trƣờng hợp này, phía giải mã sẽ yêu cầu nhiều bit chẵn lẻ hơn từ phía mã hóa để so sánh và tìm Y để ƣớc lƣợng gần hơn với X, do vậy tốc độ bit sẽ tăng cùng PSNR.
Để nội suy khung, chúng ta cần tìm ƣớc lƣợng của khung hiện tại theo hƣớng ƣớc lƣợng chuyển động thực và dựa vào đó để thực hiện bù chuyển động giữa các khung liền kề theo thời gian, nội suy bù chuyển động dựa trên các khối đƣợc áp dụng do độ phức tạp thấp cũng nhƣ tƣơng thích với hầu hết các chuẩn nén video.
Hình 2.2: Quá trình nội suy khung
Ước lượng chuyển động trước
Trƣớc hết, cả hai khung chính đều đƣợc lọc thông thấp để cải thiện độ tin cậy của các vectơ chuyển động; điều này sẽ giúp việc ƣớc lƣợng các vectơ chuyển động gần hơn với trƣờng chuyển động thực. Sau đó, một thuật toán giúp so khối đƣợc sử dụng để ƣớc lƣợng chuyển động giữa khung chính kế tiếp và trƣớc đó. Các tham số đặc trƣng cho kỹ thuật ƣớc lƣợng chuyển động này là kích thƣớc cửa sổ tìm kiếm, phạm vi tìm kiếm và kích thƣớc bƣớc. Kích thƣớc bƣớc là khoảng cách giữa các pixel trong khung chính trƣớc mà vectơ chuyển động đƣợc tìm kiếm và cho phép giảm độ phức tạp tính toán của sơ đồ. Tuy nhiên, sơ đồ ƣớc lƣợng chuyển động dựa trên khối cố định này không thể nắm bắt tất cả các khía cạnh của trƣờng chuyển động và nếu nội suy khung đƣợc thực hiện, các vùng chồng chéo sẽ xuất hiện. Điều này là do các vectơ chuyển động thu đƣợc không nhất thiết phải cắt khung nội suy ở trung tâm của mỗi khối không bị chồng chéo trong khung đƣợc nội suy.
Lọc thông thấp Ƣớc lƣợng chuyển động trƣớc Lọc thông thấp Ƣớc lƣợng chuyển động hai chiều Làm mịn chuyển động Bù chuyển động hai chiều Key frame trƣớc Key frame kế tiếp Khung đƣợc nội suy Các vectơ chuyển động
29
Các vectơ chuyển động thu đƣợc đóng vai trò là các vectơ ứng viên cho mỗi khối không bị chồng chéo trong khung nội suy, từ các vectơ ứng viên có sẵn, vectơ chuyển động nào mà cắt khung nội suy ở gần trung tâm của khối hơn sẽ đƣợc lựa chọn. Nhƣ vậy, mỗi khối trong hình ảnh đƣợc nội suy có một vectơ chuyển động và có thể thực hiện bù chuyển động hai chiều để thu đƣợc khung nội suy hoặc xử lý thêm trong các khối tiếp theo.
Ước lượng chuyển động hai chiều với quỹ đạo tuyến tính
Khối ƣớc lƣợng chuyển động hai chiều sẽ tinh chỉnh các vectơ chuyển động thu đƣợc ở bƣớc trƣớc. Kỹ thuật này chọn một quỹ đạo tuyến tính giữa các khung chính kế tiếp và trƣớc đó đi qua điểm trung tâm của các khối trong khung đƣợc nội suy. Phạm vi tìm kiếm đƣợc giới hạn trong một chuyển vị nhỏ xung quanh vị trí khối ban đầu, các vectơ chuyển động giữa khung nội suy và các khung chính trƣớc đó và kế tiếp là đối xứng nhau, tức là x y1, 1 x yi, i MV B i và x y2, 2 x yi, i MV B i , trong đó x y1, 1 là tọa độ của khối trong khung chính trƣớc đó, x y2, 2 là tọa độ của khối trong khung kế tiếp và MV B i đại diện cho vectơ chuyển động thu đƣợc trong phần trƣớc chia cho một nửa, vì khung nội suy có khoảng cách tƣơng đƣơng với cả hai khung chính.
30
Hình 2.3: Lựa chọn vectơ chuyển động
Hình 2.4: Ước lượng chuyển động hai chiều
Khung k Khung k-i Khung đƣợc nội suy MV ứng viên MV đƣợc lựa chọn (xi,yi) (xj,yj) (xi,yi) (x1,y1) (x2,y2) Khung k Khung k-i MV đƣợc chọn MV ứng viên trong một phạm vi tìm kiếm Khung đƣợc nội suy
31 Làm mịn chuyển động không gian
Sau khi ƣớc lƣợng chuyển động hai chiều sẽ có thể xuất hiện các vectơ chuyển động không chính xác khi so với trƣờng chuyển động thực, điều này có thể đƣợc cải thiện bằng thuật toán làm mịn chuyển động không gian. Lọc trung bình vectơ có trọng số đƣợc sử dụng để loại bỏ nhiễu trong ảnh do tất cả các thành phần trong ảnh nhiễu sẽ đƣợc xem xét đến. Bộ lọc trung bình vectơ có trọng số sẽ tìm kiếm các vectơ chuyển động ứng viên tại mỗi khối cũng nhƣ đối với các khối lân cận để duy trì sự kết hợp không gian của các vectơ này trong trƣờng chuyển động.
Bộ lọc này đƣợc điều chỉnh bằng một tập các trọng số điều khiển bộ lọc làm mịn tùy thuộc vào lỗi dự đoán MSE của khối đối với mỗi vectơ ứng viên. Bộ lọc vectơ trung bình có trọng số đƣợc định nghĩa nhƣ trong [13]
1 1|| || || || || || || || j wvmf j L j N L j i j j N w x x w x x (5) Trong đó:
- x1,….,xN là các vectơ chuyển động của khối hiện tại trong khung đƣợc nội suy trƣớc đó và các khối lân cận gần nhất.
- w1,….wN tƣơng ứng với một tập các trọng số biến đổi thích ứng. - xwvmf đại diện cho đầu ra vectơ chuyển động của bộ lọc.
Việc lựa chọn trọng số đƣợc thực hiện theo lỗi dự đoán đƣợc xác định nhƣ sau:
c j j MSE x B MSE x B w ( , ) ( , ) (6) Trong đó:
- xc đại diện cho vectơ ứng viên của khối đƣợc làm mịn B
MSE biểu thị sự so khớp giữa khối B hiện tại trong khung chính kế tiếp và khối trong khung chính trƣớc đó đƣợc bù chuyển động bằng vectơ xc và xj.
32 Bù chuyển động
Sau khi thu đƣợc trƣờng vectơ chuyển động cuối cùng, khung nội suy có thể đƣợc hình thành bằng cách sử dụng bù chuyển động hai chiều và đã đƣợc định nghĩa trong các sơ đồ mã hóa video tiêu chuẩn.
Cải tiến quá trình nội suy
Hình 2.5: Quá trình nội suy khung kết hợp ước lượng chuyển động trước và sau
Sơ đồ trên mô tả một hƣớng mở rộng mới cho quá trình nội suy khung. Trong khi quá trình nội suy khung nhƣ đã đề cập ở trên (hình 2.2) chỉ sử dụng một khối ƣớc lƣợng chuyển động trƣớc, quá trình nội suy khung ở hình 2.5 kết hợp thêm một ƣớc lƣợng chuyển động sau để tạo khung nội suy tốt hơn. Đối với ƣớc lƣợng chuyển động sau, vectơ chuyển động sẽ đƣợc ƣớc lƣợng dựa trên key frame k-i thay vì xuất phát từ key frame k.
Quá trình nội suy khung kết hợp ƣớc lƣợng chuyển động trƣớc và sau sẽ thực hiện các quá trình tƣơng tự nhƣ đã đƣợc mô tả ở trên (hình 2.2). Sau đó, hai kết quả khung nội suy sẽ đƣợc kết hợp bằng cách tính trung bình cộng để có đƣợc khung nội suy cuối cùng. Lọc thông thấp Ƣớc lƣợng chuyển động trƣớc Lọc thông thấp Ƣớc lƣợng chuyển động hai chiều Làm mịn chuyển động Bù chuyển động hai chiều Key frame trƣớc Key frame kế tiếp Khung đƣợc nội suy Các vectơ chuyển động Lọc thông thấp Ƣớc lƣợng chuyển động sau Lọc thông thấp Ƣớc lƣợng chuyển động hai chiều Làm mịn chuyển động Bù chuyển động hai chiều Key frame trƣớc Key frame kế tiếp Khung đƣợc nội suy Các vectơ chuyển động Kết hợp Khung đƣợc nội suy
33
2.3. Ứng dụng DVC trong việc tiết kiệm năng lƣợng cho cảm biến
Một mạng cảm biến không dây bao gồm số lƣợng lớn các nút đƣợc triển khai dầy đặc bên trong hoặc ở rất gần đối tƣợng cần thăm dò, thu thập thông tin dữ liệu. Vị trí các cảm biến không cần định trƣớc vì vậy nó cho phép triển khai ngẫu nhiên trong các vùng không thể tiếp cận hoặc các khu vực nguy hiểm. Khả năng tự tổ chức mạng và cộng tác làm việc của các cảm biến không dây là những đặc trƣng rất cơ bản của mạng này. Với số lƣợng lớn các cảm biến không dây đƣợc triển khai gần nhau thì truyền thông đa liên kết đƣợc lựa chọn để công suất tiêu thụ là nhỏ nhất (so với truyền thông đơn liên kết) và mang lại hiệu quả truyền tín hiệu tốt hơn so với truyền khoảng cách xa.
Mạng cảm biến hình ảnh không dây đƣợc triển khai để giám sát các khu vực địa lý từ xa. Để tiết kiệm năng lƣợng trong việc truyền và nhận bit qua mạng cảm biến, nội dung hình ảnh và video đƣợc ghi lại cần đƣợc mã hóa trƣớc khi truyền đến trạm gốc. Tuy nhiên, mã hóa video là một hoạt động phức tạp vốn có thể gây ra sự hao hụt năng lƣợng lớn tại các cảm biến bị hạn chế về dung lƣợng pin. Do đó, cần có đánh giá các tùy chọn mã hóa video khác nhau để cho phép thiết kế và lựa chọn kỹ thuật nén tiết kiệm năng lƣợng nhất cho đối với mạng cảm biến hình ảnh không dây.
Mô hình mã hóa video dự đoán và phân tán đƣợc thực nghiệm và đánh giá hiệu quả năng lƣợng nhằm chọn ra mô hình mã hóa nào phù hợp nhất để triển khai trên các thiết bị cảm biến thực tế. Đối với mã hóa video dự đoán, kết quả cho thấy mặc dù hiệu quả nén cao hơn, tuy nhiên, mã hóa liên khung luôn khiến cạn kiệt năng lƣợng hơn nhiều so với mã hóa trong khung. Chính vì vậy, nén hình ảnh dựa trên mã hóa trong khung đƣợc sử dụng để cải thiện hiệu quả năng lƣợng trong mô hình mã hóa video dự đoán. Đối với mã hóa video phân tán, kết quả của cho thấy rằng bộ mã hóa Wyner-Ziv có hiệu suất năng lƣợng tốt hơn so với bộ mã hóa PRISM.
Dựa trên kết quả thực nghiệm nhóm nghiên cứu tại trƣờng National University of Sciences and Technology, đối với mô hình mã hóa video dự đoán (PVC), kết quả thử nghiệm cho thấy rằng mã hóa liên ảnh luôn tiêu thụ năng lƣợng cao hơn nhiều (trung bình 817,40mJ/khung hình) so với mã hóa trong ảnh (61,18mJ/khung hình)[14].
34
Chính vì vậy, mã hóa trong khung luôn đƣợc lựa chọn để mã hóa khung chính trong mô hình mã hóa phân tán. Đối với mô hình mã hóa video phân tán thực tế, mức tiêu thụ năng lƣợng để mã hóa cho khung chính thậm chí thấp hơn nữa theo thực nghiệm của nhóm tác giả.
Nhóm tác giả đã sử dụng 3 chuỗi video là mobile, carphone và foreman với độ phân giải QCIF (176 x 144). Tại đây, nhóm tác giả đã so sánh các mức tiêu thụ năng lƣợng khi mã hóa khung chính đối với các chuỗi video với GOP là 2, 4 và 8, kết quả cho thấy mức tiêu thụ năng lƣợng đều giảm hơn đáng kể nếu số lƣợng GOP tăng lên đối với từng chuỗi video.
Bảng 2.1: Các mức tiêu thụ năng lượng trong mã hóa dự đoán và phân tán
Chuỗi video Mã hóa liên khung
Mã hóa trong khung
Mã hóa khung chính
GOP = 2 GOP = 4 GOP =8 Mobile 825.20 mJ 67.58 mJ 42.83 mJ 25.54 mJ 18.91 mJ Carphone 812.44 mJ 57.70 mJ 35.40 mJ 21.51 mJ 16.18 mJ Foreman 814.55 mJ 58.26 mJ 36.10 mJ 22.97 mJ 17.55 mJ
Đối với mô hình mã hóa dự đoán, kết quả đã chỉ ra rằng mã hóa liên khung luôn tiêu thụ một lƣợng lớn năng lƣợng so với mã hóa trong khung, và do đó không phải là một lựa chọn phù hợp để mã hóa video sử dụng các cảm biến cần yêu cầu tiêu thụ lƣợng thấp. Đối với mô hình DVC, năng lƣợng tiêu thụ để mã hóa khung chính sử dụng mã hóa trong khung đều đạt mức năng lƣợng thấp hơn đáng kể và phù hợp với yêu cầu của mạng cảm biến hình ảnh không dây.
2.4. Kết luận chƣơng
Chƣơng II mô tả kiến trúc mã hóa video phân tán thế hệ mới, đƣợc xây dựng trên nền tảng bộ mã hóa chuẩn HEVC. Tƣơng tự nhƣ các kiến trúc mã hóa video thế hệ cũ, với kiến trúc DVC-HEVC, video đầu vào đƣợc phân tách thành 2 nhóm bao gồm khung chính và khung WZ. Trong khi các khung chính đƣợc mã hóa với chuẩn
35
HEVC cấu hình Intra, các khung WZ đƣợc mã hóa phân tán gồm các bƣớc phân loại khung, biến đổi không gian, lƣợng tử hóa và mã hóa LDPC.
Tạo thông tin phụ là một trong các kỹ thuật then chốt của mã háo video phân tán, thông tin phụ chính xác hơn đồng nghĩa là ít lỗi hơn và do đó bộ giải mã cần yêu cầu ít bit chẵn lẻ hơn từ bộ mã hóa và từ đó số lƣợng bit cần truyền đƣợc giảm. Chính vì vậy, chƣơng II đã mô tả về quá trình tạo thông tin phụ dựa trên kỹ thuật nội suy khung gồm các bƣớc ƣớc lƣợng chuyển động trƣớc, ƣớc lƣợng chuyển động hai chiều, làm mịn chuyển động và bù chuyển động hai chiều. Một cải tiến nhỏ đƣợc đề cập đến trong quá trình nội suy khung đó là chúng ta có thể kết hợp thêm một bộ ƣớc lƣợng chuyển động sau cùng với ƣớc lƣợng chuyển động trƣớc, các bƣớc sau đó đƣợc thực hiện đều tƣơng tự nhau, từ đó khung nội suy cuối cùng có đƣợc bằng cách lấy trung bình cộng của hai khung nội suy từ hai quá trình trên. Đây là một cải tiến nhỏ nhằm có thể thu đƣợc khung nội suy với độ chính xác tốt hơn.
Chƣơng II cũng đã đề cập đến một trong những ứng dụng của mạng cảm biến hình ảnh không dây trong việc giúp các cảm biến có thể tiết kiệm năng lƣợng hơn nhờ giảm thiểu mức độ phức tạp tại phía mã hóa. Bằng việc đƣa ra các thông số thực nghiệm về tiêu thụ năng lƣợng đối với mã hóa liên khung và mã hóa trong khung cũng nhƣ của mô hình mã hóa phân tán và mã hóa dự đoán, chúng ta có thể thấy đƣợc lợi