1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Khảo sát ảnh hưởng và lựa chọn tham số lượng tử tối ưu cho mô hình mã hóa VCM

6 4 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 883,3 KB

Nội dung

Bài viết Khảo sát ảnh hưởng và lựa chọn tham số lượng tử tối ưu cho mô hình mã hóa VCM trình bày hai nội dung quan trọng: i) phân tích và đánh giá ảnh hưởng của các tham số lượng tử tới hiệu năng mã hóa VCM và ii) đề xuất một mô hình ước lượng các tham số lượng tử cho VCM để đạt được hiệu quả học máy cao nhất nhưng đòi hỏi dung lượng thông tin video là ít nhất. Kết quả nghiên cứu được đánh giá trên nền tảng chuẩn mã hóa High Efficiency Video Coding (HEVC) và ứng dụng phát hiện đối tượng trong video. Mời các bạn cùng tham khảo!

Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Khảo sát ảnh hưởng lựa chọn tham số lượng tử tối ưu cho mơ hình mã hóa VCM Võ Gia Khánh, Lê Minh Hoàng, Nguyễn Việt Hà, Hoàng Văn Xiêm Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội vogiakhanhbk2000@gmail.com, lhoang17062000@gmail.com, hanv@vnu.edu.vn, xiemhoang@vnu.edu.vn Tóm tắt: Ngày nay, ứng dụng học máy thị giác máy tính tảng liệu video ngày khai thác rộng rãi Các toán nhận dạng đối tượng, phân loại phân tách đối tượng video sử dụng hầu hết lĩnh vực từ dân dụng, y tế tới quốc phòng, an ninh Một thách thức với ứng dụng hiệu mã hóa (nén) video cho mục đích máy học (Video coding for machine – VCM) cịn chưa chuẩn hóa nghiên cứu đầy đủ Đặc biệt, đặc tính thị giác người thị giác máy khác nhau, ảnh hưởng mức độ nén (điều chỉnh qua thông số lượng tử mã hóa) khác Để hiểu rõ vấn đề này, báo trình bày hai nội dung quan trọng: i) phân tích đánh giá ảnh hưởng tham số lượng tử tới hiệu mã hóa VCM ii) đề xuất mơ hình ước lượng tham số lượng tử cho VCM để đạt hiệu học máy cao đòi hỏi dung lượng thơng tin video Kết nghiên cứu đánh giá tảng chuẩn mã hóa High Efficiency Video Coding (HEVC) ứng dụng phát đối tượng video tâm Ngày nhiều ứng dụng ngành u cầu mã hóa VCM với mục đích để nén hình ảnh, video cho tốn trí tuệ nhân tạo nhận dạng vật thể, phân tích kiện, phân loại hình ảnh Với tốn nhận dạng vật thể, sau liệu qua mã hóa, để trung bình độ xác việc nhận dạng vật thể (mAP) cao, ta cần chọn tham số lượng tử (Quantization parameter - QP) tương ứng với hệ số nén hợp lý số lượng bit pixel (bpp) đủ Tuy nhiên, mAP bị giới hạn mức đủ tăng thêm cho dù tiếp tục tăng bpp Việc đánh giá ảnh hưởng lựa chọn mức QP để tối ưu mức mAP cho toán nhận dạng vật thể vấn đề đề cập báo Trong phần báo, chúng tơi trình bày tổng quan mơ hình mã hóa VCM nghiên cứu liên quan (phần II) Trong phần III, chúng tơi trình bày kết quảkhảo sát ảnh hưởng việc lựa chọn mức tham số lượng tử để tối ưu hiệu cho VCM Phần IV chúng tơi mơ tả đề xuất mơ hình lựa chọn tham số lượng tử Cuối đưa kết luận (Phần V) Từ khóa: Mã hóa video cho máy học (VCM), Chuẩn mã hóa HEVC, tham số lượng tử - QP, Thị giác máy I GIỚI THIỆU II Trong thời đại 4.0 nay, với phát triển mạnh mẽ ứng dụng đa phương tiện, dạng thông tin video cần lưu trữ truyền tải ngày nhiều Do đó, có nhiều mối lo ngại cách quản lý lưu trữ lượng thông tin video khổng lồ Từ đầu kỷ 21 đến nay, ngày nhiều chuẩn mã hóa video H.264/AVC [1], H.265/HEVC [2], tiêu chuẩn mã hóa video âm AVS [3] đời nhằm phục vụ mục đích truyền thơng trải nghiệm người Trong đó, thị giác máy trở thành lĩnh vực nghiên cứu quan tâm đạt tiến rõ rệt thời gian vừa qua Công nghệ thị giác máy ứng dụng toán trí tuệ nhân tạo việc nhận dạng vật thể, nhận dạng khuôn mặt sử dụng công cụ phân tích ảnh y tế thuật toán học sâu Cơ chế hoạt động thị giác máy việc đối chiếu mẫu điểm ảnh (pixel) ảnh, tức quan tâm đến độ xác độ tin cậy hình ảnh Tuy nhiên, chuẩn mã hóa video thời điểm chquan tâm đến chất lượng hình ảnh hay tốc độ khung hình để tối ưu trải nghiệm cho thị giác người [4-6] Việc nghiên cứu phát triển mơ hình mã hóa Video for Machine (VCM) [7] chủ đề quan ISBN 978-604-80-7468-5 TỔNG QUAN VỀ VCM VÀ CÁC NGHIÊN CỨU LIÊN QUAN A Tổng quan VCM Các phương pháp mã hóa video truyền thống mục đích tạo video tốt điều kiện tốn lượng bit đồng thời mang lại hình ảnh tái tạo có chất lượng tốt nhằm phục vụ cho người Tuy nhiên, với gia tăng ứng dụng học máy, phát triển đa dạng loại cảm biến, nhiều tảng thông minh triển khai với yêu cầu liệu lớn, ví dụ: kết nối phương tiện giao thông (connected vehicles), thành phố thông minh mô tả hình Hình 1: Ví dụ giao thơng thông minh 84 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Dựa nhu cầu tiềm đó, nhóm chuyên gia hình ảnh động (MPEG) triển khai nghiên cứu mã hóa video cho mơ hình máy học (VCM) Hình mơ tả ví dụ mã hóa VCM theo đề xuất MPEG Bằng cách nén đặc trưng sau sử dụng đặc trưng giải nén cho mơ hình học máy, phương pháp nén giúp tiết kiệm nhiều lượng bit đảm bảo chất lượng mơ hình học máy Tiêu chí đặt VCM: tối ưu hóa cho mạng nơ ron, nhằm mục đích đạt độ trung thực đặc trưng cao độ trung thực pixel Bài báo [12] tận dụng mơ hình nén mơ hình tổng hợp để đưa khung mã hóa hình ảnh hỗ trợ đồng thời tốn thị giác máy tính nhận thức người [12] đào tạo mạng lưới tái tạo lại hình ảnh cách trung thực từ biểu diễn nhỏ gọn Kết báo thể tính ưu việt phương pháp đề xuất chất lượng ảnh khả phát mốc (đặc trưng) khuôn mặt Bài báo [13] đề xuất mức lượng tử hóa thích ứng tri giác dựa mạng nơ-ron sâu (DNN) sử dụng mã hóa HEVC với mục đích giảm tốc độ bit mà trì chất lượng hình ảnh Thuật tốn sử dụng mơ hình mạng VGG-16 để trích xuất đặc trưng ảnh gốc ảnh tái tạo Trong nghiên cứu [14], tác giả đề xuất khung mã hóa video có cấu trúc ngữ nghĩa (Semantically structured video coding - SSVC) để hỗ trợ toán AI Khung mã hóa SSVC kết hợp với chuỗi bit có cấu trúc ngữ nghĩa (Semantically structured bitstream SSB) có khả hỗ trợ rõ ràng phân tích đa phương tiện thơng minh không đồng mà không cần phải giải nén hoàn toàn Bài báo [15] đưa khung mã hóa hình ảnh khn mặt cách tận dụng mơ hình nén mơ hình tổng qt, để hỗ trợ đồng thời toán thị giác máy nhận thức người Một mạng lưới đào tạo để tái tạo lại hình ảnh cách trung thực từ biểu diễn nhỏ gọn Nghiên cứu [16] sử dụng mơ hình dự đốn mơ hình sinh để cải tiến kỹ thuật nén nâng cao cho thị giác máy thị giác người Cụ thể, [16] sử dụng mạng học sâu để tạo lại khung hình video Bằng cách trích xuất chuyển động lưa thưa mơ hình dự đốn, mạng biểu diễn đặc trưng để tạo khung mã hóa thơng qua mơ hình chung, dựa xuất khung mã hóa • Kích thước bitstream nén VCM phải nhỏ nén phương pháp truyền thống như: VVC, HEVC,… • Sử dụng tính sau nén cho toán AI – Artificial Intelligence là: Nhận diện vật thể (Object Detection), phân đoạn vật thể (segmentation), theo dõi vật thể (object tracking),… • Hiệu suất toán AI phải tốt phương pháp nén truyền thống Hiệu suất đo phương pháp thích hợp với tốn AI Ví dụ như: mAP • Cho phép tái tạo video phục vụ cho người cách bổ sung thêm luồng nén phương pháp truyền thống: VVC, HEVC Hình mơ hình VCM đề xuất nhóm MPEG Mơ hình bao gồm mã hóa/giải mã, video mã hóa cho tối ưu hiệu tốn thị giác máy Hình Hệ thống VCM nhóm MPEG B Các nghiên cứu liên quan Trong nghiên cứu [8], tác giả đề xuất khung mã hóa video mở rộng hỗ trợ thị giác máy tính (cụ thể phát đối tượng), hỗ trợ cho thị giác người luồng bit lớp nâng cao Khung đề xuất bao gồm thành phần từ mã hóa video thông thường kết hợp mạng học sâu Nghiên cứu [9] mơ tả cách tiếp cận mã hóa video thích ứng cho hệ thống thị giác máy tính Nhóm tác giả cách kiểm sốt chất lượng nén video (điều chỉnh tham số lượng tử) để phát đối tượng tự động xử lý video thu được, đồng thời cải thiện hiệu suất phát vật Nghiên cứu [10] đề xuất mơ hình tối ưu hóa mã hóa video mã hóa đặc trưng cho thị giác máy thị giác người Các giải pháp tiềm năng, kết sơ hướng nghiên cứu tương lai VCM đề cập tới Bài báo [11] trình bày phương pháp tối ưu hóa tỉ lệ biến dạng Khung giải mã trả luồng bit ISBN 978-604-80-7468-5 III ĐÁNH GIÁ HIỆU NĂNG HỆ THỐNG Phần nói mơ hình kiểm thử phương pháp đề xuất để lựa chọn tham số lượng tử A Mơ hình đánh giá Mơ hình chúng tơi đưa có kiến trúc sau: Hình Mơ hình đánh giá Video đầu vào đưa vào mã hóa HEVC mức lượng tử khác Sau đó, video giải nén đưa vào toán AI - Artificial Intelligence, chúng tơi sử dụng tốn nhận diện vật thể (object detection) để kiểm thử Phương pháp đo độ xác sử dụng nghiên cứu mAP (mean average precision) 85 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Hình 4: Kết khảo sát mối quan hệ mAP vs bpp Hai thông số dùng để đánh giá độ xác độ xác trung bình (mAP) số lượng bit pixel (bpp) tính theo cơng thức sau: 𝑚𝐴𝑃 = 𝑛 ∑𝑘=𝑛 𝑘=1 𝐴𝑃𝑘 mã hóa tăng gấp đơi so với chuẩn mã hóa H.264 HEVC sử dụng chủ yếu công ty cần streaming nội dung 4K Bài toán nhận diện vật thể Hiện nay, có nhiều tốn địi hỏi ta phải xác định tên vật thể (object classification) tọa độ vật thể ảnh (object localization) kết hợp hai khái niệm ta có tốn object detection Các kiến trúc dùng để giải toán object detection chia làm hai loại one-stage two-stage [17]: • One-stage: Mơ hình đối tượng giai đoạn mơ hình mà bỏ qua bước tìm kiếm vùng (region proposal) Mơ hình tìm kiếm vật cách chạy lần lấy mẫu dày đặc vị trí Vì tốc độ mơ hình cao Ví dụ: SSD, Yolo, … • Two-stage: Mơ hình tìm kiếm đối tượng qua hai bước tìm kiếm vùng có vật sau tìm kiếm vật thể vùng Ví dụ: RCNN, Faster-RCNN, … Ưu điểm mơ hình độ xác cao Nhưng nhược điểm tốc độ không cao mơ hình one-stage Do cần độ xác cao để đánh giá cho toán nhận diện vật thể, chúng tơi chọn mơ hình FasterRCNN cho hệ thống (1) Trong đó: + n số lượng lớp vật thể cần nhận diện + k thứ tự lớp vật thể nhận diện + AP (Average Precision) độ xác trung bình vật thể 𝑏𝑝𝑝 = 𝑏𝑖𝑡𝑟𝑎𝑡𝑒 × 1000 𝑤𝑖𝑑𝑡ℎ × ℎ𝑒𝑖𝑔ℎ𝑡 × 𝑓𝑟𝑎𝑚𝑒_𝑟𝑎𝑡𝑒 (2) Trong đó: + bitrate số lượng bit truyền giây + frame rate số lượng khung hình hiển thị giây Chuẩn mã hóa H.265/HEVC Chuẩn mã hóa H.265 [2] thành nghiên cứu ITU – T VCEG ISO/IEC MPEG công bố vào năm 2013 Đơn vị mã hóa H.265 lựa chọn từ 8×8 pixel tới 64×64 pixel cho macroblock, khác với H.264 cố định với kích thước 16×16 H.265 tiết kiệm khoảng 50% tốc độ bit hiệu ISBN 978-604-80-7468-5 86 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Độ phân giải Class C 832x480 Class D 416x240 Bảng I CHUỖI CÁC VIDEO KIỂM THỬ MƠ HÌNH Chuỗi video Số đoạn video Số khung hình mã hóa RaceHorses 300 BasketballDrill 500 PartyScene 500 BQMall 600 RaceHorses 300 BlowingBubbles 500 BasketballPass 500 BQSquare 600 Tốc độ khung hình 30 50 50 60 30 50 50 60 đề xuất phân chia nội dung video thành nhóm ứng với dải mAP tương ứng hình gồm: • Nhóm (a) (điểm màu xanh dương), đoạn video có mAP khoảng (0.8~1); • Nhóm (b) (điểm màu cam), đoạn video có mAP khoảng (0.6~0.8); • Nhóm (c) (điểm màu xám), đoạn video có mAP khoảng (0.2~0.6) B Kết phân tích Hình mơ tả xu hướng thường gặp khảo sát mối quan hệ mAP bpp cho chuỗi video phổ biến đánh giá chuẩn HEVC [2] Từ hình nhận thấy tồn điểm với mức hệ số lượng tử tiêu tốn lượng bit cho hiệu toán nhận diện vật thể cao Với chuỗi video có độ phân giải cao class B (các chuỗi BasketballDrive, BQTerrace, ParkScene), điểm hội tụ cho kết ấn tượng, độ xác cho toán nhận diện vật thể tốt lượng bit tiêu tốn so với điểm mã hóa với mức hệ số lượng tử thấp Những video có nội dung tương tự BQTerrace BQSquare cho điểm hội tụ sớm, điều tốt tiết kiệm nhiều lượng bit Chuỗi video BasketballPass có độ phân giải thấp nhiều chuyển động cho tốc độ hội tụ chậm Hình mơ tả điểm hội tụ chuỗi video khảo sát Khi giảm mức QP đến mức định mAP khơng tăng mà hội tụ điểm Ở đây, mối quan hệ mAP bpp xác định mơ sau: • Mơ hình power: 𝑚𝐴𝑃 = ì () (3) ã Mụ hỡnh power: = 𝛼 × 𝑏𝑝𝑝2 + 𝛽 × 𝑏𝑝𝑝 + 𝛾 (4) ã Mụ hỡnh power: = ì ln() + 𝛽 (5) • Mơ hình power: 𝑚𝐴𝑃 = 𝛼 × 𝑒 𝑏𝑝𝑝×𝛽 Trong đó, 𝛼, 𝛽, 𝛾 tham số mơ tả mơ hình, tính thơng qua thực nghiệm Các tham số 𝛼, 𝛽, 𝛾 tương ứng mơ hình (3-6) tối ưu hóa cho chuỗi video tập huấn luyện đánh giá lại tập gồm video bảng I Hình Mơ điểm hội tụ chuỗi video IV MƠ HÌNH LỰA CHỌN THAM SỐ LƯỢNG TỬ QP Để lựa chọn mơ hình tốn học phù hợp cho mối quan hệ hiệu học máy (đo lường qua số mAP) hiệu nén (đo lường qua lượng bit cần mã hóa – bpp), chúng tơi thử nghiệm số mơ hình phổ biến hàm power, hàm logrith, hàm mũ, hàm đa thức Các chuỗi video RaceHorses, BasketballPass BlowingBubbles sử dụng để tối ưu tham số mơ hình, đoạn video chuỗi thuộc class C, D mô tả bảng I sử dụng để đánh giá sai số mơ hình đề xuất mAP đo lường lượng bit cần mã hóa (bpp) tính mô tả mục III Do kết mAP tương ứng phụ thuộc vào nội dung video, chúng ISBN 978-604-80-7468-5 (6) Hình Kết phân cụm mã hóa VCM theo mAP 87 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) (a) (b) (c) Hình 7: Kết đánh giá mơ hình tốn học mối quan hệ hiệu học máy (mAP) hiệu mã hóa (bpp) cho chuỗi video huấn luyện (a) BlowingBubbles_416x240_50_2 (b) RaceHorses_416x240_30_0 (c) BasketballPass_416x240_50_3 phát triển để tính tốn hiệu mã hóa video cho ứng dụng học máy Hình thể kết fitting model với liệu đưa Chúng xem xét giá trị 𝑅2 thể phù hợp mơ hình với liệu, R lớn mơ hình tốt Nhìn vào kết ta thấy mơ hình Logarith, 𝑚𝐴𝑃 = 𝛼 × ln(𝑏𝑝𝑝) + 𝛽, cho kết tốt Bảng II trình bày kết đánh giá sai số tương ứng cho mơ hình Trên sở kết khảo sát từ bảng II, mơ hình logarith lựa chọn để mơ tả mối quan hệ mAP bpp Do vậy, giá trị lượng tử phù hợp xác định thơng qua tối ưu giá trị bpp để đạt mAP cao nhất, cụ thể: VI Nghiên cứu tài trợ Quỹ Phát triển khoa học công nghệ Quốc gia (NAFOSTED) đề tài mã số 102.01-2020.15 TÀI LIỆU THAM KHẢO [1] [2] 𝑏𝑝𝑝𝑜𝑝𝑡 ≜ 𝑎𝑟𝑔𝑀𝑎𝑥{𝛼 × ln(𝑏𝑝𝑝) + 𝛽} 𝑏𝑝𝑝𝑜𝑝𝑡 𝑑(𝛼 × ln(𝑏𝑝𝑝) + 𝛽) ≜ =0 𝑑(𝑏𝑝𝑝) (7) [3] (8) [4] Khi đó, áp dụng mơ hình R-Q [18], ta tính QP: 𝑄𝑃 ≜ 𝑓 −1 (𝑏𝑝𝑝𝑜𝑝𝑡 ) [5] (9) Trong hàm 𝑏𝑝𝑝𝑜𝑝𝑡 = 𝑓(𝑄𝑃) ước xác định qua thực nghiệm V [6] KẾT LUẬN Trong báo này, trình bày kết khảo sát ảnh hưởng tham số lượng tử (thể thông qua giá trị bpp) tới hiệu VCM (mAP), từ đề xuất mơ hình lựa chọn tham số lượng tử phù hợp Kết đánh giá mơ hình giúp xác được mơ hình phù hợp Trong tương lai, nghiên cứu ISBN 978-604-80-7468-5 LỜI CÁM ƠN [7] [8] 88 T Wiegand, G J Sullivan, G Bjøntegaard and A Luthra, "Overview of the H.264/AVC video coding standard," IEEE TCSVT, vol 13, pp 560-576, 2003 G J.Sullivan, J.-R Ohm, W.-J Han and T Weigand, "Overview of the High Efficiency Video Coding (HEVC) standard," IEEE TCSVT, Vol 22, no 12, pp 1649-1668, Dec 2012 L Fan, S Ma, F Wu, “Overview of AVS video standard”, 2004 IEEE International Conference on Multimedia and Expo (ICME) (IEEE Cat No.04TH8763), Jun 2004 X HoangVan, L Dao Thi Hue, T Nguyen Canh, “A Trellis based rate allocation and virtual reference frame for High Efficiency Video Coding”, Electronics, Vol 10, No 12, 1384, Dec 2021 X HoangVan, S NguyenQuang, F Pereira, “Versatile video coding based quality scalability with joint layer reference”, IEEE Signal Processing Letters, Vol 27, pp 2079-2083, Nov 2020 X HoangVan, HH Nguyen, “Enhancing quality for VVC compressed videos with multi-frame quality enhancement model”, International Conference on Advanced Technologies for Communications, pp 172-174, Nha Trang, Vietnam, Oct 2020 “Update on Video Coding for Machine – MPEG139”, ISO/IEC JTC 1/SC 29/WG2/N00223, Jul 2022 H Choi, Ivan V Bajic, “Scalable Image Coding for Humans and Machines”, arXiv:2105.12653, May 2021 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) [9] [10] [11] [12] [13] L Galteri, M Bertini, L Seidenari and A Del Bimbo, "Video Compression for Object Detection Algorithms," 2018 24th International Conference on Pattern Recognition (ICPR), 2018, pp 3007-3012, doi: 10.1109/ICPR.2018.8546064 L.-Y Duan, J Liu, W Yang, T Huang, W Gao, "Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics", IEEE Transaction on Image Processing, Vol 29, pp 8680 - 8695, Aug 2020 K Fischer, F Brand, C Herglotz, A Kaup, “Video Coding for Machines with Feature-Based Rate-Distortion Optimization”, 2020 IEEE 22nd International Workshop on Multimedia Signal Processing (MMSP), Sep 2020 Y Hu, S Yang, W Yang, L.-Y Duan, J Liu, “Towards Coding For Human And Machine Vision: A Scalable Image Coding Approach”, 2020 IEEE International Conference on Multimedia and Expo (ICME), Jun 2020 I Marzuki, D Sim, “Perceptual Adaptive Quantization Parameter Selection Using Deep Convolutional Features for [14] [15] [16] [17] [18] HEVC Encoder”, IEEE Access, Vol 8, pp 37052 – 37065, Feb 2022 X Jin, Ruoyu Feng, S Sun, Runsen Feng, T He, Z Chen, “Semantically Video Coding: Instill Static-Dynamic Clues into Structured Bitstream for AI Tasks”, arXiv:2201.10162, 2022 S Yang, Y Hu, W Yang, L.-Y Duan, J Liu, “Towards Coding for Human and Machine Vision: Scalable Face Image Coding”, IEEE Transactions on Multimedia, Vol 23, pp 2957-2971, Mar 2021 S Xia, et al., “An Emerging Coding Paradigm Vcm: A Scalable Coding Approach Beyond Feature And Signal”, 2020 IEEE International Conference on Multimedia and Expo (ICME), Vol 23, pp 2957 – 2971, Mar 2021 L Weng, "Object Detection Part 4: Fast Detection Models," Online Available: https://lilianweng.github.io/lillog/2018/12/27/object-detection-part-4.html, Dec 2018 Z Wu, S Xie, K Zhang, and R Wu, "Rate Control in Video Coding", in Recent Advances on Video Coding London, United Kingdom: IntechOpen, 2011 Bảng II KẾT QUẢ KIỂM THỬ TRƯỜNG HỢP CHO CHUỖI VIDEO ĐƯỢC SỬ DỤNG ĐỂ HUẤN LUYỆN Power Polynomial Logarithmic Explonential Tên chuỗi video model model model model BasketballPass_416x240_50_0 0,120 0,156 0,096 0,185 BlowingBubbles_416x240_50_1 0,233 0,214 0,211 0,249 BlowingBubbles_416x240_50_4 0,105 0,125 0,074 0,161 BlowingBubbles_416x240_50_5 0,090 0,115 0,062 0,158 PartyScene_832x480_50_1 0,124 0,108 0,092 0,147 (a) PartyScene_832x480_50_2 0,146 0,114 0,115 0,150 PartyScene_832x480_50_3 0,173 0,130 0,144 0,157 PartyScene_832x480_50_4 0,126 0,088 0,097 0,113 RaceHorse_832x480_30_0 0,119 0,126 0,097 0,155 0,137 0,131 0,110 0,164 BasketballPass_416x240_50_1 0,115 0,110 0,066 0,147 BlowingBubbles_416x240_50_3 0,151 0,122 0,097 0,166 BQMall_832x480_60_5 0,196 0,125 0,142 0,160 PartyScene_832x480_50_0 0,184 0,110 0,124 0,151 (b) RaceHorses_416x240_30_1 0,147 0,138 0,092 0,196 RaceHorses_416x240_30_2 0,127 0,130 0,083 0,172 RaceHorses_832x480_30_1 0,174 0,146 0,113 0,199 RaceHorses_832x480_30_2 0,185 0,134 0,128 0,179 0,160 0,127 0,106 0,171 BasketballDrill_832x480_50_0 0,109 0,090 0,075 0,114 BasketballDrill_832x480_50_1 0,098 0,084 0,066 0,107 BasketballDrill_832x480_50_2 0,116 0,124 0,118 0,130 BasketballDrill_832x480_50_3 0,087 0,067 0,057 0,087 BasketballDrill_832x480_50_4 0,078 0,065 0,047 0,088 BasketballPass_416x240_50_2 0,108 0,109 0,096 0,148 BasketballPass_416x240_50_4 0,048 0,050 0,043 0,062 BQMall_832x480_60_0 0,153 0,152 0,132 0,159 BQMall_832x480_60_1 0,098 0,076 0,067 0,097 (c) BQMall_832x480_60_2 0,153 0,166 0,138 0,169 BQMall_832x480_60_3 0,199 0,194 0,203 0,183 BQMall_832x480_60_4 0,099 0,086 0,069 0,101 BQSquare_416x240_60_0 0,163 0,168 0,159 0,175 BQSquare_416x240_60_1 0,105 0,100 0,075 0,131 BQSquare_416x240_60_2 0,105 0,078 0,077 0,102 BQSquare_416x240_60_3 0,115 0,093 0,083 0,112 BQSquare_416x240_60_4 0,112 0,101 0,075 0,124 BQSquare_416x240_60_5 0,121 0,120 0,094 0,139 0,115 0,107 0,093 0,124 ISBN 978-604-80-7468-5 89 ... bày kết khảo sát ảnh hưởng tham số lượng tử (thể thông qua giá trị bpp) tới hiệu VCM (mAP), từ đề xuất mơ hình lựa chọn tham số lượng tử phù hợp Kết đánh giá mơ hình giúp xác được mơ hình phù... chuỗi video IV MƠ HÌNH LỰA CHỌN THAM SỐ LƯỢNG TỬ QP Để lựa chọn mơ hình tốn học phù hợp cho mối quan hệ hiệu học máy (đo lường qua số mAP) hiệu nén (đo lường qua lượng bit cần mã hóa – bpp), chúng... đánh giá sai số tương ứng cho mơ hình Trên sở kết khảo sát từ bảng II, mơ hình logarith lựa chọn để mô tả mối quan hệ mAP bpp Do vậy, giá trị lượng tử phù hợp xác định thơng qua tối ưu giá trị

Ngày đăng: 31/12/2022, 13:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN