Nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video

159 31 0
Nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Phạm Việt Bình PGS.TS Đỗ Năng Toàn THÁI NGUYÊN - 2020 i LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định Thái Nguyên, ngày tháng 08 năm 2020 Tác giả luận án ii LỜI CẢM ƠN Luận án hồn thành hướng dẫn tận tình PGS TS Phạm Việt Bình PGS.TS Đỗ Năng Tồn Lời đầu tiên, tơi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới hai Thầy Tôi xin chân thành cảm ơn TS Phạm Thế Anh đóng góp ý kiến quý báu học thuật kinh nghiệm nghiên cứu giúp đỡ suốt trình thực luận án Tơi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ thông tin Truyền thông, Khoa Công nghệ thông tin, Bộ mơn Khoa học máy tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên tạo điều kiện thuận lợi q trình hồn thành bảo vệ luận án Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, đồng nghiệp Phịng Đảm bảo chất lượng Khảo thí, giảng viên khoa Công nghệ thông tin Truyền thông – Trường Đại học Hồng Đức, cán Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội động viên giúp đỡ công tác để có thời gian tập trung nghiên cứu, thực luận án Đặc biệt tơi xin bày tỏ lịng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con anh, chị em gia đình, người ln dành cho tơi tình cảm nồng ấm sẻ chia lúc khó khăn sống, ln động viên giúp đỡ tơi q trình nghiên cứu Luận án q tinh thần mà tơi trân trọng gửi tặng đến thành viên Gia đình Tơi xin trân trọng cảm ơn! MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU vi DANH MỤC CÁC BẢNG viii DANH MỤC HÌNH VẼ ix PHẦN MỞ ĐẦU 1 Tính cấp thiết Mục tiêu nghiên cứu luận án Đối tượng, phạm vi nghiên cứu luận án Đóng góp luận án Phương pháp nội dung nghiên cứu Cấu trúc luận án CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO 1.1 Tổng quan video toán phát thay đối tượng video 1.1.1 Khái quát video 1.1.2 Bài toán thay đối tượng video 12 1.1.3 Một số khái niệm 16 1.1.3.1 Dị tìm đối tượng video 16 1.1.3.2 Nhận dạng hình dạng đối tượng video 16 1.1.3.3 Phát đối tượng video 16 1.1.3.4 Phân vùng đối tượng 17 1.1.3.5 Video inpainting 18 1.1.3.6 Thay đối tượng video 19 1.1.4 Các thách thức cho toán thay đối tượng 19 1.2 Tổng quan kỹ thuật áp dụng hệ thống thay đối tượng video 22 1.2.1 Dị tìm đối tượng 22 1.2.1.1 Dựa điểm đặc trưng 22 1.2.1.2 Dựa mơ hình phần đối tượng 23 1.2.1.3 Dựa mạng nơron nhân chập 24 1.2.1.4 Phát đối tượng quảng cáo 25 1.2.2 Nhận dạng hình dạng đối tượng 26 1.2.2.1 Lượng tử hóa vector 26 1.2.2.2 Lượng tử hóa tích đề 29 1.2.2.3 Độ đo khoảng cách 30 1.2.2.4 Nhận dạng hình dạng dựa tìm kiếm ANN 32 1.2.3 Các kỹ thuật hoàn thiện video 34 1.2.3.1 Video inpainting dựa lấy mẫu 35 1.2.3.2 Inpainting ảnh sử dụng DCNN cho không gian 2D 36 1.2.3.3 Video inpainting sử dụng DCNN cho không gian 3D 37 Kết luận chương 38 CHƯƠNG PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO 39 2.1 Dị tìm đối tượng video 39 2.1.1 Khái quát mô hình dị tìm đối tượng YOLO 40 2.1.2 Mơ hình dị tìm đối tượng cải tiến YOLO-Adv 42 2.1.2.1 Cải tiến hàm loss 42 2.1.2.2 Cải tiến kiến trúc mạng 46 2.1.2.3 Trích chọn đặc trưng 49 2.1.3 Ước lượng, đánh giá mô hình cải tiến 49 2.1.3.1 Dữ liệu kiểm thử 49 2.1.3.2 Độ đo ước lượng 50 2.1.3.3 Môi trường cài đặt 52 2.1.3.4 Ước lượng, đánh giá 52 2.2 Nhận dạng hình dạng đối tượng 59 2.2.1 Mơ hình lập mục PSVQ 60 2.2.2 Tìm kiếm ANN dựa phân cụm thứ bậc 64 2.2.3 Ước lượng, đánh giá 68 2.2.3.1 Dữ liệu cấu hình hệ thống kiểm thử 69 2.2.3.2 Ước lượng, đánh giá chất lượng mã hóa PSVQ 71 2.2.3.3 Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ 73 2.2.3.4 Ước lượng, đánh giá giải thuật tìm kiếm phân cụm thứ bậc kết hợp PSVQ 75 Kết luận chương 80 CHƯƠNG THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO 81 3.1 Phân vùng đối tượng 81 3.1.1 Các kỹ thuật phân vùng thực thể 82 3.1.2 Mơ hình phân vùng thực thể 84 3.1.2.1 Phát sinh mặt nạ vùng 85 3.1.2.1 Phân vùng thực thể Mask R-CNN 87 3.1.3 Kết thực nghiệm mơ hình phân vùng 90 3.2 Mơ hình hồn thiện video 92 3.2.1 Kiến trúc mô hình V-RBPconv 94 3.2.2 Mơ hình kiến trúc mạng RBPconv 95 3.2.3 Hàm loss 99 3.2.4 Ước lượng, đánh giá mơ hình hồn thiện video 100 3.2.4.1 Môi trường thực nghiệm 101 3.2.4.2 Kết so sánh định tính 103 3.2.4.3 Kết so sánh định lượng 104 Kết luận chương 109 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 110 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CĨ LIÊN QUAN ĐẾN LUẬN ÁN 112 TÀI LIỆU THAM KHẢO 113 PHỤ LỤC 122 DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU T v A N A D A V I C A C P C N D C FI D F V IF C G A G P H D H O Io U I V F L PI P M S M P N M Tên đ t A p A sy A u di Cl as C en C o D ee Fr ec Fr ee F ul G en G H ig H ist In te In ve rt L ea rn M ea M o N o vii T v N T S P R P S P A P Q P S P S V R G R oI R C SI F S S S U S D S SI V G Y O Tên đ t N a P t ea P ea P Pr o P ea Pr o d R ed R eg R eg io S ca Si n S pe St an St ru V is Y o DANH MỤC CÁC BẢNG S ố 2T h 2H iệ S 2o sá 2C ác 2C ác S 3o s K ết 2q K ết 3q S A ố 1l Tr an g 5 5 9 112 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CĨ LIÊN QUAN ĐẾN LUẬN ÁN [CT1] “Cải tiến kiên trúc mạng Yolo cho toán nhận dạng logo” TNU Journal of Science and Technology, vol 200, no 07, pp 199-205, 2019 [CT2] “A review of feature indexing methods for fast approximate nearest neighbor search” 5th NAFOSTED Conference on Information and Computer Science (NICS), pp 372 – 377, 2018 [CT3] “Hierarchical product quantization for effective feature indexing” ICT, 26th International Conference on Telecommunications, pp 386 – 390, April 8-10-2019 [CT4] “Product sub-vector quatization for feature indexing” Jounal of Computer Science and Cybernetics, vol 35, no 11, pp 69-83, 2019 [CT5] “Hoàn thiện vùng phá hủy hình dạng ảnh sử dụng kiến trúc mạng thặng dư tích chập phần” TNU Journal of Science and Technology, vol 208, no 15, pp 19-26, 2019 [CT6] “A study on parameter tuning for optimal indexing on large scale datasets”, Journal of Science and Technology on Information and Communications, 2020 113 TÀI LIỆU THAM KHẢO Tiếng Anh [ ] Anh P ( 7), "Pa Anh P T A [ ] [ n ] [ hA ] fa [ t B a ] o [ YB ar ] n [ eB a ] r [ nB ar ] n [ e Bay H., ] E A., [1 B 0] er [1 ta Bol 1] ya D [1 2] Bo mbo na L., C C [1 3] G [1 , C 4] h a [1 n C 5] h e n [1 L C 6] h e [1 n C 7] o v [1 el D 8] A [1 , D 9] al al [2 N D 0] e [2 n E 1] fr o [2 s F 2] el z [2 3] Fen g Z., G [2 4] e T [2 , Girs 5] hick [2 G 6] ir s [2 hi Gon 7] zale z [2 Haa 8] r (191 [2 H 9] a n X [3 , He 0] K., Gki [3 H 1] e K [3 , H 2] e u s [3 el H 3] o i [3 S H 4] u s s [3 5] Iand ola F N., She I [3 6] iz u [3 k I 7] o ff [3 e J 8] é g [3 o J 9] o h [4 n J 0] ol y [4 A K 1] al a nt [4 idK 2] e Y , [4 S K 3] e n t [4 A K 4] h o [4 5] Kin gma D K [4 6] ri z [4 h K 7] w at [4 raL 8] a [4 r L 9] ie n [5 h L 0] i u [5 G L 1] i u [5 H L 2] i [5 u,L 3] o n [5 g L 4] o w [5 e M 5] a [5 h Med 6] ioni G., [5 M 7] u ja [5 8] Muj a M., L e D M [5 9] u ja [6 MN 0] a z [6 erN 1] e u [6 b N 2] o r [6 o O 3] li v [6 ei P 4] at h [6 a P 5] at w [6 arP 6] i [6 n R 7] e al E [6 , R 8] e d [6 9] [7 0] Red mon J Farh a Red mon J R [7 1] e [7 n R 2] o m [7 b S 3] h a [7 r S 4] i [7 mS 5] u H [7 , S 6] z e g [7 e Tim 7] othy K., [7 T 8] u rs [7 u T 9] u z [8 k U 0] ij li 120 [8 1] Ven kate sh M V., W [8 2] a n [8 g W 3] a n [8 g W 4] at v [8 e W 5] e b [8 erW 6] e xl [8 erX 7] ie J [8 , X 8] u N , [8 Y Y 9] a [9 n Y 0] a n g [9 C Y 1] u J 121 [9 2] Yu J., Lin Z., Yan Z [9 3] ei le [9 r Zhe 4] ng C., [9 Z 5] h o u [9 WZ 6] h [9 o Z 7] h u 122 PHỤ LỤC A Bộ liệu kiểm thử Flickrlogos-47 Flickrlogos-47 mở rộng, hiệu chỉnh từ liệu flickrlogos-32 phổ biến cho toán truy vấn ảnh logo Do thiết kế cho toán truy vấn logo ảnh nên yếu điểm lớn liệu flickrlogos-32 giải mức đối tượng chưa đầy đủ, chi tiết cho toán phát logo Thêm vào với flickrlogos-32, ảnh xác định thể logo thuộc nhãn ảnh có nhiều thể logo hay nhiều logo khác Điều có ý nghĩa ngữ cảnh truy vấn ảnh hạn chế cho toán nhận dạng Hình A.1 Chú giải FlickrLogos-32 (bên trên) FlickrLogos-47 (bên dưới) thể bounding box Flickrlogos-47 đời khơng cập nhật thích cịn thiếu cho nhãn ảnh mà tách rời, đánh nhãn riêng cho biểu tượng dòng văn minh họa logo, bổ sung thêm nhiều mẫu liệu khác nhằm khắc phục hạn chế tập liệu flickrlogos-32 Số lớp flickrlogos-47 nâng lên 47 lớp cách bổ sung thêm ảnh, tách số lớp có flickrlogos32 Các nhãn hiệu flickrlogos-32 gồm biểu tượng ký tự tách thành lớp flickrlogos-47 Mỗi ảnh flickrlogos-32 chứa logo thuộc lớp flickrlogos-47 ảnh có nhiều thể thuộc logo lớp logo khác Ảnh nhiễu flickrlogos-32 bị loại bỏ flickrlogos-47 Một khác biệt 123 liệu flickrlogos-47 so với flickrlogos-32 đa dạng kích thước, đặc biệt xuất nhiều ảnh chứa logo nhỏ nhằm tạo thêm độ khó cho việc nhận dạng (hình A.1) Hình A.2 Một số ảnh ví dụ tập liệu flickrlogos-47 Flickrlogos-47 thực thích lại, ảnh chứa nhiều thể logo thuộc vào nhiều lớp khác việc gắn ảnh vào tập huấn luyện tập kiểm thử phải thay đổi, ảnh nằm đồng thời hai tập Tập ảnh huấn luyện lúc hình thành từ 833 ảnh, tập kiểm thử gồm 1402 ảnh Một thử thách lớn phát đối tượng tập liệu flickrlogos-47 thể logo thường có kích thước nhiều tỷ lệ khác nhau, độ chênh lệch tỷ lệ lớn Trong nhiều thể logo có kích thước tương đối nhỏ, mà thể đối tượng có kích thước nhỏ thơng thường khó nhận dạng nhiều so với thể có kích thước lớn Thể logo nhỏ đơn lẽ ảnh tập huấn luyện có chiều dài 15px thể lớn có chiều dài 834px Độ dài trung bình 99px Kích thước ảnh tập liệu flickrlogos-47 đa dạng Ảnh có kích thước lớn 1024x768px Một số hình ảnh minh họa thể hình A.2 Chi tiết số lượng đối tượng cho bảng A.1 124 Tê H K nu i lớp ấ ể A di 37 08 A ld B 85 89 ec 22 58 B M C 94 11 ar C 05 18 hi C 63 35 or D 25 49 H E 13 35 rd E 38 03 ss F 44 er F 93 49 os G 33 95 oG 33 10 ui H 84 07 P n 34 59 V P 04 76 aP 85 19 eR 78 92 itt Si 72 05 nSt 64 66 ar St 33 56 el T 33 96 si U 93 15 P Tên H K lớp u iể ấ m A3 d 34 41 A pB 05 17 e 34 19 C aC 04 27 hC 56 99 oC 23 15 oE 54 97 rE 83 06 sF 23 36 eF 63 04 oF 04 79 oG 33 88 uH 76 10 eM 38 02 in 94 79 V P 03 26 aP 05 13 eS 43 46 hS 42 65 iS 64 77 tT 33 25 eT 43 96 sT 19 45 ổ9 Bảng A.1 Số lượng đối tượng cho tập huấn luyện kiểm thử tập liệu FlickrLogo-47 Với lớp đối tượng, tập huấn luyện chiếm khoảng 33% tổng số đối tượng lớp 125 B Kiến trúc mạng Darknet-53 1x 2x 8x 8x 4x B K Đ ộ í ầ x1 3 x 1 3 3 x 1 3 x 1 3 x 1 3 C o C o C o C o R es C o C o C o R es C o C o C o R es C o C o C o R es C o C o C o R es A G v o Connected Softmax 1000 126 C Chi tiết kiến trúc mạng RBPconv Inpu K t: [ E íc T [ R E 12 T [ R E 51 T [ R E 26 T [ R E 43 T [ R E 21 T [ R E 68 T [ R E x4 T [ R E x2 T [ R E x1 T [ R D x2 T R C x2 [ o D x4 T R C x4 [ o D x8 T R C x8 [ o D x1 T R C 61 [ o D 63 T R C 23 [ o D 26 T R C 46 [ o D 41 T R C 21 [ o D 22 T R C 52 [ o D 55 T R C 15 [ o D 15 T R Output: ảnh ... toán phát thay đối tượng video nhằm đạt hiệu cao hai phương diện tốc độ độ xác Cải tiến mơ hình dùng để phát đối tượng video gồm: dị tìm nhận dạng hình dáng đối tượng Nghiên cứu cải tiến kỹ thuật. .. dạng đối tượng tìm thấy video Vấn đề 3: Nghiên cứu, áp dụng kỹ thuật phân vùng đối tượng dùng để trích chọn vùng hiển thị đối tượng Vấn đề 4: Nghiên cứu, cải tiến kỹ thuật tái tạo/hoàn thiện video. ..BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Chuyên ngành:

Ngày đăng: 11/10/2020, 00:01

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan