Luận án tiến sĩ khoa học máy tính nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video

20 0 0
Luận án tiến sĩ khoa học máy tính nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO LUẬN ÁN TIẾN SĨ KH[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Phạm Việt Bình PGS.TS Đỗ Năng Toàn THÁI NGUYÊN - 2020 i LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định Thái Nguyên, ngày tháng 08 năm 2020 Tác giả luận án ii LỜI CẢM ƠN Luận án hồn thành hướng dẫn tận tình PGS TS Phạm Việt Bình PGS.TS Đỗ Năng Tồn Lời đầu tiên, tơi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới hai Thầy Tôi xin chân thành cảm ơn TS Phạm Thế Anh đóng góp ý kiến quý báu học thuật kinh nghiệm nghiên cứu giúp đỡ suốt trình thực luận án Tơi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ thông tin Truyền thông, Khoa Công nghệ thông tin, Bộ mơn Khoa học máy tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên tạo điều kiện thuận lợi q trình hồn thành bảo vệ luận án Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, đồng nghiệp Phịng Đảm bảo chất lượng Khảo thí, giảng viên khoa Công nghệ thông tin Truyền thông – Trường Đại học Hồng Đức, cán Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội động viên giúp đỡ công tác để có thời gian tập trung nghiên cứu, thực luận án Đặc biệt tơi xin bày tỏ lịng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con anh, chị em gia đình, người ln dành cho tơi tình cảm nồng ấm sẻ chia lúc khó khăn sống, ln động viên giúp đỡ tơi q trình nghiên cứu Luận án q tinh thần mà tơi trân trọng gửi tặng đến thành viên Gia đình Tơi xin trân trọng cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU vi DANH MỤC CÁC BẢNG viii DANH MỤC HÌNH VẼ ix PHẦN MỞ ĐẦU 1 Tính cấp thiết Mục tiêu nghiên cứu luận án Đối tượng, phạm vi nghiên cứu luận án Đóng góp luận án Phương pháp nội dung nghiên cứu Cấu trúc luận án CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO 1.1 Tổng quan video toán phát thay đối tượng video 1.1.1 Khái quát video 1.1.2 Bài toán thay đối tượng video 12 1.1.3 Một số khái niệm 16 1.1.3.1 Dò tìm đối tượng video 16 1.1.3.2 Nhận dạng hình dạng đối tượng video 16 1.1.3.3 Phát đối tượng video 16 1.1.3.4 Phân vùng đối tượng 17 1.1.3.5 Video inpainting 18 1.1.3.6 Thay đối tượng video 19 1.1.4 Các thách thức cho toán thay đối tượng 19 1.2 Tổng quan kỹ thuật áp dụng hệ thống thay đối tượng video 22 iv 1.2.1 Dị tìm đối tượng 22 1.2.1.1 Dựa điểm đặc trưng 22 1.2.1.2 Dựa mơ hình phần đối tượng 23 1.2.1.3 Dựa mạng nơron nhân chập 24 1.2.1.4 Phát đối tượng quảng cáo 25 1.2.2 Nhận dạng hình dạng đối tượng 26 1.2.2.1 Lượng tử hóa vector 26 1.2.2.2 Lượng tử hóa tích đề 29 1.2.2.3 Độ đo khoảng cách 30 1.2.2.4 Nhận dạng hình dạng dựa tìm kiếm ANN 32 1.2.3 Các kỹ thuật hoàn thiện video 34 1.2.3.1 Video inpainting dựa lấy mẫu 35 1.2.3.2 Inpainting ảnh sử dụng DCNN cho không gian 2D 36 1.2.3.3 Video inpainting sử dụng DCNN cho không gian 3D 37 Kết luận chương 38 CHƯƠNG PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO 39 2.1 Dị tìm đối tượng video 39 2.1.1 Khái qt mơ hình dị tìm đối tượng YOLO 40 2.1.2 Mơ hình dị tìm đối tượng cải tiến YOLO-Adv 42 2.1.2.1 Cải tiến hàm loss 42 2.1.2.2 Cải tiến kiến trúc mạng 46 2.1.2.3 Trích chọn đặc trưng 49 2.1.3 Ước lượng, đánh giá mơ hình cải tiến 49 2.1.3.1 Dữ liệu kiểm thử 49 2.1.3.2 Độ đo ước lượng 50 2.1.3.3 Môi trường cài đặt 52 2.1.3.4 Ước lượng, đánh giá 52 2.2 Nhận dạng hình dạng đối tượng 59 2.2.1 Mơ hình lập mục PSVQ 60 v 2.2.2 Tìm kiếm ANN dựa phân cụm thứ bậc 64 2.2.3 Ước lượng, đánh giá 68 2.2.3.1 Dữ liệu cấu hình hệ thống kiểm thử 69 2.2.3.2 Ước lượng, đánh giá chất lượng mã hóa PSVQ 71 2.2.3.3 Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ 73 2.2.3.4 Ước lượng, đánh giá giải thuật tìm kiếm phân cụm thứ bậc kết hợp PSVQ 75 Kết luận chương 80 CHƯƠNG THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO 81 3.1 Phân vùng đối tượng 81 3.1.1 Các kỹ thuật phân vùng thực thể 82 3.1.2 Mô hình phân vùng thực thể 84 3.1.2.1 Phát sinh mặt nạ vùng 85 3.1.2.1 Phân vùng thực thể Mask R-CNN 87 3.1.3 Kết thực nghiệm mơ hình phân vùng 90 3.2 Mơ hình hồn thiện video 92 3.2.1 Kiến trúc mơ hình V-RBPconv 94 3.2.2 Mơ hình kiến trúc mạng RBPconv 95 3.2.3 Hàm loss 99 3.2.4 Ước lượng, đánh giá mơ hình hồn thiện video 100 3.2.4.1 Môi trường thực nghiệm 101 3.2.4.2 Kết so sánh định tính 103 3.2.4.3 Kết so sánh định lượng 104 Kết luận chương 109 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 110 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN 112 TÀI LIỆU THAM KHẢO 113 PHỤ LỤC 122 vi DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU Từ viết Tên đầy đủ (và tạm dịch) tắt ANN Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất) ADC Asymmetric distance computation (Tính khoảng cách bất đối xứng) AVI Audio Video Interleave (tệp tin đa phương tiện chứa âm hình ảnh bên trong) CAM Class Activation Map (Bản đồ kích hoạt lớp) CPU Central processing unit (Bộ vi xử lý trung tâm) CNN Convolution Neural Network (Mạng nơron tích chập) DCNN Deep Convolution Neural Network (Mạng nơron tích chập sâu) FID Frechet Inception Distance (khoảng cách Frechet) FVI Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất kỳ) FCN Fully Convolutional Network (Mạng tích chập đầy đủ) GAN Generative Adversarial Networks (Mạng sinh đối kháng) GPU Graphics processing unit (Bộ xử lý đồ họa) HD High Definition (chuẩn độ nét cao) HOG Histogram of oriented gradients (Biểu đồ hướng gradient) IoU Intersection over Union (Tỷ lệ trùng khớp hai hộp bao) IVFADC LPIPS Inverted file index Asymmetric distance computation (Chỉ mục danh sách ngược ADC) Learned Perceptual Image Patch Similarity (Chỉ số đo tượng đồng mẫu ảnh) MSE Mean square error (Lỗi bình phương trung bình) MPEG Moving Picture Experts Group (Nhóm chun gia hình ảnh động) NMS Non-Maxima Suppression (Loại bỏ điểm không cực trị) vii Từ viết Tên đầy đủ (và tạm dịch) tắt NTSC National Television System Committee (Ủy ban quốc gia hệ thống truyền hình) PRM Peak Response Mapping (Ánh xạ độ nhạy tối đa) PSNR Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại nhiễu) PAL Phase Alternation Line (Hệ truyền hình màu xoay pha) PQ Product quantization (Lượng tử hóa tích đề các) PSL Peak Simulation Layer (Tầng kích hoạt cực đại) PSVQ Product sub-vector quantization (Lượng tử hóa tích đề cụm vector) RGB Red, Green, Blue (Hệ màu RGB) RoI Region of Interest (Vùng chứa đối tượng) R-CNN Region-based Convolutional Neural Networks (Mạng nơron tích chập dựa đề xuất vùng) SIFT Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ) SSD Single Shot Detector (Bộ dò điểm đặc trưng SSD) SURF Speeded up robust features (Đặc trưng SURF) SD Standard Denfinition (Độ nét tiêu chuẩn) SSIM Structural Similarity Index (Chỉ số đồng có cấu trúc) VGG Visual Geometry Group (Nhóm hình học trực quan) YOLO You only look once (Mạng nhìn đối tượng lần) viii DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 2.1 Thông số phần cứng thực nghiệm mơ hình YOLO-Adv 52 2.2 Hiệu thực thi tập liệu Flickrlogos-47 55 2.3 So sánh mAP mơ hình dị tìm đối tượng tập liệu Flickrlogos-32 58 2.4 Các tập liệu đặc trưng 69 2.5 Các tham số dùng để xây dựng lượng tử 75 So sánh kết mơ hình sử dụng với phương pháp 3.1 khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện 90 khác 3.2 3.3 A.1 Kết định lượng tập liệu Places2 mơ hình: CA, Pconv, EC RBPConv Kết định lượng tập liệu FVI với mơ hình: EC, CombCN, 3Dgated V- RBPConv Số lượng đối tượng cho tập huấn luyện kiểm thử tập liệu FlickrLogo-47 106 107 124 ix DANH MỤC HÌNH VẼ Số hiệu Tên hình vẽ hình vẽ Trang 1.1 Cấu trúc phân cấp video 1.2 Sơ đồ chuyển đổi liệu video 11 1.3 Một số ứng dụng chèn/thay logo video 12 1.4 Mơ hình phát thay đối tượng video 13 1.5 Các kiểu phân vùng ảnh 17 1.6 Các ví dụ hoàn thiện, tái tạo ảnh/video 18 1.7 Một số trở ngại phát đối tượng quảng cáo 19 1.8 Mơ hình lượng tử hóa tích đề 28 1.9 Mơ hình nhận dạng hình dạng đối tượng 32 1.10 Ví dụ hồn thiện ảnh với kỹ thuật video inpainting 34 2.1 Ý tưởng mơ hình YOLO 40 2.2 Cách tính IoU 41 2.3 Kiến trúc chi tiết mạng YOLO-Adv 47 2.4 Mơ hình trích chọn đặc trưng 48 2.5 Giá trị hàm loss trung bình huấn luyện tập Flicrklogos-47 53 2.6 Biểu đồ giá trị IoU huấn luyện tập FlicrkLogos-47 54 2.7 Một số hình ảnh phát Logo 57 2.8 Chất lượng mã hóa PSVQ 70 2.9 Tốc độ tìm kiếm ANN tập đặc trưng 72 2.10 Ảnh hưởng tham số (d,k) tập liệu 74 x Số hiệu Tên hình vẽ hình vẽ 2.11 2.12 Hiệu thực thi tập đặc trưng Một số kết trực quan nhận dạng hình dạng đối tượng quảng cáo Trang 77 78 3.1 Mơ hình huấn luyện mạng phân vùng ảnh 83 3.2 Ví dụ làm tinh mặt nạ 85 3.3 Mơ hình phân vùng thực thể Mask R-CNN 87 3.4 Một số kết phân vùng thực thể trực quan tập liệu PASCAL VOC 2012 89 3.5 Hiệu phân lớp liệu PASCAL VOC2012 91 3.6 Kiến trúc mơ hình video inpainting 3DGated 92 3.7 Kiến trúc mơ hình video inpainting V-RBPconv 93 3.8 Kiến trúc mơ hình RBPconv 95 3.9 Kiến trúc khối residual cải tiến 96 3.10 Một số mặt nạ minh họa 101 3.11 So sánh trực quan tái tạo, hồn thiện ảnh mơ hình 102 3.12 So sánh trực quan mơ hình video inpainting 103 A.1 A.2 Chú giải FlickrLogos-32 (bên trên) FlickrLogos-47 (bên dưới) thể bounding box Một số ảnh ví dụ tập liệu Flickrlogos-47 122 123 PHẦN MỞ ĐẦU Tính cấp thiết Với phát triển nhanh chóng thiết bị có khả thu nhận hình ảnh kỹ thuật số, liệu đa phương tiện trở nên phổ biến, có mặt nơi ảnh hưởng tới nhiều mặt sống Những liệu ngày nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng phương tiện truyền thông hiệu để quảng bá sản phẩm, nhãn hiệu, thương hiệu, (gọi tắt đối tượng quảng cáo luận án này) đến đông đảo khách hàng, người tiêu dùng Bên cạnh nhà nghiên cứu thị trường sử dụng nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng cáo bên nhằm tiếp cận thị trường, thu thập thơng tin hữu ích để nâng cao tính cạnh tranh Nhiều nghiên cứu cho thấy tăng trưởng mạnh mẽ doanh thu tạo từ quảng cáo phương tiện truyền hình Internet thơng qua trang mạng, mạng xã hội thập kỷ vừa qua dự báo tiếp tục tăng mạnh năm tới Tận dụng video sẵn có với nội dung hấp dẫn thu hút khối lượng lớn người xem phim ảnh, video thể thao, video kiện đặc biệt, đối tượng quảng cáo ngày tích hợp trực tiếp nội dung video Các ví dụ điển hình chèn billboard, nhãn hiệu, ảnh quảng cáo vào vị trí thích hợp quanh sân vận động video thể thao đặt trực tiếp sân; loại bỏ thay trademark đoạn phim biểu tượng khác Việc thay thế, chèn thêm phần lớn hoàn thiện cách thủ công thông qua công nghệ hiệu chỉnh trình hậu xử lý video Quá trình thay thủ công thường thực cách duyệt qua tất khung hình (frame) để nhận diện frame tiềm năng, thích hợp cho việc tích hợp hình ảnh quảng cáo Sau dị tìm vùng thích hợp frame để đặt hình ảnh quảng cáo tìm hình ảnh quảng cáo, đối tượng khơng phù hợp để thay hình ảnh quảng cáo Cuối hồn thiện, làm mượt, tạo tính chân thực cho video Quá trình xử lý xem tiến trình tốn hậu xử lý video thu hút nhiều nghiên cứu cộng đồng thị giác máy tính với mục đích tạo cơng cụ xử lý tự động, giảm thiểu tối đa can thiệp người thu ảnh kết có độ chân thực cao Tuy nhiên, hệ thống công nghệ thị giác nhiều hạn chế giới hạn xử lý video Phát thay đối tượng video nói chung video có nội dung tích hợp đối tượng quảng cáo nói riêng chuỗi tiến trình cốt lõi trình hậu xử lý video Nó bao hàm kỹ thuật phân tích, xử lý video để dị tìm, nhận dạng đối tượng tư thế, hình dạng chúng video từ có tác động hợp lý vào đối tượng hoàn thiện video sau có tác động Ngồi ra, tiến trình q trình hậu xử lý video cịn ứng dụng rời rạc nhiều lĩnh vực khác nhận dạng hành động, phân tích video, tóm tắt video, giám sát trực quan, thống kê đối tượng, xóa bỏ đối tượng khỏi video, hiệu chỉnh cảnh sau quay Với bùng nổ số lượng video có sẵn trực tuyến ngoại tuyến minh họa bên làm cho việc phân tích, xử lý tất nội dung video theo cách thủ công tốn không khả thi Điều thúc đẩy luận án nghiên cứu kỹ thuật hỗ trợ trình hậu xử lý video tự động áp dụng lĩnh vực thương mại phân tích nội dung quảng cáo video hay tích hợp, thay đối tượng quảng cáo vào video sẵn có nội dung Mục tiêu nghiên cứu luận án Mục tiêu cụ thể luận án tập trung nghiên cứu, cải tiến kỹ thuật xử lý vấn đề quan trọng toán hậu xử lý, hiểu video ứng dụng cho toán phát thay đối tượng video nhằm đạt hiệu cao hai phương diện tốc độ độ xác Cải tiến mơ hình dùng để phát đối tượng video gồm: dị tìm nhận dạng hình dáng đối tượng Nghiên cứu cải tiến kỹ thuật liên quan đến toán thay đối tượng gồm: phân vùng, trích chọn phần hiển thị đối tượng vùng ảnh; hoàn thiện vùng bị phá hủy trình xử lý loại bỏ thay tạo Các cải tiến mở rộng, ứng dụng vào để giải số toán lĩnh vực thương mại như: tích hợp đối tượng quảng cáo vào vị trí thích hợp video có sẵn nội dung; phân tích thị trường, nhận dạng, thống kê sản phẩm video quảng cáo; chèn đối tượng quảng cáo vào vùng ảnh thích hợp, thay đối tượng quảng cáo video thể thao; hiệu chỉnh cảnh quay, xóa bỏ đối tượng không mong muốn xuất cảnh quay video phim ảnh, quảng cáo Đối tượng, phạm vi nghiên cứu luận án Do giới hạn thời gian, luận án không tập trung nhiều vào nghiên cứu cấu trúc, định dạng, cấu thành video, phân đoạn cảnh quay, trích chọn frame, đồng phần hình ảnh âm Luận án sử dụng liệu đầu vào phần hình ảnh đoạn video ghi lại theo chuẩn MPEG-4 (Moving Picture Experts Group) dùng cho truyền hình vơ tuyến, mạng Internet Phần hình ảnh video đầu vào mã hóa kích thước 720p 480p với tỷ lệ khung hình 16:9, tức có độ phân giải 1280 x 720px 854 x 480px giả thiết phân thành chuỗi frame liên tiếp Đối tượng luận án tập trung nghiên cứu kỹ thuật dị tìm, nhận dạng đối tượng tự động, kỹ thuật hoàn thiện video theo hướng tiếp cận đối tượng chuỗi frame ảnh liên tục trích chọn Hướng tới mục tiêu phát triển hệ thống thay đối tượng video thể thao, quảng cáo, phim ảnh phục vụ mục đích thương mại, phân tích thị trường, phạm vi đối tượng nhận dạng, thay giới hạn hình ảnh tĩnh, hai chiều đối tượng quảng cáo Đối tượng thường thể bật video để thu hút người xem nên có tính phân biệt với đối tượng khác với mà hiển thị Bên cạnh kích thước đối tượng nghiên cứu video không nhỏ, giới hạn khoảng từ 20px đến 400px chiều nhỏ khơng thu hút người xem Vùng phá hủy sinh sau xóa bỏ thay đối tượng cần hồn thiện q trình hậu xử lý video luận án tập trung nghiên cứu có kích thước hình dạng Tuy nhiên thay hai đối tượng thường có tính tương đồng cao kích thước, luận án tập trung nhiều vào nghiên cứu vùng trống có hình dạng chủ yếu dạng đường cong, đường kẻ, đường thẳng, hình điểm với độ dày khơng q lớn Đóng góp luận án Xuất phát từ phạm vi nghiên cứu, vấn đề luận án nghiên cứu gồm: Vấn đề 1: Nghiên cứu, cải tiến mô hình dị tìm, định vị đối tượng video theo thời gian thực Vấn đề 2: Nghiên cứu, cải tiến kỹ thuật đối sánh, tìm kiếm ứng dụng cho tốn nhận dạng hình dạng đối tượng tìm thấy video Vấn đề 3: Nghiên cứu, áp dụng kỹ thuật phân vùng đối tượng dùng để trích chọn vùng hiển thị đối tượng Vấn đề 4: Nghiên cứu, cải tiến kỹ thuật tái tạo/hoàn thiện video sau hiệu chỉnh video Trên sở nghiên cứu vấn đề nêu trên, luận án có ba đóng góp là: (i) Cải tiến hiệu thực thi mơ hình dị tìm đối tượng video theo hướng tiếp cận mạng tích chập học sâu (Deep Convolution Neural Network – DCNN) Trong mơ hình cải tiến tốc độ dị tìm đối tượng đạt theo thời gian thực mà độ xác gia tăng đáng kể, có tính bền vững cao dị tìm lớp đối tượng phổ quát, ảnh đầu vào không cần qua bước tiền xử lý Kết đưa mô hình bao gồm: tọa độ bao đóng hình chữ nhật quanh thể lớp đối tượng truy vấn ảnh kèm theo vector đặc trưng giàu thơng tin (CT1) (ii) Cải tiến kỹ thuật nhận dạng hình dạng đối tượng dựa phương pháp lập mục vector đặc trưng Tập liệu hình dạng đối tượng sau trích chọn đặc trưng lập mục kỹ thuật lượng tử hóa tích đề cụm vector (Product sub-vector quantization – PSVQ) Kỹ thuật kết hợp với phân cụm thứ bậc sử dụng để tìm hình dạng tương đồng với đối tượng truy vấn (CT2, CT3, CT4 CT6) iii) Cải tiến mơ hình hồn thiện vùng bị phá hủy ảnh với hình dạng kích thước sinh, áp dụng video inpainting nhằm bảo tồn tính kết cấu khơng gian thời gian tái tạo vùng bị phá hủy sinh video sau hiệu chỉnh (CT5) Phương pháp nội dung nghiên cứu Phương pháp luận nghiên cứu luận án kết hợp nghiên cứu lý thuyết thực nghiệm Phương pháp lý thuyết: Tổng hợp số công bố liên quan đến tốn dị tìm, nhận dạng đối tượng, hồn thiện vùng bị phá hủy ảnh, video Cụ thể nghiên cứu mạng tích chập học sâu ứng dụng dị tìm đối tượng, hồn thiện ảnh, video, kỹ thuật lập mục tập liệu lớn vector đặc trưng thuật tốn tìm kiếm ảnh theo nội dung, số thuật tốn hồn thiện vùng mát thông tin video Phương pháp thực nghiệm: Thực cài đặt thuật toán luận án, chạy thử nghiệm tập liệu sử dụng phổ biến cộng đồng nghiên cứu Cấu trúc luận án Cấu trúc luận án tổ chức thành chương sau: Chương 1: Tổng quan toán phát thay đối tượng video Trình bày nghiên cứu liên quan đến toán phát đối tượng bao gồm hai pha dị tìm nhận dạng, tốn thay đối tượng quảng cáo video thuộc lĩnh vực thương mại gồm công đoạn phân vùng, thay hồn thiện video Bên cạnh đó, luận án đưa mơ hình tổng qt cho hệ thống thay đối tượng video khái niệm liên quan Thơng qua xác định rõ vấn đề đặt cần nghiên cứu, vị trí nghiên cứu, xu hướng phát triển để đưa giải pháp giải vấn đề đặt Chương 2: Phát đối tượng video Trình bày chi tiết mơ hình YOLO-Adv cải tiến, phát triển từ mơ hình dị tìm đối tượng YOLO tương thích với lớp tốn dị tìm đối tượng quảng cáo video Các kết thực nghiệm tập liệu flickrlogos-47 phân tích, chứng minh độ xác tốc độ dị tìm đối tượng mơ hình cải tiến nhanh phiên mơ hình YOLO mơ hình khác Tiếp theo, kỹ thuật lập mục liệu PSVQ (Product sub-vector quantization) cải tiến, phát triển từ phương pháp lập mục lượng tử hóa tích đề (product quantization-PQ) tập liệu vector đặc trưng có số chiều lớn ứng dụng cho tốn nhận dạng hình dạng đối tượng trình bày chi tiết Các kết thực nghiệm tập liệu có số chiều lớn ANN_GIST, VGG trình bày sau phần trình bày lý thuyết Chương 3: Thay đối tượng hồn thiện video Trình bày kỹ thuật phân vùng thực thể áp dụng để trích chọn vùng đối tượng xuất ảnh Tiếp theo, kỹ thuật hoàn thiện, tái tạo video V-RBPconv dựa tảng mơ hình RBPConv sử dụng cho toán tái tạo vùng bị phá hủy Những vùng có đa dạng hình dạng kích thước sinh sau q trình hậu xử lý loại bỏ, thay đối tượng không mong muốn khỏi video Cuối cùng, kết thực nghiệm mơ hình tập liệu phổ biến trình bày 7 CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Trong chương tổng quan luận án trình bày mơ hình tổng quan cho tốn phát thay đối tượng video, mô tả chi tiết thành phần hệ thống đưa khái niệm có liên quan Bên cạnh luận án hệ thống lại nghiên cứu liên quan đến mơ hình, kỹ thuật áp dụng hệ thống phát thay đối tượng, phân tích ưu, nhược điểm kỹ thuật làm tiền đề cho nội dung nghiên cứu chương sau Cụ thể, tổng quan tốn phát thay đối tượng video trình bày phần 1.1 Các nghiên cứu liên quan đến mô hình dị tìm đối tượng video phân tích phần 1.2 Tiếp theo, kỹ thuật nhận dạng đối tượng trình bày phần 1.3 Cuối nghiên cứu liên quan đến hoàn thiện vùng bị phá hủy video trình bày phần 1.4 Hình 1.1 Cấu trúc phân cấp video 1.1 Tổng quan video toán phát thay đối tượng video 1.1.1 Khái quát video Video phối hợp đồng thu phát chuỗi hình ảnh âm theo thời gian thực để thể giới thực Bản chất video tập hợp khung hình (frame), khung hình tương ứng ảnh tĩnh Tập hợp chuỗi khung hình liên tiếp, khơng thể chia nhỏ hơn, ứng với thao tác camera đơn tạo thành lia (Shot) Tập shot liên quan không gian liền kề thời gian, mơ tả nội dung ngữ nghĩa tình tiết tạo thành cảnh quay (Scene) Cấu trúc phân cấp video thể hình 1.1 Video truyền thống tín hiệu thu phát dạng tương tự Tín hiệu hình ảnh tín hiệu âm phát đồng Tuy nhiên, thao tác với video dạng tương tự điều khiển, khử nhiễu, phức tạp Vì vậy, ngày video tương tự sử dụng mà thay video số Với video số tín hiệu thu phát chuỗi hình ảnh âm số hóa thành dãy bít Dữ liệu video lưu trữ dạng bít nên việc tác động lên video đơn giản nhiều so với video tương tự Dữ liệu video số đoạn phim số hóa, ghi thành tệp đĩa cứng, đĩa CD, đĩa DVD, thiết bị lưu trữ khác mà máy tính hiểu Một tệp video thơng thường có hai phần: liệu hình ảnh liệu âm Khi phát, liệu hình ảnh liệu âm phát đồng Kích cỡ khn hình video phải xác định rõ theo định dạng chuẩn video xuất Ví dụ: kích cỡ khn hình 720x480 điểm ảnh cho hệ NTSC, 720x576 điểm ảnh cho hệ PAL Hoặc xác định khn hình 320x240 điểm ảnh cho video có kích cỡ nhỏ, sử dụng Web Kích cỡ khn hình tăng đồng nghĩa với việc tiêu tốn nhiều nhớ thời gian xử lý hiển thị hay soạn thảo video Khi xử lý video số, kích cỡ khn hình tham chiếu đến độ phân giải Các thuộc tính quan trọng khn hình soạn thảo video gồm: điểm ảnh, tỷ lệ khn hình, độ phân giải, độ sâu mầu Mối liên hệ yếu tố quan trọng kích cỡ khn hình ... DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Chuyên ngành: Khoa học. .. toán phát thay đối tượng video nhằm đạt hiệu cao hai phương diện tốc độ độ xác Cải tiến mơ hình dùng để phát đối tượng video gồm: dị tìm nhận dạng hình dáng đối tượng Nghiên cứu cải tiến kỹ thuật. .. vi nghiên cứu luận án Đóng góp luận án Phương pháp nội dung nghiên cứu Cấu trúc luận án CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO

Ngày đăng: 28/02/2023, 08:02

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan