1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình học sâu trong một số bài toán thị giác máy tính

68 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Mơ hình học sâu số tốn thị giác máy tính PHÙNG TRỌNG HIẾU Hieu.PT202937M@sis.hust.edu.vn Ngành: Tốn Tin Chuyên ngành: Toán Tin Giảng viên hướng dẫn: TS Bùi Xn Diệu Bộ mơn: Tốn Chữ ký GVHD Viện: Toán ứng dụng Tin học HÀ NỘI, 08/2022 Lời cảm ơn Để hoàn thành luận văn này, lời xin chân thành cảm ơn thầy giáo hướng dẫn TS Bùi Xuân Diệu thầy giáo TS Lê Chí Ngọc, hai người theo sát hỗ trợ tơi suốt q trình nghiên cứu đề tài luận văn Tôi xin chân thành cảm ơn anh, chị thuộc phòng AI Re-search Công Ty TNHH PIXTA Vietnam cho lời khuyên quý báu với hỗ trợ trang thiết bị công nghệ Tôi xin chân thành cảm ơn! Tóm tắt nội dung luận văn Trong cơng trình này, ta nghiên cứu tốn với tên gọi Extractive Tags Summarization (ETS) Mục tiêu giải tốn ETS thu gọn danh sách thẻ tương ứng với ảnh giữ khả đại diện thẻ cho ảnh Các mơ hình học sâu sử dụng để hình thành nên giải pháp nhằm giải tốn Ngồi ra, ta tìm hiểu hàm mát; vấn đề để giảm ảnh hưởng cân liệu hay cách thiết kế mơ hình sử dụng hàm mát phụ trợ nghiên cứu cách kỹ lưỡng Bên cạnh đó, chiến lược huấn luyện mơ hình sử dụng học tự giám sát mổ xẻ để tận dụng nguồn liệu chưa gán nhãn khổng lồ sẵn có Cuối cùng, tốn ETS mở rộng cho dạng liệu video với cải tiến mặt giải pháp dành riêng dạng liệu Sinh viên thực (Ký ghi rõ họ tên) Mục lục Giới thiệu toán Cơ sở lý thuyết 2.1 Mạng nơ-ron nhân tạo 2.2 Mạng nơ-ron tích chập 2.2.1 Kiến trúc mạng nơ-ron tích chập 2.3 Mạng nơ-ron Transformer 2.3.1 Cơ chế Attention 2.3.2 Kiến trúc mạng nơ-ron Transformer 2.4 Hệ hỗn hợp chuyên gia 2.5 Học tự giám sát Mơ hình đề xuất 4 10 11 12 15 3.1 Mơ hình sở 3.2 Kiến trúc mơ hình 3.2.1 Thành phần Tag Embedder 3.2.2 Thành phần Image Feature Extractor 3.2.3 Thành phần Multi-Head Attention 3.2.4 Thành phần Transformer Encoder 3.2.5 Thành phần Gating Mechanism 3.3 Kết so sánh mơ hình 3.4 Hàm mát 3.4.1 Vấn đề cân liệu 3.4.2 Hàm mát phụ trợ 3.5 Dữ liệu 3.5.1 Bộ liệu công khai 3.5.2 Bộ liệu quy mô lớn không công khai 16 16 17 17 17 18 18 19 20 20 21 22 22 23 3.6 Các thí nghiệm 3.6.1 Vấn đề với phần tử ngoại lai việc tăng cường liệu 3.6.2 Chiến lược học tự giám sát 3.7 Cấu hình huấn luyện Mở rộng toán cho liệu video 23 4.1 Trích xuất đặc trưng cho video 4.1.1 3D ConvNet 4.1.2 R3D 4.1.3 R(2+1)D 4.1.4 CSN 4.1.5 SlowFast 4.1.6 TSM 4.2 Chiến lược lựa chọn khung hình 4.2.1 Giai đoạn huấn luyện 4.2.2 Giai đoạn kiểm định 4.3 Lựa chọn mơ hình trích xuất đặc trưng cho video 4.3.1 Vòng sơ loại 4.3.2 Lựa chọn cuối 4.4 Các cải tiến 4.4.1 Thuật toán tối ưu AdamW thay cho SGD 4.4.2 Hàm mát Co-distillation Kết luận 29 29 30 30 32 34 35 39 39 39 40 41 41 42 42 42 45 Chỉ mục 47 Tài liệu tham khảo 51 23 25 26 29 Danh mục hình vẽ 2.1 Mạng nơ-ron nhân tạo 2.2 Sử dụng lọc để trích đặc trưng 2.3 Quá trình trượt lọc dọc theo chiều rộng chiều cao ảnh 2.4 Max Pooling 2.5 Scaled Dot-Product Attention [48] 2.6 Multi-Head Attention [48] 2.7 Kiến trúc mạng nơ-ron Transformer [48] 12 3.1 Mơ hình đề xuất [37] 15 3.2 Từ trái sang phải: (a) Mơ hình sở sử dụng đặc trưng thẻ (TF-t), (b) mơ hình sở sử dụng đặc trưng kết hợp từ ảnh thẻ tương ứng (TF-it), (c) kiến trúc MAGNeto [37] 16 3.3 So sánh giá trị F mơ hình [37] 20 3.4 So sánh giá trị F hai hàm mát BCE BCE1 Dice [37] 21 3.5 Không sử dụng sử dụng hàm mát phụ trợ [37] 21 3.6 Chiến lược huấn luyện bao gồm pha huấn luyện trước với chiến lược học tự giám sát (bên phải) pha tinh chỉnh với chiến lược học có giám sát (bên trái) [37] 25 4.1 Lớp tích chập 2D so với lớp tích chập 3D [44] 30 4.2 Một vài kiến trúc mạng thặng dư (Residual Network) cho toán phân lớp video (a) R2D mạng ResNet 2D; (b) MCx mạng ResNet trộn lẫn lớp tích chập 2D 3D (hình minh họa MC3); (c) rMCx phiên 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 ngược MCx (hình minh họa rMC3); (d) R3D mạng ResNet 3D; (e) R(2+1)D mạng ResNet với lớp tích chập (2+1)D [46] 31 Khối tích chập 3D khối tích chập (2+1)D (được minh họa với kênh chiều sâu) [46] 31 Group Convolution [45] 32 Bottleneck Block Channel-Separated Bottleneck Block [45] 33 Kiến trúc mơ hình SlowFast [10] (Lối cao tần hạ tần với kết nối bên.) 35 (a) Chi phí độ trễ TSM việc di chuyển liệu (b) Residual TSM đạt độ xác cao so với Inplace TSM [27] Temporal Shift Module (TSM) [27] Residual TSM cho hiệu tốt In-place TSM In-place TSM thực việc dịch chuyển trước lớp tích chập (hoặc Residual Block) Residual TSM hợp thông tin thời gian bên nhánh Residual [27] Nhận dạng hành động video với TSM [27] (a) Giai đoạn huấn luyện mơ hình, (b) giai đoạn sử dụng mơ hình cho việc dự đốn 37 38 38 38 43 Danh mục bảng biểu 3.1 Các thành phần Gating Mechanism (Dữ liệu truyền theo chiều từ xuống.) 19 3.2 Bảng so sánh số với cấu hình huấn luyện khác 24 4.1 So sánh mơ hình số toán phân lớp video 41 4.2 So sánh mơ hình số tốn ETS 41 vii

Ngày đăng: 04/06/2023, 13:08

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w