1. Trang chủ
  2. » Luận Văn - Báo Cáo

A method for self supervised training of vision transformers

73 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN A Method For Self-Supervised Training Of Vision Transformers Giảng viên hướng dẫn: ThS HUỲNH TUẤN ANH Sinh viên thực hiện: HUỲNH TRUNG THẢO MSSV: 20521932 Tp Hồ Chí Minh, tháng 06 năm 2023 LỜI CẢM ƠN Đầu tiên, cho phép em xin phép gửi lời cảm ơn đến tập thể quý thầy cô Trường Đại học Công nghệ Thông tin – Đại học Quốc gia Thành phố Hồ Chí Minh quý thầy cô thuộc Khoa Công nghệ Phần mềm giúp em có kiến thức tảng hữu ích để tìm hiểu đề tài Đặc biệt, em xin gửi lời cảm ơn chân thành đến thầy Huỳnh Tuấn Anh, người tạo điều kiện hướng dẫn em việc thực đề tài này, đề tài mà em thử sức với thứ mẻ thú vị Nhờ có kiến thức kinh nghiệm từ thầy Tuấn Anh q thầy(cơ) trường nói chung mà em tận dụng để thực đề tài Tuy nhiên, trình thực đề tài khơng thể tránh khỏi hạn chế, thiếu sót Em mong nhận nhận xét, góp ý từ thầy giảng viên khác, để em ngày tốt hồn thiện Em biết ơn vô trân trọng Thành phố Hồ Chí Minh, ngày 12 tháng 06 năm 2022 Huỳnh Trung Thảo NHẬN XÉT CỦA GIẢNG VIÊN MỤC LỤC TÓM TẮT ĐỒ ÁN .1 Chương GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài 1.2 Giới thiệu đề tài .3 1.2.1 Phạm vi nghiên cứu 1.2.2 Nội dung nghiên cứu 1.2.3 Kết mong muốn .5 Chương BÀI TỐN PHÂN LOẠI HÌNH ẢNH VÀ TỔNG QUAN VỀ VISION TRANSFORMERS (ViTs) 2.1 Bài toán phân loại hình ảnh, kiến trúc Vison Transformers phương pháp Self-Supervised Training .7 2.1.1 Tổng quan phân loại hình ảnh (Image Classification) 2.1.2 Sơ lược Vision Transformers (ViTs) 12 2.1.3 Phương pháp huấn luyện tự giám sát (Self-Supervised Training) 16 2.1.4 Sự kết hợp Vision Transformers Self-Supervised Training 18 2.2 Cấu trúc hoạt động ViTs 20 2.3 Ưu điểm hạn chế ViTs .21 2.3.1 Ưu điểm 21 2.3.2 Hạn chế 22 2.4 Các nghiên cứu liên quan ViTs 23 Chương PHƯƠNG PHÁP HUẤN LUYỆN TỰ GIÁM SÁT CHO VISION TRANSFORMERS 25 3.1 Tầm quan trọng phương pháp huấn luyện tự giám sát thị giác máy tính 25 3.2 Các phương pháp huấn luyện tự giám sát áp dụng cho ViTs 28 3.3 Quy trình huấn luyện tự giám sát cho ViTs 30 Chương NGHIÊN CỨU VÀ ĐÁNH GIÁ 32 4.1 Tìm hiểu phương pháp Group Masked Model Learning (GMML) sơ lược nghiên cứu 32 4.2 Các kỹ thuật Self-supervised tiên tiến .34 4.2.1 So sánh với nghiên cứu có 34 4.2.2 So sánh với phương pháp đời sau 36 4.3 Giải thích phương pháp 38 4.3.1 Self-Supervised Vision Transformer 40 4.3.2 Self-Supervised Tasks 42 4.3.3 End-to-End Self-Supervised Training 46 4.4 Kết thực nghiệm thảo luận .48 4.4.1 Chi tiết cách thực 49 4.4.2 Phân loại đa lớp (Multi-class Classification) 51 4.4.3 Phân loại đa nhãn (Multi-Label Classification) 54 4.4.4 Phân đoạn đối tượng riêng biệt (Instance Segmentation) 55 4.4.5 Nghiên cứu loại bỏ thành phần (Ablation Study) .56 4.5 Đánh giá kết luận 61 Chương TỔNG KẾT 63 5.1 Kết luận 63 5.1.1 Kết đạt 63 5.1.2 Tiềm ứng dụng 63 5.1.3 Hạn chế 64 5.2 Hướng phát triển 64 DANH MỤC TÀI LIỆU THAM KHẢO 66 DANH MỤC HÌNH ẢNH Hình 2.1 - Sự khác biệt phát đối tượng, phân đoạn phân loại ảnh Hình 2.2 - Ví dụ minh họa tốn Image Classification .8 Hình 2.3 - Sơ đồ hoạt động CNN .10 Hình 2.4 - Mơ hình tổng quan hoạt động Vision Transformer .14 Hình 2.5 - Bản đồ Attention ViT trực quan hóa hình ảnh 15 Hình 2.6 - Mơ hình chi tiết cấu trúc hoạt động ViTs 20 Hình 4.1 - Công thức đầu khối Self-attention 41 Hình 4.2 - Cơng thức hàm mát (1-loss) sử dụng tái tạo hình ảnh 44 Hình 4.3 - Normalized Temperature-Scaled Softmax Similarity 45 Hình 4.4 - Contrastive Loss Function 46 Hình 4.5 - Multi-Task Self-Supervised Total Loss .47 Hình 4.6 - Hình ảnh tái tạo từ mơ hình SiT huấn luyện .48 Hình 4.7 - Bảng thống kê liệu sử dụng 49 Hình 4.8 - Bảng so sánh với phương pháp tiên tiến tiền huấn luyện điều chỉnh tập liệu mục tiêu sử dụng mơ hình ViT-S/16 51 Hình 4.9 - Bảng chuyển đổi miền SiT tiền huấn luyện tập liệu ImageNet-1K 53 Hình 4.10 - Bảng mAP (mean Average Precision) q trình suy luận thơng thường liệu PASCAL VOC 2007, VG-500 MS-COCO 54 Hình 4.11 - Bảng phân đoạn đối tượng video DAVIS 2017 .56 Hình 4.12 - Bảng ảnh hưởng thành phần khác SiT đến tiền huấn luyện tự giám sát 56 Hình 4.13 - Nghiên cứu thử nghiệm hiệu ứng (a) Longer pretraining, (b) Type of corruption, and (c) Percentage of corruption 58 Hình 4.14 - Minh họa t-SNE biểu diễn 8.000 hình ảnh liệu STL-10 trích xuất từ mơ hình SiT tiền huấn luyện điều chỉnh 60 Hình 4.15 - Sự ý class token [CLS] sau giai đoạn tiền huấn luyện SiT theo hướng không giám sát tập liệu ImageNet sử dụng mơ hình transformer thị giác ViT-S/16 61 TÓM TẮT ĐỒ ÁN Đồ án "A Method For Self-Supervised Training Of Vision Transformers" tập trung vào việc nghiên cứu đề xuất phương pháp độc huấn luyện mơ hình Vision Transformer (ViT) tự giám sát từ liệu khơng có nhãn Vision Transformer kiến trúc lĩnh vực thị giác máy tính, sử dụng Transformer để xử lý thơng tin hình ảnh Tuy nhiên, việc huấn luyện mơ hình ViT yêu cầu lượng lớn liệu có nhãn, điều hạn chế ứng dụng tình có hạn chế liệu Trong đề tài này, em đề xuất phương pháp SiT (Self-Supervised Training of Vision Transformers) để huấn luyện mơ hình ViT từ liệu khơng có nhãn SiT sử dụng tự giám sát đánh giá tiền đề để tạo nhiệm vụ phụ cho mơ hình, bao gồm việc tái tạo ảnh học phản biện Đặc biệt, em kết hợp việc huấn luyện từ số lượng lớn ảnh bị biến đổi lựa chọn nhiệm vụ phụ phù hợp để tăng cường khả học phân biệt mơ hình Trong q trình thực đề tài, em tiến hành nghiên cứu thử nghiệm tập liệu ImageNet Kết cho thấy, phương pháp SiT vượt qua phương pháp tự giám sát tiên tiến khác đạt hiệu suất tốt việc phân loại ảnh Đồng thời, em thực nghiên cứu hiệu việc huấn luyện trường hợp khác nhau, bao gồm số lượng epoch, loại biến đổi liệu, tỷ lệ biến đổi phù hợp việc áp dụng nhiệm vụ phụ Từ kết đạt được, em nhận thấy tiềm ứng dụng rộng phương pháp SiT lĩnh vực thị giác máy tính SiT áp dụng tác vụ phân loại ảnh, phân đoạn phát đối tượng Điều mở cánh cửa cho việc sử dụng mơ hình ViT bối cảnh thực tế Tuy nhiên, từ đồ án em rút hạn chế phương pháp, bao gồm tài ngun tính tốn lớn cần thêm nghiên cứu để cải thiện khả tổng qt hóa khả diễn giải mơ hình Tóm lại, đồ án tổng quan trình bày nội dung, khái niệm đánh giá báo cáo ViT phương pháp huấn luyện tự giám sát, từ đề xuất nghiên cứu phương pháp độc huấn luyện mơ hình Vision Transformer tự giám sát từ liệu khơng có nhãn Phương pháp SiT đạt kết ấn tượng mang lại tiềm ứng dụng rộng lĩnh vực thị giác máy tính Tuy nhiên, cần tiếp tục nghiên cứu khắc phục hạn chế để đảm bảo hiệu suất ứng dụng phương pháp bối cảnh thực tế Chương GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài Đề tài "A Method For Self-Supervised Training Of Vision Transformers" lựa chọn thích hợp để em nghiên cứu tìm hiểu nhiều lý sau Mặc dù đề tài xuất từ trước, phương pháp Self-Supervised Training of Vision Transformers chưa phổ biến rộng rãi cộng đồng lập trình viên phần mềm Điều tạo hội để em nghiên cứu khám phá lĩnh vực mới, cập nhật kiến thức thị giác máy tính phương pháp huấn luyện tự giám sát Việc tìm hiểu nghiên cứu Self-Supervised Training of Vision Transformers không mở rộng kiến thức em lĩnh vực lập trình phần mềm, mà đưa em vào lĩnh vực giao cắt trí tuệ nhân tạo, thị giác máy tính học máy Điều giúp em hiểu rõ ứng dụng công nghệ việc giải vấn đề thực tế Self-Supervised Training of Vision Transformers có tiềm ứng dụng rộng rãi lĩnh vực nhận dạng hình ảnh Nắm vững phương pháp giúp em xây dựng hệ thống nhận dạng hình ảnh hiệu đáng tin cậy, từ việc phân loại đối tượng, phát vật thể phân đoạn hình ảnh nhận dạng khn mặt Nghiên cứu tìm hiểu phương pháp giúp em tìm giải pháp cải tiến để nâng cao hiệu suất Self-Supervised Training of Vision Transformers việc nhận dạng hình ảnh Điều bao gồm việc tối ưu hóa siêu tham số, tăng cường kiến trúc mơ hình kết hợp phương pháp với phương pháp khác để đạt kết tốt

Ngày đăng: 04/09/2023, 20:28

Xem thêm:

w