Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
9,49 MB
Nội dung
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN FINAL PROJECT FOOTBALL PLAYERS DETECTION USING DETR Người hướng dẫn: THẦY LÊ ANH CƯỜNG Người thực hiện: MAI BẢO THẠCH-520H0490 VÕ THANH DANH-520H0211 Lớp: 20H50302 Khố: 24 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN FINAL PROJECT FOOTBALL PLAYERS DETECTION USING DETR Người hướng dẫn: THẦY LÊ ANH CƯỜNG Người thực hiện: MAI BẢO THẠCH-520H0490 VÕ THANH DANH-520H0211 Lớp: 20H50302 Khoá: 24 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 LỜI CẢM ƠN Tơi muốn gửi lời cảm ơn đến thầy Lê Anh Cường hỗ trợ tơi suốt q trình làm việc dự án image captioning Các đóng góp, ý kiến giúp đỡ thành viên nhóm thầy Anh Cường giúp hiểu rõ tốn Football Players Detection hồn thiện mơ hình Tơi muốn gửi lời cảm ơn đến Khoa Cơng nghệ thơng tin hết lịng giúp đỡ, cung cấp thiết bị, giảng để chúng em hoàn thiện đề tài kỳ Xin chân thành cảm ơn TP Hồ Chí Minh, ngày tháng Tác giả (ký ghi rõ họ tên) i năm 2022 BÁO CÁO ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn khoa học Thầy Lê Anh Cường Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngồi ra, báo cáo cịn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hoàn toàn chịu trách nhiệm nội dung báo cáo Trường Đại học Tơn Đức Thắng khơng liên quan đến vi phạm tác quyền, quyền tơi gây q trình thực (nếu có) TP Hồ Chí Minh, ngày tháng Tác giả (ký ghi rõ họ tên) ii năm 2022 PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận giảng viên hướng dẫn _ _ _ _ _ _ TP Hồ Chí Minh, ngày tháng năm (kí ghi rõ họ tên) Phần đánh giá giảng viên chấm _ TP Hồ Chí Minh, ngày tháng (kí ghi rõ họ tên) iii năm TÓM TẮT DETR (Detection Transformer) mơ hình object detection sử dụng kiến trúc transformer để dự đốn vật thể ảnh Q trình sử dụng DETR cho việc phát cầu thủ bóng đá bao gồm bước sau: Chuẩn bị liệu: Bộ liệu phát cầu thủ bóng đá phải chuẩn bị gắn nhãn trước đưa vào huấn luyện mơ hình DETR Huấn luyện mơ hình: Sử dụng liệu chuẩn bị, ta huấn luyện mơ hình DETR Q trình tương tự huấn luyện mơ hình object detection khác Kiểm tra mơ hình: Sau huấn luyện xong, ta đánh giá mơ hình cách chạy tập liệu kiểm tra Phát cầu thủ bóng đá: Sử dụng mơ hình huấn luyện, ta dự đốn vị trí kích thước cầu thủ bóng đá ảnh Tối ưu hóa kết quả: Cuối cùng, ta tinh chỉnh kết cách sử dụng thuật toán để loại bỏ kết trùng lặp giữ lại kết xác iv Recommended for you Document continues below Correctional Administration Criminology 96% (113) English - huhu 10 10 Led hiển thị Preparing Vocabulary FOR UNIT Led hiển thị 100% (3) 100% (2) Trac nghiem reading tieng anh lop 11 unit 1… Học viện An ninh nhân… 100% (1) MỤC LỤC Contents LỜI CẢM ƠN i BÁO CÁO ĐƯỢC HOÀN THÀNH ii PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN .iii TÓM TẮT iv MỤC LỤC v CONTENT OF THE REPORT Chương 1: Mơ tả tốn hướng giải toán Chương 2: Các mơ hình sử dụng 2.1 Giới thiệu Datasets: 2.2 DETR model: 2.2.1 Tổng quát DETR model: 2.2.2 Pineline: 2.2.3 2D Positional Encoding: .5 2.2.4 Multihead attention: 2.2.5 Parallel decoding: 2.2.6 Object queries: 2.2.7 Learned positional encoding: 2.2.8 Object detection head: .8 2.2.9 Direct set prediction 2.2.10 Hungarian loss 10 2.2.11 Practical uses 10 Chương 3: Cách xây dựng mơ hình Football Players Detection 11 3.1 Xử lí Data: 11 3.1.1 Tạo Coco data loaders: .11 3.1.2 Định nghĩa collate_fn: 13 3.1.3 Tạo DataLoader: 14 3.1.4 Định nghĩa DETR model: 15 3.1.4.1 common_step: .18 v 3.1.4.1.1 Regularization L2: 19 3.1.4.2 training_step: 20 3.1.4.3 validation_step: 20 3.1.4.4 configure_optimizers: 21 3.1.4.5 parallel_decode: 22 3.2 Khởi tạo Model: 23 Chương 4: Kết 23 TÀI LIỆU THAM KHẢO 25 vi CONTENT OF THE REPORT Chương 1: Mô tả toán hướng giải toán Bài toán Football Players Detection toán phát định vị cầu thủ bóng đá trận đấu bóng đá Đây tốn quan trọng lĩnh vực thể thao ứng dụng để phân tích tình sân bóng, đánh giá kĩ cầu thủ cải thiện chiến thuật đội bóng Để giải tốn này, ta sử dụng mơ hình DETR (Detection Transformer), mơ hình object detection sử dụng kiến trúc transformer để dự đốn vật thể ảnh Mơ hình huấn luyện để phát định vị cầu thủ bóng đá ảnh Để sử dụng mơ hình DETR cho tốn Football Players Detection, ta cần chuẩn bị liệu phù hợp, chứa ảnh trận đấu bóng đá nhãn tương ứng với vị trí cầu thủ bóng đá ảnh Sau đó, ta huấn luyện mơ hình DETR với liệu để dự đốn vị trí kích thước cầu thủ bóng đá ảnh Sau huấn luyện xong, ta sử dụng mơ hình để phát định vị cầu thủ bóng đá ảnh Để tối ưu hóa kết quả, ta sử dụng thuật tốn post-processing non-maximum suppression để loại bỏ kết trùng lặp giữ lại kết xác Sử dụng mơ hình DETR cho tốn Football Players Detection cải thiện hiệu độ xác việc phát cầu thủ bóng đá ảnh, đồng thời giúp cho việc phân tích trận đấu bóng đá đánh giá kĩ cầu thủ trở nên dễ dàng 4.1.3 Average Recall: Average recall thước đo đánh giá hiệu suất mơ hình phát đối tượng đó, tính tổng số đối tượng phát tổng số đối tượng có sẵn tập liệu Trong việc đánh giá mơ hình DETR cho tác vụ football players detection, average recall sử dụng để đánh giá khả mơ hình phát cầu thủ hình ảnh Nếu average recall cao, có nghĩa mơ hình phát hầu hết đối tượng có sẵn tập liệu đầu vào Tuy nhiên, khơng quan tâm đến vị trí xác bounding box dự đoán, điều đánh giá Average Precision 4.2 Kết chạy với DETR: 4.2.1 Kết quả: Kết cho tốt, nhận biết xác cầu thủ sân, có chút khơng xác nhận biết trọng tài thứ hai nhận dạng banh 29 4.2.2 Đánh giá: 4.2.2.1 Code: 30 4.2.2.2 Kết quả: Trong trường hợp này, giá trị IoU tính từ 0,5 đến 0,95, có nghĩa đối tượng coi phát phần giao đối tượng thực tế lớn 50% nhỏ 95% Với giá trị tham số trên, kết đánh giá 0.195, có nghĩa độ xác mơ hình phát đối tượng thấp, đạt khoảng 19.5% so với đối tượng thực tế liệu Còn Average Recall, maxDets: số lượng đối tượng phát tối đa mà mơ hình phép đưa cho hình ảnh liệu Trong trường hợp này, số lượng đối tượng tối đa Với giá trị tham số trên, kết đánh giá 0.112, có nghĩa tỷ lệ đối tượng phát tất kích thước đối tượng liệu thấp, đạt khoảng 11.2% Tỷ lệ cải thiện cách cải thiện mơ hình phát đối tượng tinh chỉnh tham số mơ hình 31 4.3 Kết chạy so sánh với Deformable DETR: 4.3.1 Định nghĩa Model Deformable DETR: Model Deformable DETR (Detection Transformer with Deformable Attention) mơ hình phát vật thể phát triển Facebook AI Research (FAIR) Model kết hợp hai mơ hình tiên tiến xử lý ảnh điểm danh (object detection) DETR Deformable Convolutional Networks (DCN) Figure 1: Illustration of the proposed Deformable DETR object detector DETR mơ hình xử lý ảnh sử dụng Transformer để thực điểm danh vật thể, loại bỏ hoàn toàn phụ thuộc vào Region Proposal Networks (RPN) Faster R-CNN, cải thiện tốc độ xử lý độ xác mơ hình 32 Figure 2: Illustration of the proposed deformable attention module Deformable DETR có khoảng 65 triệu tham số huấn luyện liệu phổ biến COCO Pascal VOC Thời gian huấn luyện mơ hình phụ thuộc vào cấu hình cụ thể máy tính, thường khoảng vài ngày chí tuần 4.3.2 Deformable Convolution: Deformable convolution phiên cải tiến convolution thông thường mạng Convolutional Neural Network (CNN) Trong convolution thơng thường, kernel (hay cịn gọi lọc) áp dụng lên vùng cụ thể ảnh để tạo đặc trưng Deformable convolution cho phép mơ hình học cách thay đổi hình dạng kernel convolution để phù hợp với hình dạng cụ thể đối tượng ảnh Thay áp dụng kernel cố định lên vùng, deformable convolution cho phép điểm kernel di chuyển tương đối vị trí gốc, dựa thơng tin đặc trưng vùng quan tâm Cách thức hoạt động deformable convolution bao gồm bước sau: 33 Tính tốn độ lệch (offsets): Một tầng convolutional riêng sử dụng để dự đoán giá trị độ lệch cho điểm kernel convolution Giá trị độ lệch xác định dịch chuyển tương đối điểm kernel Tính tốn vị trí điểm kernel: Các giá trị độ lệch sử dụng để tính tốn vị trí điểm kernel, dựa vị trí gốc độ lệch Điều tạo kernel có hình dạng thay đổi Áp dụng convolution: Kernel điều chỉnh áp dụng lên vùng ảnh, tương tự convolution thơng thường Tuy nhiên, kernel có hình dạng thay đổi, việc áp dụng convolution tạo đặc trưng phù hợp với hình dạng đối tượng Deformable convolution sử dụng Deformable DETR để tăng cường khả biểu diễn định vị đối tượng ảnh Việc cho phép điểm kernel di chuyển tương đối giúp mơ hình nắm bắt biến đổi hình dạng thơng tin vị trí đối tượng cách linh hoạt hơn, từ cải thiện khả phát theo dõi mơ hình 4.3.2.1 Cấu trúc Deformable DETR: 4.3.2.1.1 Backbone: Backbone Deformable DETR mạng Convolutional Neural Network (CNN) sử dụng để trích xuất đặc trưng từ ảnh đầu vào Thông thường, backbone phổ biến sử dụng Deformable DETR ResNet EfficientNet, sử dụng mạng CNN khác Mục đích backbone trích xuất thơng tin đặc trưng từ ảnh đầu vào, tức biến đổi ảnh thành loạt đặc trưng có ý nghĩa cao có khả phát đối tượng Điều giúp cung cấp cho Deformable DETR mơ hình mạnh mẽ để nắm bắt thông tin quan trọng ảnh tạo biểu diễn đặc trưng sử dụng trình phát theo dõi 34 Trong Deformable DETR, backbone không sử dụng deformable Điều có nghĩa backbone khơng áp dụng phép biến đổi hình thức đặc biệt deformable convolution Thay vào đó, sử dụng phép tích chập thơng thường để trích xuất đặc trưng Tuy nhiên, mơ hình Deformable DETR sử dụng deformable convolution phần mã hóa (encoder) để tăng cường khả biểu diễn vùng quan tâm đối tượng Việc sử dụng deformable convolution encoder giúp mơ hình mạnh việc nắm bắt biến đổi hình thái thơng tin vị trí đối tượng ảnh, từ cải thiện khả phát theo dõi Deformable DETR 4.3.2.1.2 Encoder: Trong Deformable DETR, phần Encoder có nhiệm vụ chuyển đổi thông tin đặc trưng từ backbone thành đầu vào cho mạng Transformer Quá trình thực cách sử dụng mạng Convolutional Neural Network (CNN) để trích xuất đặc trưng từ ảnh đầu vào, sau áp dụng deformable convolution để tăng cường khả biểu diễn định vị đối tượng ảnh Một điểm khác biệt quan trọng Deformable DETR so với DETR việc sử dụng deformable convolution encoder Việc sử dụng deformable convolution cho phép mơ hình học cách biến đổi hình dạng vùng quan tâm đối tượng (ROI), từ tăng cường khả phát theo dõi đối tượng ảnh Deformable convolution phiên cải tiến convolution thông thường, cho phép mơ hình học cách thay đổi hình dạng kernel convolution để phù hợp với hình dạng đối tượng Điều giúp mơ hình có khả biểu diễn đối tượng có hình dạng kích thước khác nhau, từ cải thiện khả phát theo dõi Ngoài việc sử dụng deformable convolution, Encoder Deformable DETR sử dụng số kỹ thuật khác để tăng cường khả biểu diễn định vị đối tượng, bao gồm multi-scale feature fusion, positional encoding, feature 35 normalization Việc kết hợp kỹ thuật giúp mơ hình có khả xử lý ảnh đa tầng biểu diễn đối tượng ảnh cách hiệu 4.3.2.1.3 Transformer in Deformable DETR: Transformer kiến trúc mạng neural mạnh mẽ hiệu sử dụng Deformable DETR để xử lý thơng tin đặc trưng mã hóa thực trình phát theo dõi đối tượng ảnh Kiến trúc Transformer dựa chế Attention (sự ý) để tạo đại diện (embeddings) cho đối tượng ảnh Transformer sử dụng hai loại Attention Self-Attention (chú ý đến thân) Cross-Attention (chú ý chéo) để xử lý thơng tin đặc trưng Trong q trình Self-Attention, vị trí đặc trưng kết hợp với tất vị trí khác đặc trưng Việc cho phép mơ hình "chú ý" đến mối quan hệ vị trí xác định tương quan chúng Quá trình giúp tạo đại diện tổng thể cho đặc trưng Trong trình Cross-Attention, đại diện vị trí đặc trưng ý đến vị trí đặc trưng khác Điều cho phép mơ hình xác định tương quan vị trí đặc trưng khác Q trình giúp liên kết thơng tin đặc trưng xử lý tương tác đối tượng Transformer Deformable DETR sử dụng lớp tổng hợp lớp tích chập để biểu diễn xử lý thông tin Các lớp tổng hợp (Pooling) sử dụng để giảm kích thước đặc trưng tạo biểu diễn tổng quát đối tượng Các lớp tích chập sử dụng để tạo đặc trưng cụ thể phát đặc điểm quan trọng đối tượng Khơng có sử dụng deformable phần Transformer Deformable DETR Transformer Deformable DETR tập trung vào việc xử lý thông tin tạo đại diện cho đối tượng ảnh cách hiệu cách sử dụng lớp tổng hợp, lớp tích chập chế Attention 36 4.3.2.1.4 Decoder: Phần Decoder Deformable DETR chịu trách nhiệm giải mã thông tin từ Transformer để dự đốn thơng tin đối tượng ảnh, bao gồm hộp giới hạn (bounding box) nhãn (label) Sau thông tin đặc trưng xử lý phần Encoder qua mạng Transformer, đại diện đối tượng truyền vào phần Decoder để tạo dự đốn vị trí nhãn đối tượng Trong trình giải mã, Decoder sử dụng lớp tổng hợp lớp tích chập để tính tốn thơng số cần thiết cho việc phát theo dõi đối tượng Các lớp tổng hợp (Pooling) sử dụng để tạo đại diện tổng quát đối tượng từ đại diện truyền từ Transformer Các lớp tích chập (Convolutional layers) sử dụng để tính tốn thơng số chi tiết vị trí đặc trưng đối tượng Qua trình giải mã, Decoder tạo dự đoán hộp giới hạn nhãn cho đối tượng ảnh Thông qua lớp tổng hợp, lớp tích chập phép biến đổi khác, mơ hình tìm cách tối ưu hóa dự đốn định vị xác đối tượng ảnh Khơng có sử dụng deformable phần Decoder Deformable DETR Phần tập trung vào việc giải mã thơng tin dự đốn thơng số vị trí nhãn đối tượng cách xác thơng qua sử dụng lớp tổng hợp, lớp tích chập phép biến đổi thông thường 4.3.2.1.5 Loss Function: Trong Deformable DETR, hàm mát (loss function) sử dụng để đánh giá độ xác dự đoán, bao gồm hộp giới hạn nhãn đối tượng ảnh Hàm mát thiết kế để đảm bảo hộp giới hạn dự đoán tương ứng với hộp giới hạn thực tế đối tượng phát Deformable DETR sử dụng "set-based global loss" tương tự DETR Hàm mát thực so sánh tập hộp giới hạn dự đoán tập hộp giới hạn thực 37 tế Điều thực cách sử dụng phép biến đổi thuật toán gán tiền chất (Hungarian algorithm) để ánh xạ hộp giới hạn dự đoán với hộp giới hạn thực tế tương ứng cho độ xác cao Hàm mát có mục tiêu tối thiểu hóa khoảng cách hộp giới hạn dự đoán hộp giới hạn thực tế Đồng thời, đảm bảo đối tượng phát cách xác định đối tượng có mức độ gán tiền chất (matching) cao Điểm không liên quan trực tiếp đến việc sử dụng deformable Thay vào đó, hàm mát thiết kế dựa quy trình so khớp gán tiền chất hộp giới hạn dự đốn thực tế, khơng liên quan đến việc sử dụng deformable convolution q trình trích xuất đặc trưng hay phần khác mơ hình 4.3.3 Kết chạy đánh giá sử dụng Deformable DETR: Kết cho xác, nhận dạng cầu thủ, banh trọng tài nhiên lại gắn sai nhãn vài object 38 Còn kết đánh giá Average Precision Average Recall cho tốt 39 4.3.4 So sánh với DETR: DETR Deformable DETR 4.4 Kết luận: Vậy theo kết so sánh dễ dàng nhìn deformable DETR cho kết nhận diện tốt dựa Avarage Pricision (tất số đánh giá Avarage Pricision Deformable DETR tốt nhiều so với DETR), ví dụ IoU khoảng 0.5 tới 0.95, nhận diện toàn vật thể cho điểm 0.425 lớn nhiều so với 0.197 DETR Nói Average Recall cho kết tốt 40 Trên hình ảnh nhận diện thực tế nhận diện xác nhận diện trái bóng Tuy nhiên, kết chưa xác, em làm datasets khác nhiều cho kết tốt 41 TÀI LIỆU THAM KHẢO Link Datasets from Roboflow (https://universe.roboflow.com/roboflow- jvuqo/football-players-detection-3zvbc ) 42 Recommended for you Correctional Administration Criminology 96% (113) English - huhu 10 10 Led hiển thị Preparing Vocabulary FOR UNIT Led hiển thị 100% (3) 100% (2) Trac nghiem reading tieng anh lop 11 unit 1… Học viện An ninh nhân… 100% (1)