• Đầu tiên, sau khi tải về bộ dữ liệu, tôi tái cấu trúc cách tổ chức của bộ dữ liệu và tiến hành thay đổi định dạng annotation từ tệp TXT thành MS COCO JSON đơn giản theo mẫu của mmdetection như đã đề cập tại phần 4.1.
• Sau đó, tơi tiến hành huấn luyện các phương pháp Faster R-CNN, D2Det, DetectoRS, TOOD, VFNet trên bộ dữ liệu ở bước trước đó với các cấu hình sẽ được đề cập tại phần 4.2.2. Các mơ hình này sẽ được đánh giá trên tập validation sau mỗi epoch.
• Kết thúc quá trình huấn luyện, tơi lựa chọn bộ trọng số tại epoch cho kết quả cao nhất để dự đoán trên tập test tổng quát và 10 tập test tương ứng với 10 thuộc tính của bộ dữ liệu. Tôi sử dụng độ đo AP,
46
IoU để đánh giá độ hiệu quả của các mơ hình. Đầu ra là ảnh chứa các bounding box cùng nhãn tương ứng và độ chính xác của mơ hình.
4.2.2.Cấu hình thực nghiệm
Tồn bộ q trình thực nghiệm đều được chạy trên GPU GeForce RTX 2080 Ti GPU với bộ nhớ 11019MiB. Các mơ hình được huấn luyện trên mmdetection framework phiên bản 2.22.0 với backbone ResNet-50 và ResNet-101, riêng D2Đet sử dụng mmdetection framework phiên bản 2.1.0. Với mỗi phương pháp thực nghiệm, tơi tiến hành huấn luyện mơ hình với cấu hình mặc định được cung cấp bởi framework trong 12 epoch và 24 epoch. Trong trường hợp 24 epoch sẽ gồm 2 mơ hình có và khơng có multi-scale training với 2 scale là (1333, 480) và (1333, 960).
4.3.Phương pháp đánh giá 4.3.1.Intersection over Union 4.3.1.Intersection over Union
Intersection over Union (IoU) là chỉ số đánh giá thường được dùng để đo độ chính xác của các phương pháp phát hiện đối tượng, IoU có thể được dùng để đánh giá mọi thuật tốn có khả năng dự đốn ra các bounding box. Cách tính IoU được thể hiện qua hình sau đây: