Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.4. Kết quả thực nghiệm và đánh giá
4.4.1.Kết quả thực nghiệm
MS-COCO API được chúng tơi sử dụng để tính tốn độ đo 𝑚𝐴𝑃 cho 3 phương pháp phát hiện đối tượng SOTA trên bộ dữ liệu UIT-DroneFog. Kết quả chi tiết được thể hiện ở Bảng 4.1.
Kiến trúcPedestrianMotorCarBus mAP AP𝟓𝟎 AP𝟕𝟓
Cascade R-CNN 2.10 34.50 56.80 38.40 32.90 45.80 38.50
Guided
Anchoring 2.6035.10 56.10 33.80 31.90 46.50 36.70 Double-Head 1.60 33.20 58.7039.2033.2047.5038.90
Bảng 4.1: Bảng kết quả thực nghiệm với thông số mặc định trên các phương pháp phát hiện đối tượng. Kết quả tốt nhất được in đậm (%).
4.4.2.Trực quan hóa kết quả
• Trường hợp model dự đốn tốt (good case)
(a) Guided Anchoring
47 (b) Double-
Head
(c) Cascade R-CNN
Hình 4.6: Ảnh kết quả dự đốn tốt khi chạy thực nghiệm với thông số mặc định. (a) Guided Anchoring, (b) Double-Head, (c) Cascade R-CNN.
Nhận xét: Phần lớn các lớp đối tượng được mơ hình phát hiện đúng, hiếm gặp tình trạng bị bỏ sót đối tượng hoặc chồng lắp Bounding box. Tuy nhiên, đối với phương pháp Guided Anchoring, các Bounding box lớp đối tượng kém hoàn hảo hơn so với hai phương pháp cịn lại và một vài đối tượng kích thước q nhỏ thì khơng được phát hiện.
48
• Trường hợp model dự đốn xấu (bad case)
(a)
49 (c)
Hình 4.7: Ảnh kết quả dự đốn xấu khi chạy thực nghiệm với thông số mặc định (a) Guided Anchoring, (b) Double-Head, (c) Cascade R-CNN.
Nhận xét: Lớp đối tượng Car và Bus bị phát hiện thiếu bởi mơ hình Guided Anchoring và Double-Head và thường có Bounding box chưa hồn hảo ở mơ hình Cascade R-CNN. Ngồi ra, lớp đối tượng Pedestrian bị các mơ hình phát hiện nhầm thành đối tượng Motor và còn bị chồng lắp Bounding box.
4.4.3.Đánh giá kết quả
Từ bảng kết quả của ba phương pháp chạy thực nghiệm trên bộ dữ liệu UIT- DroneFog, ta có thể thấy rằng phương pháp Guided Anchoring có kết quả kém nhất với điểm 𝑚AP chỉ đạt 31.90%, tuy nhiên, phương pháp này lại đạt kết quả tốt nhất khi phát hiện hai lớp đối tượng Pedestrian (2.60%) và Motor (35.10%). Trong khi đó, Double-Head cho thấy kết quả tốt nhất khi phát hiện lớp đối tượng Car và Bus, đặc biệt kết quả với Bus là 39.20% (cao hơn 5.40% so với Guided Anchoring). Mặt khác, Cascade R-CNN mặc dù là phương pháp multi-stage nhưng chỉ đạt hiệu quả cao đối với lớp đối tượng Pedestrian còn đối với các điểm 𝑚AP, AP50, AP75 đều thấp hơn so với Double-Head. Điều này cho thấy, đề xuất sử dụng fully connected head cho tác vụ phân loại đối tượng và convolution head cho tác vụ xác định vị trí
50
đối tượng có hiệu quả hơn thay vì sử dụng fully connected head cho cả hai tác vụ như trong kiến trúc multi-stage của Cascade R-CNN.
Xét riêng về các lớp đối tượng:
• Pedestrian: Đây là lớp đối tượng có điểm số 𝑚𝐴𝑃 dự đoán thấp nhất trong bộ dữ liệu mặc dù số lượng đối tượng trong cả ba tập dữ liệu khơng q ít. Lớp đối tượng này cũng dễ bị nhầm lẫn thành lớp Motor.
• Motor: Đây là lớp đối tượng có số lượng đối tượng lớn nhất nhưng kết quả phát hiện khơng q cao bởi vì thường bị nhầm lẫn với đối tượng Pedestrian và bị phát hiện xó. Lý do cho vấn đề này là bởi vì ở một số bối cảnh quay tại nơi có mật độ Motor cao, các đối tượng này bị che khuất bởi nhau và đối với một số góc máy kích thước của lớp Motor quá nhỏ và đơi khi khơng có sự khác biệt đáng kể nào giữa Motor và Pedestrian. • Car: Là đối tượng có điểm số 𝑚AP cao nhất. Tuy nhiên, đối tượng này
vẫn hay bị phát hiện thiếu hoặc bị nhầm với một số phương tiện khác không là đối tượng được đề cập trong bộ dữ liệu.
• Bus: Mặc dù phân phối lớp Bus thấp nhất trong bộ dữ liệu nhưng kết quả của phát hiện lại gần như ngang bằng với lớp Motor. Nguyên nhân chính dẫn tới kết quả khả quan của lớp Bus là bởi vì đặc trưng hình dạng và kích thước của các đối tượng Bus quá khác biệt, chúng thường to gấp nhiều lần so với cả ba loại đối tượng cịn lại. Điều này cho phép các mơ hình phát hiện đối tượng này dễ dàng hơn mặc dù dữ liệu huấn luyện ít.
51