Trong đó, TP và FN những điểm được dự đốn đúng (xét trên lớp C) và FP, TN là những điểm được dự đoán sai. Như vậy, Precision là độ đo đánh giá độ tin cậy của dự đoán đưa ra (tỉ lệ các điểm thực sự thuộc lớp C trên tất cả các điểm được dự đốn là lớp C), cịn Recall là độ đo đánh giá khả năng tìm kiếm tồn bộ ground- truth mà mơ hình dự đốn được đúng (tỉ lệ các điểm thuộc lớp C trên tất cả các điểm được dự đoán đúng).
4.3.2.3.AP và mAP
Dựa vào việc quan sát giá trị của Precision và Recall, người ta có thể đánh giá mơ hình có tốt hay khơng.
49
Hình 4.6 Minh họa vùng mà cơng thức tính AP tính tốn.
AP (Average Precision) là đường cong Precision-Recall (Precision-Recall curve) dùng để tính diện tích phần phía dưới đường theo dõi màu xanh của hình 4.6, thường được tính xấp xỉ bằng cơng thức:
𝐴𝑃 = ∑(𝑅𝑛 − 𝑅𝑛 − 1) 𝑛
𝑃𝑛
mAP (Mean Average Precision) là trung bình điểm số AP của n class và được định nghĩa bằng công thức sau:
𝑚𝐴𝑃 =1
𝑛∑ 𝐴𝑃𝑖 𝑛
𝑖=1
Chúng tôi sử dụng độ đo AP@50 – AP tại IoU = 50% (tương tự độ đo của PASCAL VOC) của MS COCO8 để đánh giá mơ hình.
4.4.Kết quả
Trong phần này, để có thể trình bày ngắn gọn hơn, tơi sẽ gọi tên các mơ hình theo cú pháp <Tên mơ hình>-<Backbone>-<Số epoch>-<MS> với MS là mơ hình được huấn luyện multi-scale.
50
4.4.1.Kết quả thực nghiệm phương pháp Faster R-CNN 4.4.1.1.Kết quả thực nghiệm 4.4.1.1.Kết quả thực nghiệm
Bảng 4.2 Kết quả thực nghiệm Faster R-CNN. (Kết quả cao nhất được in đậm)
Từ bảng 4.2, ta thấy cả 6 mơ hình Faster R-CNN đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 23.3%. Trong đó, mơ hình Faster R-CNN-ResNet50-24-MS có kết quả tốt nhất trên các tập test, fog, high-alt và front-view. Mơ hình Faster R- CNN-ResNet50-12 có kết quả tốt nhất trên tập daylight, night, medium-alt, front- view, side-view và long-term. Mơ hình Faster R-CNN-ResNet101-24-MS có kết quả tốt nhất trên tập low-alt và bird-view. Tuy nhiên, so với 2 mơ hình sử dụng backbone ResNet50 vừa được đề cập có kết quả không quá chênh lệch, mơ hình Faster R-CNN-ResNet101-24-MS mất nhiều thời gian huấn luyện nhất nhưng có kết quả thấp hơn hẳn khi dự đốn ở các trường hợp ngồi low-alt và bird-view.
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp, cịn ResNet101 thì chỉ cải thiện rõ rệt ở tập low-alt, high-alt và bird-view.
Xét về từng thuộc tính của bộ dữ liệu, cả 6 mơ hình Faster R-CNN đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.
51
4.4.1.2.Hình ảnh minh họa
Trong phần này, chúng tôi trực quan mơ hình sử dụng backbone ResNet50 và ResNet101 có kết quả cao nhất trên tập test so với các mơ hình cùng backbone cịn lại.
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-24-mstrain
b) ResNet101-12
Hình 4.7 Ảnh minh họa kết quả dự đốn tốt của các mơ hình Faster R-CNN.
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ảnh dự đốn bởi ResNet101-12 cịn sót vài đối tượng.
52
Trường hợp mơ hình dự đốn kém
a) ResNet50-24-mstrain
b) ResNet101-12
Hình 4.8 Ảnh minh họa kết quả dự đốn kém của các mơ hình Faster R-CNN.
Nhận xét: Các đối tượng gần như khơng thể dự đốn được đối với ảnh có cả thuộc tính fog và high-alt.
53
4.4.2.Kết quả thực nghiệm phương pháp D2Det 4.4.2.1.Kết quả thực nghiệm 4.4.2.1.Kết quả thực nghiệm
Bảng 4.3 Kết quả thực nghiệm D2Det. (Kết quả cao nhất được in đậm)
Từ bảng 4.3, cả 6 mơ hình D2Det đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 28%. Cụ thể, mơ hình D2Det-ResNet50-12 có kết quả tốt nhất trên các tập test, daylight, medium-alt, front-view, bird-view và long-term. Mơ hình D2Det- ResNet50-24 có kết quả tốt nhất trên tập night. Mơ hình D2Det-ResNet50-24-MS có kết quả tốt nhất trên các tập fog, high-alt. Mơ hình D2Det-ResNet101-12 có kết quả tốt nhất trên tập low-alt và side-view. So với các mơ hình vừa đề cập, mơ hình D2Det-ResNet50-12 có thời gian huấn luyện thấp nhất nhưng có độ hiệu quả vượt trội hơn (kết quả dự đốn khơng q chênh lệch ở các trường hợp không cao nhất).
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn ResNet50 nhưng kết quả dự đốn khơng q chênh lệch (trừ D2Det-ResNet50-12). Việc huấn luyện multi-scale khơng có cải thiện rõ rệt trong kết quả.
Xét về từng thuộc tính của bộ dữ liệu, cả 6 mơ hình D2Det đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.
54
4.4.2.2.Hình ảnh minh họa
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-12
b) ResNet101-12
Hình 4.9 Ảnh minh họa kết quả dự đốn tốt của các mơ hình D2Det.
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box nhưng cả 2 đều bị sót vài đối tượng.
55
Trường hợp mơ hình dự đốn kém
a) ResNet50-12
b) ResNet101-12
Hình 4.10 Ảnh minh họa kết quả dự đốn kém của các mơ hình D2Det.
Nhận xét: ResNet50-12 dự đoán được nhiều đối tượng hơn so với ResNet101-12. Tuy nhiên, cả 2 mơ hình vẫn cịn sót rất nhiều đối tượng.
Trong q trình thực nghiệm, có 2 mơ hình tơi chưa thể trực quan hóa được, song, nó khơng ảnh hưởng đến kết quả đánh giá. 2 mơ hình chưa thể trực quan hóa là D2Det với backbone ResNet50 và ResNet101 được huấn luyện multi-scale trong vòng 24 epoch.
56
4.4.3.Kết quả thực nghiệm phương pháp DetectoRS
Đối với DetectoRS, tơi lựa chọn sử dụng cấu hình với baseline là Cascade R- CNN [15] với RFP, SAC riêng biệt để thực nghiệm.
4.4.3.1.Kết quả thực nghiệm
Bảng 4.4 Kết quả thực nghiệm DetectoRS. (Kết quả cao nhất được in đậm)
Từ bảng 4.4, ta thấy cả 10 mơ hình DetectoRS đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 30.1%. Cụ thể, mơ hình DetectoRS-ResNet101-24-MS sử dụng SAC có kết quả tốt nhất trên các tập test, daylight, fog, medium-alt, front-view, side-view và bird-view. Mơ hình DetectoRS-ResNet50-24-MS sử dụng SAC có kết quả tốt nhất trên tập high-alt và bird-view. Mơ hình DetectoRS-ResNet50-24 sử dụng RFP có kết quả tốt nhất trên tập night và long-term. Mơ hình DetectoRS- ResNet50-12 sử dụng RFP có kết quả tốt nhất trên tập low-alt. Ngồi ra, bỏ qua mơ hình được huấn luyện multi-scale (do giới hạn về GPU của thiết bị nên tôi đã không thể huấn luyện multi-scale cho các phương pháp RFP), độ hiệu quả của RFP trong mơ hình với backbone ResNet50 có sự chênh lệch với mơ hình sử dụng SAC, cịn với backbone ResNet101 thì khơng rõ ràng.
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn nhưng kết quả
57
khơng có nhiều chênh lệch. Việc huấn luyện multi-scale trên ResNet50 khơng hiệu quả, cịn ResNet101 thì có cải thiện rõ rệt.
Xét về từng thuộc tính của bộ dữ liệu, cả 10 mơ hình DetectoRS đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng mơ hình DetectoRS-ResNet50- 24 có kết quả khá tốt trên cả tập night và long-term.
4.4.3.2.Hình ảnh minh họa
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-24-RFP
b) ResNet101-24-mstrain-SAC
58
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp Bounding-box. Tuy nhiên cả 2 vẫn có đối tượng bị bỏ sót.
Trường hợp mơ hình dự đốn kém
a) ResNet50-24-RFP
b) ResNet101-24-mstrain-SAC
Hình 4.12 Ảnh minh họa kết quả dự đốn kém của các mơ hình DetectoRS.
Nhận xét: Các đối tượng khơng dự đốn được đối với ResNet50-24-RFP. Với ResNet101-24-mstrain-SAC, mơ hình dự đốn được một vài đối tượng nhưng vẫn cịn sót rất nhiều đối tượng khác.
59
4.4.4.Kết quả thực nghiệm phương pháp TOOD 4.4.4.1.Kết quả thực nghiệm 4.4.4.1.Kết quả thực nghiệm
Bảng 4.5 Kết quả thực nghiệm TOOD. (Kết quả cao nhất được in đậm)
Từ bảng 4.5, ta thấy cả 6 mơ hình TOOD đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 31.9%. Trong đó, mơ hình TOOD-ResNet50-12 có kết quả tốt nhất trên các tập fog, high-alt và bird-view. Mơ hình TOOD-ResNet50-24 có kết quả tốt nhất trên tập test, night, medium-alt, front-view và long-term. Mơ hình TOOD- ResNet50-24-MS có kết quả tốt nhất trên tập daylight, low-alt và side-view.
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác.
Xét về từng thuộc tính của bộ dữ liệu, cả 5 mơ hình TOOD đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng TOOD-ResNet50-24 có kết quả dự đốn tốt (57%) trên tập night.
60
4.4.4.2.Hình ảnh minh họa
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-24
b) ResNet101-12
Hình 4.13 Ảnh minh họa kết quả dự đoán tốt của các mơ hình TOOD.
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Tuy nhiên, cả hai vẫn sót vài đối tượng.
61
Trường hợp mơ hình dự đốn kém
a) ResNet50-24
b) ResNet101-12
Hình 4.14 Ảnh minh họa kết quả dự đốn kém của các mơ hình TOOD.
Nhận xét: Các đối tượng khơng dự đốn được đối với ResNet101-12. Còn ResNet50-24 cũng chỉ phát hiện đc vài đối tượng.
62
4.4.5.Kết quả thực nghiệm phương pháp VFNet 4.4.5.1.Kết quả thực nghiệm 4.4.5.1.Kết quả thực nghiệm
Bảng 4.6 Kết quả thực nghiệm VFNet. (Kết quả cao nhất được in đậm)
Từ bảng 4.6, ta thấy cả 6 mơ hình VFNet đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 29.9%. Trong đó, mơ hình VFNet-ResNet50-24-MS có kết quả tốt nhất trên các tập test, daylight, night, medium-alt, front-view, side-view và long- term. Mơ hình VFNet-ResNet101-24-MS có kết quả tốt nhất trên tập fog, high-alt và bird-view. Mơ hình VFNet-ResNet50-24 có kết quả tốt nhất trên tập low-alt.
Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp nhưng khơng quá chênh lệch.
Xét về từng thuộc tính của bộ dữ liệu, các mơ hình VFNet (ngoại trừ VFNet- ResNet101-12) đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.
63
4.4.5.2.Hình ảnh minh họa
Trường hợp mơ hình dự đốn tốt:
a) ResNet50-24-mstrain
b) ResNet101-24
Hình 4.15 Ảnh minh họa kết quả dự đốn tốt của các mơ hình Faster R-CNN.
Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ResNet50-24-mstrain được dự đốn tốt nhất, cịn ResNet101-24 thì sót 1 đối tượng.
64
Trường hợp mơ hình dự đốn kém
a) ResNet50-24-mstrain
b) ResNet101-24
Hình 4.16 Ảnh minh họa kết quả dự đốn kém của các mơ hình Faster R-CNN.
Nhận xét: Cả 2 mơ hình đều chỉ dự đốn được số ít đối tượng. Trong đó, ResNet101-24 dự đốn được nhiều hơn so với ResNet50-24-mstrain nhưng không đáng kể.
65
4.5.Đánh giá 4.5.1.So sánh 4.5.1.So sánh
Từ kết quả thực nghiệm của từng phương pháp, các kết quả dự đốn của mơ hình sử dụng backbone ResNet101 hầu hết đều thấp hơn hoặc không quá chênh lệch với mơ hình sử dụng ResNet50 nên tôi chỉ so sánh kết quả của các mơ hình với ResNet50. Lưu ý, đối với kết quả của DetectoRS, tôi chỉ đưa vào 2 mơ hình DetectoRS-ResNet50-12 và DetectoRS-ResNet50-24 sử dụng RFP và mơ hình DetectoRS-ResNet50-24-MS sử dụng SAC.
Bảng 4.7 Tổng hợp kết quả tốt nhất của các phương pháp. (Kết quả cao nhất được in đậm)
Về tổng quát, ta thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-Benchmark-M khi mơ hình TOOD-ResNet50-24 có kết quả tốt nhất chỉ với AP@50 = 31.9%. Khi so sánh các phương pháp với cùng thông số huấn luyện, phương pháp TOOD có các kết quả tốt hơn hẳn các phương pháp khác còn Faster R-CNN cho kết quả thấp nhất. Về thời gian huấn luyện, phương pháp DetectoRS mất hơn gấp đôi lượng thời gian của các phương pháp khác.
66 Xét các thuộc tính về điều kiện chiếu sáng:
• Daylight: mơ hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 28.9 %. Các mơ hình TOOD khác cũng cao hơn hẳn các mơ hình cùng thơng số huấn luyện cịn lại và Faster R-CNN thấp nhất. • Night: tuy chỉ có mơ hình TOOD-ResNet50-24 và DetectoRS-
ResNet50-24 có kết quả khá tốt (57% và 58%), song, các kết quả còn lại cũng không quá thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 34.6%). Đây là trường hợp thu được kết quả cao nhất trong nhóm thuộc tính về điều kiện chiếu sáng.
• Fog: Đây là trường hợp thu được kết quả thấp nhất trong nhóm thuộc tính về điều kiện chiếu sáng. Mơ hình có kết quả tốt nhất là VFNet- ResNet50-24 với AP@50 = 21.6 %. Các mơ hình TOOD cũng khơng q chênh lệch so với mơ hình của VFNet. Thấp nhất vẫn là Faster R- CNN.
Xét các thuộc tính về độ cao của thiết bị bay:
• Low-alt: Đây là thuộc tính có kết quả dự đốn cao nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M khi được tất cả mơ hình thực nghiệm dự đốn với độ chính xác hơn 50 %. Trong đó, kết quả tốt nhất là TOOD-ResNet50-24-MS với AP@50 = 67%. Đồng thời, TOOD là phương pháp duy nhất với cả 3 mơ hình có độ chính xác hơn 60 %.
• Medium-alt: Đây là trường hợp mà các phương pháp có kết quả không quá chênh lệch và không hiệu quả với kết quả tốt nhất là 36.9 % thuộc về mơ hình TOOD-ResNet50-24.
• High-alt: Đây là trường hợp thu được kết quả thấp nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M. Các kết quả không quá chênh lệch và không hiệu quả. Kết quả tốt nhất là mơ hình VFNet-ResNet50-24 với AP@50 = 17.5 %. Các mơ hình TOOD cũng
67
không quá chênh lệch so với mơ hình của VFNet. Thấp nhất vẫn là Faster R-CNN.
Xét các thuộc tính về góc quay của camera:
• Front-view: Mơ hình có kết quả tốt nhất là TOOD-ResNet50-24 với