Phương pháp đánh giá

4.3.1. Intersection over Union

Intersection over Union (IoU) là chỉ số đánh giá thường được dùng để đo độ chính xác của các phương pháp phát hiện đối tượng, IoU có thể được dùng để đánh giá mọi thuật toán có khả năng dự đoán ra các bounding box. Cách tính IoU được thể hiện qua hình sau đây:

47 Trong đó:

• Area of Overlap là diện tích phần giao giữa bounding box được dự đoán và bounding box ground-truth.

• Area of Union là diện tích phần hợp giữa 2 bounding box trên.

Lý do khiến IoU được sử dụng nhiều trong việc đánh giá các phương pháp phát hiện đối tượng là do trong thực tế, các tọa độ x, y của bounding box được dự đoán khó có thể chính xác hoàn toàn với các tọa độ của ground-truth bounding box, và ta cần một phương pháp đánh giá dựa vào độ trùng lắp của 2 bounding box này. Thông thường, một dự đoán có IoU > 0.5 được xem như là một dự đoán tốt.

4.3.2. AP

4.3.2.1. Confusion matrix

Confusion matrix là một ma trận thể hiện mỗi lớp được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, lớp nào thường bị nhầm lẫn,…

Hình 4.4 Mẫu confusion matrix với bài toán phân loại có 3 lớp.

(ảnh từ thư viện scikit-learn)

Trong ví dụ trên, trục dọc là lớp thực tế của đối tượng, còn trục ngang là lớp được dự đoán. Như vậy, ta có thể thấy, confusion matrix là một ma trận vuông có

kích thước n×n (với n là số lớp trong bài toán), trong ma trận này, tổng giá trị của các phần tử trên toàn ma trận là tổng số điểm trong tập kiểm thử, tổng các phần tử trên đường chéo chính là số điểm được dự đoán đúng trong tập kiểm thử. Giá trị thuộc hàng i và cột j là số điểm dữ liệu thuộc lớp i và được dự đoán là lớp j.

4.3.2.2. Precision và Recall

Giả sử ta xét kết quả phân loại với 1 lớp C trong bài toán phân loại bằng confusion matrix, ta sẽ được ma trận như sau:

Hình 4.5 Cách tính Precision và Recall.

Trong đó, TP và FN những điểm được dự đoán đúng (xét trên lớp C) và FP, TN là những điểm được dự đoán sai. Như vậy, Precision là độ đo đánh giá độ tin cậy của dự đoán đưa ra (tỉ lệ các điểm thực sự thuộc lớp C trên tất cả các điểm được dự đoán là lớp C), còn Recall là độ đo đánh giá khả năng tìm kiếm toàn bộ ground- truth mà mô hình dự đoán được đúng (tỉ lệ các điểm thuộc lớp C trên tất cả các điểm được dự đoán đúng).

4.3.2.3. AP và mAP

Dựa vào việc quan sát giá trị của Precision và Recall, người ta có thể đánh giá mô hình có tốt hay không.

Hình 4.6 Minh họa vùng mà công thức tính AP tính toán.

AP (Average Precision) là đường cong Precision-Recall (Precision-Recall curve) dùng để tính diện tích phần phía dưới đường theo dõi màu xanh của hình 4.6, thường được tính xấp xỉ bằng công thức:

𝐴𝑃 = ∑(𝑅𝑛 − 𝑅𝑛 − 1) 𝑛

𝑃𝑛

mAP (Mean Average Precision) là trung bình điểm số AP của n class và được định nghĩa bằng công thức sau:

𝑚𝐴𝑃 =1

𝑛∑ 𝐴𝑃𝑖 𝑛

𝑖=1

Chúng tôi sử dụng độ đo AP@50 – AP tại IoU = 50% (tương tự độ đo của PASCAL VOC) của MS COCO8 để đánh giá mô hình.

4.4. Kết quả

Trong phần này, để có thể trình bày ngắn gọn hơn, tôi sẽ gọi tên các mô hình theo cú pháp <Tên mô hình>-<Backbone>-<Số epoch>-<MS> với MS là mô hình được huấn luyện multi-scale.

4.4.1. Kết quả thực nghiệm phương pháp Faster R-CNN 4.4.1.1. Kết quả thực nghiệm 4.4.1.1. Kết quả thực nghiệm

Bảng 4.2 Kết quả thực nghiệm Faster R-CNN. (Kết quả cao nhất được in đậm)

Từ bảng 4.2, ta thấy cả 6 mô hình Faster R-CNN đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 23.3%. Trong đó, mô hình Faster R-CNN-ResNet50-24-MS có kết quả tốt nhất trên các tập test, fog, high-alt và front-view. Mô hình Faster R- CNN-ResNet50-12 có kết quả tốt nhất trên tập daylight, night, medium-alt, front- view, side-view và long-term. Mô hình Faster R-CNN-ResNet101-24-MS có kết quả tốt nhất trên tập low-alt và bird-view. Tuy nhiên, so với 2 mô hình sử dụng backbone ResNet50 vừa được đề cập có kết quả không quá chênh lệch, mô hình Faster R-CNN-ResNet101-24-MS mất nhiều thời gian huấn luyện nhất nhưng có kết quả thấp hơn hẳn khi dự đoán ở các trường hợp ngoài low-alt và bird-view.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp, còn ResNet101 thì chỉ cải thiện rõ rệt ở tập low-alt, high-alt và bird-view.

Xét về từng thuộc tính của bộ dữ liệu, cả 6 mô hình Faster R-CNN đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

4.4.1.2. Hình ảnh minh họa

Trong phần này, chúng tôi trực quan mô hình sử dụng backbone ResNet50 và ResNet101 có kết quả cao nhất trên tập test so với các mô hình cùng backbone còn lại.

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24-mstrain

b) ResNet101-12

Hình 4.7 Ảnh minh họa kết quả dự đoán tốt của các mô hình Faster R-CNN.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ảnh dự đoán bởi ResNet101-12 còn sót vài đối tượng.

Trường hợp mô hình dự đoán kém

a) ResNet50-24-mstrain

b) ResNet101-12

Hình 4.8 Ảnh minh họa kết quả dự đoán kém của các mô hình Faster R-CNN.

Nhận xét: Các đối tượng gần như không thể dự đoán được đối với ảnh có cả thuộc tính fog và high-alt.

4.4.2. Kết quả thực nghiệm phương pháp D2Det 4.4.2.1. Kết quả thực nghiệm 4.4.2.1. Kết quả thực nghiệm

Bảng 4.3 Kết quả thực nghiệm D2Det. (Kết quả cao nhất được in đậm)

Từ bảng 4.3, cả 6 mô hình D2Det đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 28%. Cụ thể, mô hình D2Det-ResNet50-12 có kết quả tốt nhất trên các tập test, daylight, medium-alt, front-view, bird-view và long-term. Mô hình D2Det- ResNet50-24 có kết quả tốt nhất trên tập night. Mô hình D2Det-ResNet50-24-MS có kết quả tốt nhất trên các tập fog, high-alt. Mô hình D2Det-ResNet101-12 có kết quả tốt nhất trên tập low-alt và side-view. So với các mô hình vừa đề cập, mô hình D2Det-ResNet50-12 có thời gian huấn luyện thấp nhất nhưng có độ hiệu quả vượt trội hơn (kết quả dự đoán không quá chênh lệch ở các trường hợp không cao nhất).

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn ResNet50 nhưng kết quả dự đoán không quá chênh lệch (trừ D2Det-ResNet50-12). Việc huấn luyện multi-scale không có cải thiện rõ rệt trong kết quả.

Xét về từng thuộc tính của bộ dữ liệu, cả 6 mô hình D2Det đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

4.4.2.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-12

b) ResNet101-12

Hình 4.9 Ảnh minh họa kết quả dự đoán tốt của các mô hình D2Det.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box nhưng cả 2 đều bị sót vài đối tượng.

Trường hợp mô hình dự đoán kém

a) ResNet50-12

b) ResNet101-12

Hình 4.10 Ảnh minh họa kết quả dự đoán kém của các mô hình D2Det.

Nhận xét: ResNet50-12 dự đoán được nhiều đối tượng hơn so với ResNet101-12. Tuy nhiên, cả 2 mô hình vẫn còn sót rất nhiều đối tượng.

Trong quá trình thực nghiệm, có 2 mô hình tôi chưa thể trực quan hóa được, song, nó không ảnh hưởng đến kết quả đánh giá. 2 mô hình chưa thể trực quan hóa là D2Det với backbone ResNet50 và ResNet101 được huấn luyện multi-scale trong vòng 24 epoch.

4.4.3. Kết quả thực nghiệm phương pháp DetectoRS

Đối với DetectoRS, tôi lựa chọn sử dụng cấu hình với baseline là Cascade R- CNN [15] với RFP, SAC riêng biệt để thực nghiệm.

4.4.3.1. Kết quả thực nghiệm

Bảng 4.4 Kết quả thực nghiệm DetectoRS. (Kết quả cao nhất được in đậm)

Từ bảng 4.4, ta thấy cả 10 mô hình DetectoRS đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 30.1%. Cụ thể, mô hình DetectoRS-ResNet101-24-MS sử dụng SAC có kết quả tốt nhất trên các tập test, daylight, fog, medium-alt, front-view, side-view và bird-view. Mô hình DetectoRS-ResNet50-24-MS sử dụng SAC có kết quả tốt nhất trên tập high-alt và bird-view. Mô hình DetectoRS-ResNet50-24 sử dụng RFP có kết quả tốt nhất trên tập night và long-term. Mô hình DetectoRS- ResNet50-12 sử dụng RFP có kết quả tốt nhất trên tập low-alt. Ngoài ra, bỏ qua mô hình được huấn luyện multi-scale (do giới hạn về GPU của thiết bị nên tôi đã không thể huấn luyện multi-scale cho các phương pháp RFP), độ hiệu quả của RFP trong mô hình với backbone ResNet50 có sự chênh lệch với mô hình sử dụng SAC, còn với backbone ResNet101 thì không rõ ràng.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn nhưng kết quả

không có nhiều chênh lệch. Việc huấn luyện multi-scale trên ResNet50 không hiệu quả, còn ResNet101 thì có cải thiện rõ rệt.

Xét về từng thuộc tính của bộ dữ liệu, cả 10 mô hình DetectoRS đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng mô hình DetectoRS-ResNet50- 24 có kết quả khá tốt trên cả tập night và long-term.

4.4.3.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24-RFP

b) ResNet101-24-mstrain-SAC

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp Bounding-box. Tuy nhiên cả 2 vẫn có đối tượng bị bỏ sót.

Trường hợp mô hình dự đoán kém

a) ResNet50-24-RFP

b) ResNet101-24-mstrain-SAC

Hình 4.12 Ảnh minh họa kết quả dự đoán kém của các mô hình DetectoRS.

Nhận xét: Các đối tượng không dự đoán được đối với ResNet50-24-RFP. Với ResNet101-24-mstrain-SAC, mô hình dự đoán được một vài đối tượng nhưng vẫn còn sót rất nhiều đối tượng khác.

4.4.4. Kết quả thực nghiệm phương pháp TOOD 4.4.4.1. Kết quả thực nghiệm 4.4.4.1. Kết quả thực nghiệm

Bảng 4.5 Kết quả thực nghiệm TOOD. (Kết quả cao nhất được in đậm)

Từ bảng 4.5, ta thấy cả 6 mô hình TOOD đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 31.9%. Trong đó, mô hình TOOD-ResNet50-12 có kết quả tốt nhất trên các tập fog, high-alt và bird-view. Mô hình TOOD-ResNet50-24 có kết quả tốt nhất trên tập test, night, medium-alt, front-view và long-term. Mô hình TOOD- ResNet50-24-MS có kết quả tốt nhất trên tập daylight, low-alt và side-view.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác.

Xét về từng thuộc tính của bộ dữ liệu, cả 5 mô hình TOOD đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng TOOD-ResNet50-24 có kết quả dự đoán tốt (57%) trên tập night.

4.4.4.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24

b) ResNet101-12

Hình 4.13 Ảnh minh họa kết quả dự đoán tốt của các mô hình TOOD.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box. Tuy nhiên, cả hai vẫn sót vài đối tượng.

Trường hợp mô hình dự đoán kém

a) ResNet50-24

b) ResNet101-12

Hình 4.14 Ảnh minh họa kết quả dự đoán kém của các mô hình TOOD.

Nhận xét: Các đối tượng không dự đoán được đối với ResNet101-12. Còn ResNet50-24 cũng chỉ phát hiện đc vài đối tượng.

4.4.5. Kết quả thực nghiệm phương pháp VFNet 4.4.5.1. Kết quả thực nghiệm 4.4.5.1. Kết quả thực nghiệm

Bảng 4.6 Kết quả thực nghiệm VFNet. (Kết quả cao nhất được in đậm)

Từ bảng 4.6, ta thấy cả 6 mô hình VFNet đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 29.9%. Trong đó, mô hình VFNet-ResNet50-24-MS có kết quả tốt nhất trên các tập test, daylight, night, medium-alt, front-view, side-view và long- term. Mô hình VFNet-ResNet101-24-MS có kết quả tốt nhất trên tập fog, high-alt và bird-view. Mô hình VFNet-ResNet50-24 có kết quả tốt nhất trên tập low-alt.

Xét về từng thuộc tính của bộ dữ liệu, các mô hình VFNet (ngoại trừ VFNet- ResNet101-12) đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

4.4.5.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24-mstrain

b) ResNet101-24

Hình 4.15 Ảnh minh họa kết quả dự đoán tốt của các mô hình Faster R-CNN.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ResNet50-24-mstrain được dự đoán tốt nhất, còn ResNet101-24 thì sót 1 đối tượng.

Trường hợp mô hình dự đoán kém

a) ResNet50-24-mstrain

b) ResNet101-24

Hình 4.16 Ảnh minh họa kết quả dự đoán kém của các mô hình Faster R-CNN.

Nhận xét: Cả 2 mô hình đều chỉ dự đoán được số ít đối tượng. Trong đó, ResNet101-24 dự đoán được nhiều hơn so với ResNet50-24-mstrain nhưng không đáng kể.

4.5. Đánh giá 4.5.1. So sánh 4.5.1. So sánh

Từ kết quả thực nghiệm của từng phương pháp, các kết quả dự đoán của mô hình sử dụng backbone ResNet101 hầu hết đều thấp hơn hoặc không quá chênh lệch với mô hình sử dụng ResNet50 nên tôi chỉ so sánh kết quả của các mô hình với ResNet50. Lưu ý, đối với kết quả của DetectoRS, tôi chỉ đưa vào 2 mô hình DetectoRS-ResNet50-12 và DetectoRS-ResNet50-24 sử dụng RFP và mô hình DetectoRS-ResNet50-24-MS sử dụng SAC.

Bảng 4.7 Tổng hợp kết quả tốt nhất của các phương pháp. (Kết quả cao nhất được in đậm)

Về tổng quát, ta thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-Benchmark-M khi mô hình TOOD-ResNet50-24 có kết quả tốt nhất chỉ với AP@50 = 31.9%. Khi so sánh các phương pháp với cùng thông số huấn luyện, phương pháp TOOD có các kết quả tốt hơn hẳn các phương pháp khác còn Faster R-CNN cho kết quả thấp nhất. Về thời gian huấn luyện, phương pháp DetectoRS mất hơn gấp đôi lượng thời gian của các phương pháp khác.

66 Xét các thuộc tính về điều kiện chiếu sáng:

• Daylight: mô hình có kết quả tốt nhất là TOOD-ResNet50-24 với

.1 Một số ảnh của bộ dữ liệu UAVDT

.5 Cách tính Precision và Recall