Kết quả thực nghiệm phương pháp Faster R-CNN

Một phần của tài liệu Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh (khóa luận tốt nghiệp) (Trang 67)

4.4.1.1. Kết quả thực nghiệm

Bảng 4.2 Kết quả thực nghiệm Faster R-CNN. (Kết quả cao nhất được in đậm)

Từ bảng 4.2, ta thấy cả 6 mô hình Faster R-CNN đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 23.3%. Trong đó, mô hình Faster R-CNN-ResNet50-24-MS có kết quả tốt nhất trên các tập test, fog, high-alt và front-view. Mô hình Faster R- CNN-ResNet50-12 có kết quả tốt nhất trên tập daylight, night, medium-alt, front- view, side-view và long-term. Mô hình Faster R-CNN-ResNet101-24-MS có kết quả tốt nhất trên tập low-alt và bird-view. Tuy nhiên, so với 2 mô hình sử dụng backbone ResNet50 vừa được đề cập có kết quả không quá chênh lệch, mô hình Faster R-CNN-ResNet101-24-MS mất nhiều thời gian huấn luyện nhất nhưng có kết quả thấp hơn hẳn khi dự đoán ở các trường hợp ngoài low-alt và bird-view.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp, còn ResNet101 thì chỉ cải thiện rõ rệt ở tập low-alt, high-alt và bird-view.

Xét về từng thuộc tính của bộ dữ liệu, cả 6 mô hình Faster R-CNN đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

51

4.4.1.2. Hình ảnh minh họa

Trong phần này, chúng tôi trực quan mô hình sử dụng backbone ResNet50 và ResNet101 có kết quả cao nhất trên tập test so với các mô hình cùng backbone còn lại.

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24-mstrain

b) ResNet101-12

Hình 4.7 Ảnh minh họa kết quả dự đoán tốt của các mô hình Faster R-CNN.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ảnh dự đoán bởi ResNet101-12 còn sót vài đối tượng.

52

Trường hợp mô hình dự đoán kém

a) ResNet50-24-mstrain

b) ResNet101-12

Hình 4.8 Ảnh minh họa kết quả dự đoán kém của các mô hình Faster R-CNN.

Nhận xét: Các đối tượng gần như không thể dự đoán được đối với ảnh có cả thuộc tính fog và high-alt.

53

4.4.2. Kết quả thực nghiệm phương pháp D2Det 4.4.2.1. Kết quả thực nghiệm 4.4.2.1. Kết quả thực nghiệm

Bảng 4.3 Kết quả thực nghiệm D2Det. (Kết quả cao nhất được in đậm)

Từ bảng 4.3, cả 6 mô hình D2Det đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 28%. Cụ thể, mô hình D2Det-ResNet50-12 có kết quả tốt nhất trên các tập test, daylight, medium-alt, front-view, bird-view và long-term. Mô hình D2Det- ResNet50-24 có kết quả tốt nhất trên tập night. Mô hình D2Det-ResNet50-24-MS có kết quả tốt nhất trên các tập fog, high-alt. Mô hình D2Det-ResNet101-12 có kết quả tốt nhất trên tập low-alt và side-view. So với các mô hình vừa đề cập, mô hình D2Det-ResNet50-12 có thời gian huấn luyện thấp nhất nhưng có độ hiệu quả vượt trội hơn (kết quả dự đoán không quá chênh lệch ở các trường hợp không cao nhất).

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn ResNet50 nhưng kết quả dự đoán không quá chênh lệch (trừ D2Det-ResNet50-12). Việc huấn luyện multi-scale không có cải thiện rõ rệt trong kết quả.

Xét về từng thuộc tính của bộ dữ liệu, cả 6 mô hình D2Det đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

54

4.4.2.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-12

b) ResNet101-12

Hình 4.9 Ảnh minh họa kết quả dự đoán tốt của các mô hình D2Det.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box nhưng cả 2 đều bị sót vài đối tượng.

55

Trường hợp mô hình dự đoán kém

a) ResNet50-12

b) ResNet101-12

Hình 4.10 Ảnh minh họa kết quả dự đoán kém của các mô hình D2Det.

Nhận xét: ResNet50-12 dự đoán được nhiều đối tượng hơn so với ResNet101-12. Tuy nhiên, cả 2 mô hình vẫn còn sót rất nhiều đối tượng.

Trong quá trình thực nghiệm, có 2 mô hình tôi chưa thể trực quan hóa được, song, nó không ảnh hưởng đến kết quả đánh giá. 2 mô hình chưa thể trực quan hóa là D2Det với backbone ResNet50 và ResNet101 được huấn luyện multi-scale trong vòng 24 epoch.

56

4.4.3. Kết quả thực nghiệm phương pháp DetectoRS

Đối với DetectoRS, tôi lựa chọn sử dụng cấu hình với baseline là Cascade R- CNN [15] với RFP, SAC riêng biệt để thực nghiệm.

4.4.3.1. Kết quả thực nghiệm

Bảng 4.4 Kết quả thực nghiệm DetectoRS. (Kết quả cao nhất được in đậm)

Từ bảng 4.4, ta thấy cả 10 mô hình DetectoRS đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 30.1%. Cụ thể, mô hình DetectoRS-ResNet101-24-MS sử dụng SAC có kết quả tốt nhất trên các tập test, daylight, fog, medium-alt, front-view, side-view và bird-view. Mô hình DetectoRS-ResNet50-24-MS sử dụng SAC có kết quả tốt nhất trên tập high-alt và bird-view. Mô hình DetectoRS-ResNet50-24 sử dụng RFP có kết quả tốt nhất trên tập night và long-term. Mô hình DetectoRS- ResNet50-12 sử dụng RFP có kết quả tốt nhất trên tập low-alt. Ngoài ra, bỏ qua mô hình được huấn luyện multi-scale (do giới hạn về GPU của thiết bị nên tôi đã không thể huấn luyện multi-scale cho các phương pháp RFP), độ hiệu quả của RFP trong mô hình với backbone ResNet50 có sự chênh lệch với mô hình sử dụng SAC, còn với backbone ResNet101 thì không rõ ràng.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn nhưng kết quả

57

không có nhiều chênh lệch. Việc huấn luyện multi-scale trên ResNet50 không hiệu quả, còn ResNet101 thì có cải thiện rõ rệt.

Xét về từng thuộc tính của bộ dữ liệu, cả 10 mô hình DetectoRS đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng mô hình DetectoRS-ResNet50- 24 có kết quả khá tốt trên cả tập night và long-term.

4.4.3.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24-RFP

b) ResNet101-24-mstrain-SAC

58

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp Bounding-box. Tuy nhiên cả 2 vẫn có đối tượng bị bỏ sót.

Trường hợp mô hình dự đoán kém

a) ResNet50-24-RFP

b) ResNet101-24-mstrain-SAC

Hình 4.12 Ảnh minh họa kết quả dự đoán kém của các mô hình DetectoRS.

Nhận xét: Các đối tượng không dự đoán được đối với ResNet50-24-RFP. Với ResNet101-24-mstrain-SAC, mô hình dự đoán được một vài đối tượng nhưng vẫn còn sót rất nhiều đối tượng khác.

59

4.4.4. Kết quả thực nghiệm phương pháp TOOD 4.4.4.1. Kết quả thực nghiệm 4.4.4.1. Kết quả thực nghiệm

Bảng 4.5 Kết quả thực nghiệm TOOD. (Kết quả cao nhất được in đậm)

Từ bảng 4.5, ta thấy cả 6 mô hình TOOD đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 31.9%. Trong đó, mô hình TOOD-ResNet50-12 có kết quả tốt nhất trên các tập fog, high-alt và bird-view. Mô hình TOOD-ResNet50-24 có kết quả tốt nhất trên tập test, night, medium-alt, front-view và long-term. Mô hình TOOD- ResNet50-24-MS có kết quả tốt nhất trên tập daylight, low-alt và side-view.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác.

Xét về từng thuộc tính của bộ dữ liệu, cả 5 mô hình TOOD đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng TOOD-ResNet50-24 có kết quả dự đoán tốt (57%) trên tập night.

60

4.4.4.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24

b) ResNet101-12

Hình 4.13 Ảnh minh họa kết quả dự đoán tốt của các mô hình TOOD.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box. Tuy nhiên, cả hai vẫn sót vài đối tượng.

61

Trường hợp mô hình dự đoán kém

a) ResNet50-24

b) ResNet101-12

Hình 4.14 Ảnh minh họa kết quả dự đoán kém của các mô hình TOOD.

Nhận xét: Các đối tượng không dự đoán được đối với ResNet101-12. Còn ResNet50-24 cũng chỉ phát hiện đc vài đối tượng.

62

4.4.5. Kết quả thực nghiệm phương pháp VFNet 4.4.5.1. Kết quả thực nghiệm 4.4.5.1. Kết quả thực nghiệm

Bảng 4.6 Kết quả thực nghiệm VFNet. (Kết quả cao nhất được in đậm)

Từ bảng 4.6, ta thấy cả 6 mô hình VFNet đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mô hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 29.9%. Trong đó, mô hình VFNet-ResNet50-24-MS có kết quả tốt nhất trên các tập test, daylight, night, medium-alt, front-view, side-view và long- term. Mô hình VFNet-ResNet101-24-MS có kết quả tốt nhất trên tập fog, high-alt và bird-view. Mô hình VFNet-ResNet50-24 có kết quả tốt nhất trên tập low-alt.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mô hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp nhưng không quá chênh lệch.

Xét về từng thuộc tính của bộ dữ liệu, các mô hình VFNet (ngoại trừ VFNet- ResNet101-12) đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

63

4.4.5.2. Hình ảnh minh họa

Trường hợp mô hình dự đoán tốt:

a) ResNet50-24-mstrain

b) ResNet101-24

Hình 4.15 Ảnh minh họa kết quả dự đoán tốt của các mô hình Faster R-CNN.

Nhận xét: Các đối tượng được mô hình phát hiện đúng, không gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ResNet50-24-mstrain được dự đoán tốt nhất, còn ResNet101-24 thì sót 1 đối tượng.

64

Trường hợp mô hình dự đoán kém

a) ResNet50-24-mstrain

b) ResNet101-24

Hình 4.16 Ảnh minh họa kết quả dự đoán kém của các mô hình Faster R-CNN.

Nhận xét: Cả 2 mô hình đều chỉ dự đoán được số ít đối tượng. Trong đó, ResNet101-24 dự đoán được nhiều hơn so với ResNet50-24-mstrain nhưng không đáng kể.

65

4.5. Đánh giá 4.5.1. So sánh 4.5.1. So sánh

Từ kết quả thực nghiệm của từng phương pháp, các kết quả dự đoán của mô hình sử dụng backbone ResNet101 hầu hết đều thấp hơn hoặc không quá chênh lệch với mô hình sử dụng ResNet50 nên tôi chỉ so sánh kết quả của các mô hình với ResNet50. Lưu ý, đối với kết quả của DetectoRS, tôi chỉ đưa vào 2 mô hình DetectoRS-ResNet50-12 và DetectoRS-ResNet50-24 sử dụng RFP và mô hình DetectoRS-ResNet50-24-MS sử dụng SAC.

Bảng 4.7 Tổng hợp kết quả tốt nhất của các phương pháp. (Kết quả cao nhất được in đậm)

Về tổng quát, ta thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-Benchmark-M khi mô hình TOOD-ResNet50-24 có kết quả tốt nhất chỉ với AP@50 = 31.9%. Khi so sánh các phương pháp với cùng thông số huấn luyện, phương pháp TOOD có các kết quả tốt hơn hẳn các phương pháp khác còn Faster R-CNN cho kết quả thấp nhất. Về thời gian huấn luyện, phương pháp DetectoRS mất hơn gấp đôi lượng thời gian của các phương pháp khác.

66 Xét các thuộc tính về điều kiện chiếu sáng:

Daylight: mô hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 28.9 %. Các mô hình TOOD khác cũng cao hơn hẳn các mô hình cùng thông số huấn luyện còn lại và Faster R-CNN thấp nhất. • Night: tuy chỉ có mô hình TOOD-ResNet50-24 và DetectoRS-

ResNet50-24 có kết quả khá tốt (57% và 58%), song, các kết quả còn lại cũng không quá thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 34.6%). Đây là trường hợp thu được kết quả cao nhất trong nhóm thuộc tính về điều kiện chiếu sáng.

Fog: Đây là trường hợp thu được kết quả thấp nhất trong nhóm thuộc tính về điều kiện chiếu sáng. Mô hình có kết quả tốt nhất là VFNet- ResNet50-24 với AP@50 = 21.6 %. Các mô hình TOOD cũng không quá chênh lệch so với mô hình của VFNet. Thấp nhất vẫn là Faster R- CNN.

Xét các thuộc tính về độ cao của thiết bị bay:

Low-alt: Đây là thuộc tính có kết quả dự đoán cao nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M khi được tất cả mô hình thực nghiệm dự đoán với độ chính xác hơn 50 %. Trong đó, kết quả tốt nhất là TOOD-ResNet50-24-MS với AP@50 = 67%. Đồng thời, TOOD là phương pháp duy nhất với cả 3 mô hình có độ chính xác hơn 60 %.

Medium-alt: Đây là trường hợp mà các phương pháp có kết quả không quá chênh lệch và không hiệu quả với kết quả tốt nhất là 36.9 % thuộc về mô hình TOOD-ResNet50-24.

High-alt: Đây là trường hợp thu được kết quả thấp nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M. Các kết quả không quá chênh lệch và không hiệu quả. Kết quả tốt nhất là mô hình VFNet-ResNet50-24 với AP@50 = 17.5 %. Các mô hình TOOD cũng

67

không quá chênh lệch so với mô hình của VFNet. Thấp nhất vẫn là Faster R-CNN.

Xét các thuộc tính về góc quay của camera:

Front-view: Mô hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 34.6%. Các mô hình TOOD khác cũng cao hơn hẳn các mô hình cùng thông số huấn luyện còn lại và Faster R-CNN thấp nhất. • Side-view: Mô hình có kết quả tốt nhất là VFNet-ResNet50-24-MS

với AP@50 = 34.1%. Tuy nhiên, các mô hình TOOD cũng có độ chính xác tương đương với VFNET và Faster R-CNN thấp nhất. • Bird-view: Đây là trường hợp có kết quả thấp nhất trong nhóm các

thuộc tính về góc quay của camera. Mô hình có kết quả tốt nhất là TOOD-ResNet50-12 với AP@50 = 26.7%. Tuy nhiên, các mô hình VFNet cũng có độ chính xác tương đương với TOOD.

Xét về long-term: tuy chỉ có mô hình DetectoRS-ResNet50-24 có kết quả khá tốt (51.6%), song, các kết quả còn lại cũng không quá thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 29.6%). Đây là trường hợp thu được kết quả cao thứ 3 trong số 10 thuộc tính của bộ dữ liệu (sau low-alt và night).

4.5.2. Đánh giá

Nhìn chung, kết quả thực nghiệm cho thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M. Trong đó, về thời gian huấn luyện, các phương pháp không quá chênh lệch ngoại trừ DetectoRS có thời gian dài hơn gấp đôi. Về độ chính xác, phương pháp TOOD có kết quả cao nhất so với 4 phương pháp còn lại. Các mô hình VFNet không thấp hơn TOOD quá nhiều và có kết quả tốt hơn TOOD trong trường hợp fog và highalt. Ngoài ra, phương pháp DetectoRS tuy không quá cao, nhưng mô hình DetectoRS-ResNet50-24 sử dụng RFP có thể dự

Một phần của tài liệu Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh (khóa luận tốt nghiệp) (Trang 67)