.8 Ảnh minh họa kết quả dự đoán kém của các mơ hình Faster R-CNN

Một phần của tài liệu Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh (khóa luận tốt nghiệp) (Trang 69)

Nhận xét: Các đối tượng gần như khơng thể dự đốn được đối với ảnh có cả thuộc tính fog và high-alt.

53

4.4.2.Kết quả thực nghiệm phương pháp D2Det 4.4.2.1.Kết quả thực nghiệm 4.4.2.1.Kết quả thực nghiệm

Bảng 4.3 Kết quả thực nghiệm D2Det. (Kết quả cao nhất được in đậm)

Từ bảng 4.3, cả 6 mơ hình D2Det đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 28%. Cụ thể, mơ hình D2Det-ResNet50-12 có kết quả tốt nhất trên các tập test, daylight, medium-alt, front-view, bird-view và long-term. Mơ hình D2Det- ResNet50-24 có kết quả tốt nhất trên tập night. Mô hình D2Det-ResNet50-24-MS có kết quả tốt nhất trên các tập fog, high-alt. Mơ hình D2Det-ResNet101-12 có kết quả tốt nhất trên tập low-alt và side-view. So với các mơ hình vừa đề cập, mơ hình D2Det-ResNet50-12 có thời gian huấn luyện thấp nhất nhưng có độ hiệu quả vượt trội hơn (kết quả dự đốn khơng q chênh lệch ở các trường hợp không cao nhất).

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn ResNet50 nhưng kết quả dự đốn khơng q chênh lệch (trừ D2Det-ResNet50-12). Việc huấn luyện multi-scale khơng có cải thiện rõ rệt trong kết quả.

Xét về từng thuộc tính của bộ dữ liệu, cả 6 mơ hình D2Det đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp còn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

54

4.4.2.2.Hình ảnh minh họa

Trường hợp mơ hình dự đốn tốt:

a) ResNet50-12

b) ResNet101-12

Hình 4.9 Ảnh minh họa kết quả dự đốn tốt của các mơ hình D2Det.

Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box nhưng cả 2 đều bị sót vài đối tượng.

55

Trường hợp mơ hình dự đốn kém

a) ResNet50-12

b) ResNet101-12

Hình 4.10 Ảnh minh họa kết quả dự đốn kém của các mơ hình D2Det.

Nhận xét: ResNet50-12 dự đoán được nhiều đối tượng hơn so với ResNet101-12. Tuy nhiên, cả 2 mơ hình vẫn cịn sót rất nhiều đối tượng.

Trong q trình thực nghiệm, có 2 mơ hình tơi chưa thể trực quan hóa được, song, nó khơng ảnh hưởng đến kết quả đánh giá. 2 mơ hình chưa thể trực quan hóa là D2Det với backbone ResNet50 và ResNet101 được huấn luyện multi-scale trong vòng 24 epoch.

56

4.4.3.Kết quả thực nghiệm phương pháp DetectoRS

Đối với DetectoRS, tơi lựa chọn sử dụng cấu hình với baseline là Cascade R- CNN [15] với RFP, SAC riêng biệt để thực nghiệm.

4.4.3.1.Kết quả thực nghiệm

Bảng 4.4 Kết quả thực nghiệm DetectoRS. (Kết quả cao nhất được in đậm)

Từ bảng 4.4, ta thấy cả 10 mơ hình DetectoRS đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 30.1%. Cụ thể, mơ hình DetectoRS-ResNet101-24-MS sử dụng SAC có kết quả tốt nhất trên các tập test, daylight, fog, medium-alt, front-view, side-view và bird-view. Mơ hình DetectoRS-ResNet50-24-MS sử dụng SAC có kết quả tốt nhất trên tập high-alt và bird-view. Mơ hình DetectoRS-ResNet50-24 sử dụng RFP có kết quả tốt nhất trên tập night và long-term. Mơ hình DetectoRS- ResNet50-12 sử dụng RFP có kết quả tốt nhất trên tập low-alt. Ngồi ra, bỏ qua mơ hình được huấn luyện multi-scale (do giới hạn về GPU của thiết bị nên tôi đã không thể huấn luyện multi-scale cho các phương pháp RFP), độ hiệu quả của RFP trong mơ hình với backbone ResNet50 có sự chênh lệch với mơ hình sử dụng SAC, cịn với backbone ResNet101 thì khơng rõ ràng.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn nhưng kết quả

57

khơng có nhiều chênh lệch. Việc huấn luyện multi-scale trên ResNet50 khơng hiệu quả, cịn ResNet101 thì có cải thiện rõ rệt.

Xét về từng thuộc tính của bộ dữ liệu, cả 10 mơ hình DetectoRS đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng mơ hình DetectoRS-ResNet50- 24 có kết quả khá tốt trên cả tập night và long-term.

4.4.3.2.Hình ảnh minh họa

Trường hợp mơ hình dự đốn tốt:

a) ResNet50-24-RFP

b) ResNet101-24-mstrain-SAC

58

Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp Bounding-box. Tuy nhiên cả 2 vẫn có đối tượng bị bỏ sót.

Trường hợp mơ hình dự đốn kém

a) ResNet50-24-RFP

b) ResNet101-24-mstrain-SAC

Hình 4.12 Ảnh minh họa kết quả dự đốn kém của các mơ hình DetectoRS.

Nhận xét: Các đối tượng khơng dự đốn được đối với ResNet50-24-RFP. Với ResNet101-24-mstrain-SAC, mơ hình dự đốn được một vài đối tượng nhưng vẫn cịn sót rất nhiều đối tượng khác.

59

4.4.4.Kết quả thực nghiệm phương pháp TOOD 4.4.4.1.Kết quả thực nghiệm 4.4.4.1.Kết quả thực nghiệm

Bảng 4.5 Kết quả thực nghiệm TOOD. (Kết quả cao nhất được in đậm)

Từ bảng 4.5, ta thấy cả 6 mơ hình TOOD đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 31.9%. Trong đó, mơ hình TOOD-ResNet50-12 có kết quả tốt nhất trên các tập fog, high-alt và bird-view. Mơ hình TOOD-ResNet50-24 có kết quả tốt nhất trên tập test, night, medium-alt, front-view và long-term. Mơ hình TOOD- ResNet50-24-MS có kết quả tốt nhất trên tập daylight, low-alt và side-view.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác.

Xét về từng thuộc tính của bộ dữ liệu, cả 5 mơ hình TOOD đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất. Riêng TOOD-ResNet50-24 có kết quả dự đốn tốt (57%) trên tập night.

60

4.4.4.2.Hình ảnh minh họa

Trường hợp mơ hình dự đốn tốt:

a) ResNet50-24

b) ResNet101-12

Hình 4.13 Ảnh minh họa kết quả dự đốn tốt của các mơ hình TOOD.

Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Tuy nhiên, cả hai vẫn sót vài đối tượng.

61

Trường hợp mơ hình dự đốn kém

a) ResNet50-24

b) ResNet101-12

Hình 4.14 Ảnh minh họa kết quả dự đốn kém của các mơ hình TOOD.

Nhận xét: Các đối tượng khơng dự đốn được đối với ResNet101-12. Còn ResNet50-24 cũng chỉ phát hiện đc vài đối tượng.

62

4.4.5.Kết quả thực nghiệm phương pháp VFNet 4.4.5.1.Kết quả thực nghiệm 4.4.5.1.Kết quả thực nghiệm

Bảng 4.6 Kết quả thực nghiệm VFNet. (Kết quả cao nhất được in đậm)

Từ bảng 4.6, ta thấy cả 6 mơ hình VFNet đều khơng hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M khi mơ hình có kết quả tốt nhất trên tập test chỉ đạt được AP@50 = 29.9%. Trong đó, mơ hình VFNet-ResNet50-24-MS có kết quả tốt nhất trên các tập test, daylight, night, medium-alt, front-view, side-view và long- term. Mơ hình VFNet-ResNet101-24-MS có kết quả tốt nhất trên tập fog, high-alt và bird-view. Mơ hình VFNet-ResNet50-24 có kết quả tốt nhất trên tập low-alt.

Xét về độ hiệu quả của backbone ResNet50 và ResNet101, các mơ hình sử dụng backbone ResNet101 đều mất nhiều thời gian huấn luyện hơn và hầu hết có kết quả thấp hơn ResNet50 ở cả tập test và các trường hợp khác. Việc huấn luyện multi-scale trên ResNet50 cũng có cải thiện cho nhiều trường hợp nhưng không quá chênh lệch.

Xét về từng thuộc tính của bộ dữ liệu, các mơ hình VFNet (ngoại trừ VFNet- ResNet101-12) đều đạt kết quả khá tốt (> 50%) trên tập low-alt. Các trường hợp cịn lại đều có kết quả chưa tốt, trong đó, tập fog và high-alt là thấp nhất.

63

4.4.5.2.Hình ảnh minh họa

Trường hợp mơ hình dự đốn tốt:

a) ResNet50-24-mstrain

b) ResNet101-24

Hình 4.15 Ảnh minh họa kết quả dự đốn tốt của các mơ hình Faster R-CNN.

Nhận xét: Các đối tượng được mơ hình phát hiện đúng, khơng gặp tình trạng đối tượng bị chồng lắp bounding box. Trong đó, ResNet50-24-mstrain được dự đốn tốt nhất, cịn ResNet101-24 thì sót 1 đối tượng.

64

Trường hợp mơ hình dự đốn kém

a) ResNet50-24-mstrain

b) ResNet101-24

Hình 4.16 Ảnh minh họa kết quả dự đốn kém của các mơ hình Faster R-CNN.

Nhận xét: Cả 2 mơ hình đều chỉ dự đốn được số ít đối tượng. Trong đó, ResNet101-24 dự đốn được nhiều hơn so với ResNet50-24-mstrain nhưng không đáng kể.

65

4.5.Đánh giá 4.5.1.So sánh 4.5.1.So sánh

Từ kết quả thực nghiệm của từng phương pháp, các kết quả dự đốn của mơ hình sử dụng backbone ResNet101 hầu hết đều thấp hơn hoặc khơng q chênh lệch với mơ hình sử dụng ResNet50 nên tôi chỉ so sánh kết quả của các mơ hình với ResNet50. Lưu ý, đối với kết quả của DetectoRS, tôi chỉ đưa vào 2 mơ hình DetectoRS-ResNet50-12 và DetectoRS-ResNet50-24 sử dụng RFP và mơ hình DetectoRS-ResNet50-24-MS sử dụng SAC.

Bảng 4.7 Tổng hợp kết quả tốt nhất của các phương pháp. (Kết quả cao nhất được in đậm)

Về tổng quát, ta thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-Benchmark-M khi mơ hình TOOD-ResNet50-24 có kết quả tốt nhất chỉ với AP@50 = 31.9%. Khi so sánh các phương pháp với cùng thơng số huấn luyện, phương pháp TOOD có các kết quả tốt hơn hẳn các phương pháp khác còn Faster R-CNN cho kết quả thấp nhất. Về thời gian huấn luyện, phương pháp DetectoRS mất hơn gấp đôi lượng thời gian của các phương pháp khác.

66 Xét các thuộc tính về điều kiện chiếu sáng:

Daylight: mơ hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 28.9 %. Các mơ hình TOOD khác cũng cao hơn hẳn các mơ hình cùng thơng số huấn luyện cịn lại và Faster R-CNN thấp nhất. • Night: tuy chỉ có mơ hình TOOD-ResNet50-24 và DetectoRS-

ResNet50-24 có kết quả khá tốt (57% và 58%), song, các kết quả cịn lại cũng khơng quá thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 34.6%). Đây là trường hợp thu được kết quả cao nhất trong nhóm thuộc tính về điều kiện chiếu sáng.

Fog: Đây là trường hợp thu được kết quả thấp nhất trong nhóm thuộc tính về điều kiện chiếu sáng. Mơ hình có kết quả tốt nhất là VFNet- ResNet50-24 với AP@50 = 21.6 %. Các mơ hình TOOD cũng khơng q chênh lệch so với mơ hình của VFNet. Thấp nhất vẫn là Faster R- CNN.

Xét các thuộc tính về độ cao của thiết bị bay:

Low-alt: Đây là thuộc tính có kết quả dự đốn cao nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M khi được tất cả mơ hình thực nghiệm dự đốn với độ chính xác hơn 50 %. Trong đó, kết quả tốt nhất là TOOD-ResNet50-24-MS với AP@50 = 67%. Đồng thời, TOOD là phương pháp duy nhất với cả 3 mơ hình có độ chính xác hơn 60 %.

Medium-alt: Đây là trường hợp mà các phương pháp có kết quả không quá chênh lệch và không hiệu quả với kết quả tốt nhất là 36.9 % thuộc về mơ hình TOOD-ResNet50-24.

High-alt: Đây là trường hợp thu được kết quả thấp nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M. Các kết quả không quá chênh lệch và không hiệu quả. Kết quả tốt nhất là mơ hình VFNet-ResNet50-24 với AP@50 = 17.5 %. Các mơ hình TOOD cũng

67

khơng quá chênh lệch so với mơ hình của VFNet. Thấp nhất vẫn là Faster R-CNN.

Xét các thuộc tính về góc quay của camera:

Front-view: Mơ hình có kết quả tốt nhất là TOOD-ResNet50-24 với AP@50 = 34.6%. Các mơ hình TOOD khác cũng cao hơn hẳn các mơ hình cùng thơng số huấn luyện cịn lại và Faster R-CNN thấp nhất. • Side-view: Mơ hình có kết quả tốt nhất là VFNet-ResNet50-24-MS

với AP@50 = 34.1%. Tuy nhiên, các mơ hình TOOD cũng có độ chính xác tương đương với VFNET và Faster R-CNN thấp nhất. • Bird-view: Đây là trường hợp có kết quả thấp nhất trong nhóm các

thuộc tính về góc quay của camera. Mơ hình có kết quả tốt nhất là TOOD-ResNet50-12 với AP@50 = 26.7%. Tuy nhiên, các mơ hình VFNet cũng có độ chính xác tương đương với TOOD.

Xét về long-term: tuy chỉ có mơ hình DetectoRS-ResNet50-24 có kết quả khá tốt (51.6%), song, các kết quả cịn lại cũng khơng q thấp như các trường hợp khác (thấp nhất là DetectoRS-ResNet50-24-MS với 29.6%). Đây là trường hợp thu được kết quả cao thứ 3 trong số 10 thuộc tính của bộ dữ liệu (sau low-alt và night).

4.5.2.Đánh giá

Nhìn chung, kết quả thực nghiệm cho thấy cả 5 phương pháp đều không hiệu quả đối với bộ dữ liệu UAVDT-benchmark-M. Trong đó, về thời gian huấn luyện, các phương pháp không quá chênh lệch ngoại trừ DetectoRS có thời gian dài hơn gấp đơi. Về độ chính xác, phương pháp TOOD có kết quả cao nhất so với 4 phương pháp cịn lại. Các mơ hình VFNet khơng thấp hơn TOOD q nhiều và có kết quả tốt hơn TOOD trong trường hợp fog và highalt. Ngoài ra, phương pháp DetectoRS tuy không quá cao, nhưng mơ hình DetectoRS-ResNet50-24 sử dụng RFP có thể dự đốn hiệu quả cho thuộc tính night, low-alt và long-term.

Về nhóm thuộc tính điều kiện chiếu sáng (daylight, night, fog), kết quả dự đoán trên tập fog là thấp nhất bởi khi có sương mù, ảnh sẽ thiếu các chi tiết về

68

đường nét của đối tượng, đồng thời, nếu sương mù quá dày đặc, nó sẽ che khuất đối tượng, khiến việc dự đốn trở nên khó khăn. Theo thơng thường, ảnh với thời điểm ban ngày sẽ dễ dàng dự đoán hơn so với ban đêm do ánh sáng của đèn đường mờ vào ban đêm khiến thơng tin kết cấu của vật thể trở nên khó nắm bắt. Tuy nhiên, kết quả thực nghiệm trên tập night lại cao hơn tập daylight là do các ảnh test có thuộc tính night lại khơng có ảnh nào chịu ảnh hưởng bởi thuộc tính high-alt trong khi lượng ảnh test có thuộc tính daylight nhiều hơn và chịu ảnh hưởng bởi nhiều thuộc tính hơn.

Về nhóm thuộc tính độ cao thiết bị bay (low-alt, medium-alt, high-alt), việc kết quả dự đoán trên tập low-alt là cao nhất và high-alt là thấp nhất trong số 10 thuộc tính của bộ dữ liệu UAVDT-Benchmark-M cho thấy kích thước đối tượng tác động nhiều nhất tới độ chính xác của dự đốn. Như đã đề cập ở chương về bộ dữ liệu, thiết bị bay càng lên cao, camera sẽ thu được khung cảnh rộng hơn, nhiều đối tượng hơn nhưng đồng thời đối tượng sẽ ngày càng nhỏ dần, trong khi ở độ cao thấp, camera sẽ thu được đối tượng có kích thước lớn hơn, nhiều chi tiết hơn.

Về nhóm thuộc tính góc quay của camera (front-view, side-view, bird-view), việc kết quả dự đốn khơng q chênh lệch cho thấy nhóm thuộc tính này khơng tác động q lớn đến độ chính xác. Song, đây là nhóm thuộc tính tác động đến thơng tin của đối tượng ở nhiều góc độ khác nhau nên việc nâng cao độ chính xác cho các thuộc tính này sẽ giúp mơ hình phát hiện đối tượng linh hoạt hơn.

4.6.Ứng dụng Phát hiện phương tiện giao thông trong không ảnh 4.6.1.Giới thiệu 4.6.1.Giới thiệu

VEDAI (Vehicle Detection in Aerial Images) là ứng dụng cho phép người dùng load ảnh từ thiết bị để phát hiện đối tượng phương tiện giao thông đường bộ gồm: car, truck, bus. Cơng nghệ sử dụng:

• Model: TOOD.

69 • Client: HTML, CSS, JavaScript.

4.6.2.Thiết kế

4.6.2.1.Thiết kế Use case

Hình 4.17 Mơ tả use case tổng qt cho ứng dụng VEDAI.

Một phần của tài liệu Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh (khóa luận tốt nghiệp) (Trang 69)