.1 Một số ảnh của bộ dữ liệu UAVDT

• Chú thích bảng 3.1:

o D: DET (Object Detection): Phát hiện đối tượng.

o S: SOT (Single Object Tracking): Truy vết một đối tượng.

o M: MOT (Multiple Object Tracking): Truy vết nhiều đối tượng.

Hình 3.2 Bảng tóm tắt các bộ dữ liệu liên quan. [6] (Hình cắt từ bài báo gốc) Bộ dữ liệu gồm khoảng 80 000 ảnh được lấy từ các video có tổng thời lượng 10 tiếng với khoảng 0.84 triệu bounding box và hơn 2 700 phương tiện giao thông, được chia làm 2 bộ dữ liệu:

• UAVDT-Benchmark-M: 40 735 ảnh (từ 50 video), dành cho bài toán phát hiện đối tượng và truy vết nhiều đối tượng.

• UAVDT-Benchmark-S: 37 085 ảnh (từ 50 video), dành cho bài toán truy vết một đối tượng.

3.2.Bộ dữ liệu UAVDT-Benchmark-M 3.2.1.Tổng quan

Bộ dữ liệu UAVDT-Benchmark-M là bộ dữ liệu dành cho bài toán Phát hiện đối tượng và Truy vết nhiều đối tượng với 40 735 ảnh định dạng JPG thuộc 50 video, mỗi video là một thư mục chứa các frame ảnh thuộc video đó, được đặt tên

tương ứng thứ tự frame trong video. Trong đó, có 24 143 ảnh train (từ 30 video) và 16 592 ảnh test (từ 20 video). Bộ dữ liệu gồm 798 795 đối tượng thuộc 3 class: car (755 688 đối tượng), truck (25 086 đối tượng) và bus (18 021 đối tượng). Ngoài ra, mỗi video của bộ dữ liệu được đánh dấu theo các thuộc tính:

• Điều kiện chiếu sáng:

o Ban ngày (daylight): Các video ban ngày cho thấy sự giao thoa của bóng đổ bởi ánh mặt trời, gồm 24 055 ảnh.

o Ban đêm (night): Các video vào ban đêm, dưới ánh sáng của đèn đường mờ, khó nắm bắt được thơng tin kết cấu của vật thể, gồm 11 501 ảnh.

o Sương mù (fog): Các video được ghi trong điều kiện sương mù sẽ thiếu các chi tiết liên quan đến đường nét của các đối tượng, gồm 5 179 ảnh.

• Độ cao của thiết bị bay: Tác động đến kích thước của đối tượng.

o Độ cao dưới 30m (low-alt): Các video sẽ thu được nhiều chi tiết của đối tượng hơn, nhưng lượng đối tượng thu được thường sẽ ít hơn so với khi quay ở cao hơn, gồm 14 644 ảnh.

o Độ cao dưới 70m (medium-alt): gồm 24 059 ảnh.

o Độ cao trên 70m (high-alt): Các video thu được nhiều đối tượng, thậm chí là hơn 100 đối tượng, nhưng các đối tượng này sẽ có kích thước rất nhỏ, gồm 2 032 ảnh.

• Góc quay của camera: cho biết cách quay video

o front-view: với front view, camera sẽ được căn chỉnh thẳng với đường đi, gồm 23 601 ảnh.

o side-view: với side view, camera sẽ lệch khỏi trục với mặt đường để chụp mặt bên của các đối tượng, gồm 17 672 ảnh.

o bird-view: với bird view, camera sẽ vng góc với mặt đất, gồm 10 737 ảnh.

• Thời lượng dài (long-term): Thời lượng cho biết độ dài của một chuỗi. Trong chuỗi ghi hình, góc quay của camera có thể thay đổi để thu được cả front-view và side-view. Các chuỗi chứa hơn 1 500 frame ảnh sẽ được gắn nhãn long-term, gồm 7 376 ảnh.

3.2.2.Annotation

Annotation của bộ dữ liệu gồm các tệp dạng TXT với mỗi video có 3 tệp TXT (* là tên mỗi video):

• *_gt.txt: dành cho bài tốn Truy vết nhiều đối tượng

Thuộc tính Ý nghĩa

<frame_index> Số thứ tự của frame trong video.

<target_id>

ID của đối tượng cung cấp sự tương quan giữa các bounding box của nó trong các frame khác nhau.

<bbox_left> Hồnh độ góc trái trên của bounding

box được dự đoán.

<bbox_top> Tung độ góc trái trên của bounding box được dự đốn

<bbox_width> Chiều rộng (tính theo số pixel) của

bounding box được dự đốn.

<bbox_height> Chiều cao (tính theo số pixel) của

bounding box được dự đốn.

<score>

Có giá trị 1 hoặc 0 cho biết bounding box này sẽ được đưa vào đánh giá hay bị bỏ qua.

<in-view> Mặc định giá trị bằng −1.

<occlusion> Mặc định giá trị bằng −1.

• *_gt_whole.txt: dành cho bài tốn Phát hiện đối tượng

Thuộc tính Ý nghĩa

<frame_index> Số thứ tự của frame trong video.

<target_id>

ID của đối tượng cung cấp sự tương quan giữa các bounding box của nó trong các frame khác nhau.

<bbox_left> Hồnh độ góc trái trên của bounding

box được dự đốn.

<bbox_top> Tung độ góc trái trên của bounding box được dự đoán

<bbox_width> Chiều rộng (tính theo số pixel) của

bounding box được dự đoán.

<bbox_height> Chiều cao (tính theo số pixel) của

bounding box được dự đoán.

<out-of-view>

Cho biết mức độ bên ngồi khung hình của đối tượng: 1 = ‘no-out’, 2 = ‘medium-out’, 3 = ‘small-out’.

<occlusion>

Cho biết mức độ bị che phủ của đối tượng: 1 = ’no-occ’, 2 = ‘large-occ’, 3 = ‘medium-occ’, 4 = ‘small-occ’.

<object_category> Cho biết nhãn của đối tượng: 1 = ‘car’,

2 = ‘truck’, 3 = ‘bus’

Bảng 3.2 Mô tả ý nghĩa định dạng annotation cho Phát hiện đối tượng. • *_gt_ignore.txt: biểu diễn các vùng bị bỏ qua. • *_gt_ignore.txt: biểu diễn các vùng bị bỏ qua.

Chương 4.THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1.Dữ liệu thực nghiệm

Trong phạm vi đề tài này, chúng tôi chỉ sử dụng bộ dữ liệu UAVDT- Benchmark-M để thực nghiệm cho bài tốn phát hiện phương tiện giao thơng trong khơng ảnh.

4.1.1.Thay đổi cách tổ chức

Vì chúng tơi sử dụng định dạng annotation của MS COCO nên ảnh trong các thư mục của bộ dữ liệu cần được gom lại vào thư mục chung. Chúng tôi đã thực hiện như sau:

• Đầu tiên, chúng tơi lấy 15% trên tổng số lượng frame ảnh ra khỏi mỗi thư mục train để làm validation set.

• Sau đó, chúng tơi tiến hành thay đổi tên của tồn bộ frame ảnh trong tất cả thư mục theo định dạng: Lấy các ký tự số của tên thư mục + ký tự ‘0’ + các ký tự chỉ số thứ tự của frame + .jpg.

• Cuối cùng, chúng tơi di chuyển tồn bộ ảnh trong toàn bộ thư mục sang thư mục train, val, test tương ứng.

• Ngồi ra, dựa trên 10 thuộc tính của video, chúng tơi cũng tạo các thư mục test của từng thuộc tính để chứa toàn bộ ảnh test có thuộc tính tương ứng để đánh giá mơ hình cho các trường hợp ấy.

Như vậy, sau khi thay đổi, bộ dữ liệu UAVDT-benchmark-M chúng tơi dùng để thực nghiệm gồm có các thư mục sau:

• train: gồm 20 536 ảnh. • val: gồm 3 607 ảnh. • test: gồm 16 592 ảnh. • daylight/test: gồm 9 376 ảnh. • night/test: gồm 5 035 ảnh. • fog/test: gồm 2 181 ảnh.

43 • lowalt/test: gồm 6 987 ảnh. • mediumalt/test: gồm 7 925 ảnh. • highalt/test: gồm 1 680 ảnh. • frontview/test: gồm 10 464 ảnh. • sideview/test: gồm 7 611 ảnh. • birdview/test: gồm 3 217 ảnh. • longterm/test: gồm 3 435 ảnh.

4.1.2.Thay đổi định dạng annotation

Chúng tôi dùng định dạng annotation của MS COCO (.JSON). Tuy nhiên, vì định dạng này khá phức tạp, chúng tôi chỉ sử dụng 3 khóa chính của định dạng này:

• ‘image’: chứa danh sách thơng tin của ảnh.

• ‘annotations’: chứa danh sách thơng tin của bounding box. • ‘categories’: chứa danh sách nhãn và id của chúng.

.5 Cách tính Precision và Recall

Kết quả thực nghiệm phương pháp Faster R-CNN