.1 Một số ảnh của bộ dữ liệu UAVDT

− Chú thích bảng 4.1

o D = DET (Object Detection): Phát hiện đối tượng.

o S = SOT (Single Object Tracking): Theo dõi một đối tượng.

o M = MOT (Multiple Object Tracking): Theo dõi nhiều đới tượng.

Bảng 4.1 Tóm tắt các bộ dữ liệu liên quan. [2]

Bộ dữ liệu gồm khoảng 80.000 ảnh được lấy từ các video có tổng thời lượng 10 tiếng với khoảng 0,84 triệu bounding box và hơn 2.700 phương tiện giao thông, được chia làm 2 bộ dữ liệu:

− UAVDT-Benchmark-M: 40.735 ảnh (từ 50 video), dành cho bài toán phát hiện

đối tượng và theo dõi nhiều đối tượng.

− UAVDT-Benchmark-S: 37.085 ảnh (từ 50 video), dành cho bài toán theo dõi

một đối tượng.

4.2. Bộ dữ liệu UAVDT-Benchmark-M

4.2.1. Tổng quan

Bộ dữ liệu UAVDT-Benchmark-M là bộ dữ liệu dành cho bài toán Phát hiện đối tượng (DET – Object Detection) và Theo dõi nhiều đối tượng (MOT – Multiple Object Tracking) với 40 735 ảnh định dạng JPG thuộc 50 video, mỗi video là một thư

mục chứa các frame ảnh thuộc video đó, được đặt tên tương ứng thứ tự frame trong video. Trong đó, có 24 143 ảnh train (từ 30 video) và 16 592 ảnh test (từ 20 video). Bộ dữ liệu gồm 798 795 đối tượng thuộc 3 class: car (755688 đối tượng), truck (25086 đối tượng) và bus (18021 đối tượng). Ngồi ra, mỡi video của bộ dữ liệu được đánh dấu theo các thuộc tính:

− Thời tiết: daylight, night, fog.

− Độ cao: low-alt, medium-alt, high-alt.

− Góc quay của camera: front-view, side-view, bird-view

− long-term.

4.2.2. Annotation

Annotation của bộ dữ liệu gồm các tệp dạng TXT với mỡi video có 3 tệp TXT (* là tên mỗi video):

− *_gt.txt: dành cho bài tốn MOT:

<frame_index>,<target_id>,<bbox_left>,<bbox_top>,<bbox_width>, <bbox_height>,<score>,<in-view>,<occlusion>

o Trong đó:

Thuộc tính Ý nghĩa

<frame_index> Số thứ tự của frame trong video.

<target_id>

ID của đối tượng cung cấp sự tương quan giữa các bounding box của nó trong các frame khác nhau.

<bbox_left> Hồnh độ góc trái trên của bounding box

được dự đốn.

<bbox_top> Tung độ góc trái trên của bounding box được dự đoán

<bbox_width> Chiều rộng (tính theo số pixel) của

bounding box được dự đoán.

<bbox_height> Chiều cao (tính theo số pixel) của

bounding box được dự đốn.

<score>

Có giá trị 1 hoặc 0 cho biết bounding box này sẽ được đưa vào đánh giá hay bị bỏ qua.

<in-view> Mặc định giá trị bằng −1.

<occlusion> Mặc định giá trị bằng −1.

Bảng 4.2 Mô tả ý nghĩa định dạng annotation dành cho bài toán MOT.

− *_gt_whole.txt: dành cho bài tốn DET:

<frame_index>,<target_id>,<bbox_left>,<bbox_top>,<bbox_width>, <bbox_height>,<out-of-view>,<occlusion>,<object_category>

o Trong đó:

Thuộc tính Ý nghĩa

<frame_index> Số thứ tự của frame trong video.

<target_id>

ID của đối tượng cung cấp sự tương quan giữa các bounding box của nó trong các frame khác nhau.

<bbox_left> Hồnh độ góc trái trên của bounding box

được dự đốn.

<bbox_top> Tung độ góc trái trên của bounding box được dự đốn

<bbox_width> Chiều rộng (tính theo số pixel) của

<bbox_height> Chiều cao (tính theo số pixel) của

bounding box được dự đoán.

<out-of-view>

Cho biết mức độ bên ngồi khung hình của đối tượng: 1 = ‘no-out’, 2 = ‘medium-out’, 3 = ‘small-out’.

<occlusion>

Cho biết mức độ bị che phủ của đối tượng: 1 = ’no-occ’, 2 = ‘lagre-occ’, 3 = ‘medium-occ’, 4 = ‘small-occ’.

<object_category> Cho biết nhãn của đối tượng: 1 = ‘car’,

2 = ‘truck’, 3 = ‘bus’

Bảng 4.3 Mô tả ý nghĩa định dạng annotation dành cho bài toán DET.

Chương 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Nội dung chương này trình bày về quá trình thực nghiệm, phương pháp đánh giá và kết quả thu được của đề tài.

5.1. Quá trình thực nghiệm

5.1.1. Dữ liệu thực nghiệm

Trong phạm vi đề tài này, chúng tôi chỉ sử dụng bộ dữ liệu UAVDT- Benchmark-M 1 để thực nghiệm cho bài tốn phát hiện phương tiện giao thơng trong không ảnh.

5.1.1.1. Thay đởi cách tở chức của bộ dữ liệu

Vì chúng tôi sử dụng định dạng annotation của MS COCO nên ảnh trong các thư mục của bộ dữ liệu cần được gom lại vào thư mục chung. Chúng tôi đã thực hiện như sau:

− Đầu tiên, chúng tôi lấy 15% trên tổng số lượng frame ảnh ứng với mỗi thư mục train để làm validation set.

− Sau đó, chúng tơi tiến hành thay đổi tên của toàn bộ frame ảnh trong tất cả thư mục theo định dạng: Tên thư mục + 6 ký tự chỉ số thứ tự của frame + .jpg.

− Cuối cùng, chúng tơi di chuyển tồn bộ ảnh trong toàn bộ thư mục sang thư mục train, val, set tương ứng.

− Ngoài ra, dựa trên các thuộc tính của video, chúng tơi cũng tạo các thư mục daylight, lowalt, birdview, daylight – lowalt – birdview để chứa tồn bộ ảnh test có thuộc tính tương ứng để đánh giá mơ hình cho các trường hợp ấy. Như vậy, sau khi thay đổi, bộ dữ liệu UAVDT-benchmark-M chúng tơi dùng để thực nghiệm gồm có các thư mục sau:

− Train set: 20 536 ảnh.

− Validation set: 3 607 ảnh.

− Test set: 16 592 ảnh.

− Daylight: 9 376 ảnh

− Lowalt: 6 987 ảnh

− Birdview: 3 217 ảnh

− Daylight – lowalt – birdview: 298 ảnh

5.1.1.2. Thay đổi định dạng annotation của bộ dữ liệu

Chúng tôi dùng định dạng annotation của COCO (JSON). Tuy nhiên, vì định dạng này khá phức tạp, chúng tơi chỉ sử dụng 3 khóa chính của định dạng này. Đó là:

− ‘image’: chứa danh sách thơng tin của ảnh.

− ‘annotations’: chứa danh sách thông tin của bounding box.

− ‘categories’: chứa danh sách nhãn và id của chúng.

.2 Kiến trúc của Fast R-CNN