.1 Một số ảnh của bộ dữ liệu UAVDT

Một phần của tài liệu Tìm hiểu phương pháp d2det cho bài toán phát hiện phương tiện giao thông trong không ảnh (Trang 53 - 59)

− Chú thích bảng 4.1

o D = DET (Object Detection): Phát hiện đối tượng.

o S = SOT (Single Object Tracking): Theo dõi một đối tượng.

o M = MOT (Multiple Object Tracking): Theo dõi nhiều đới tượng.

54

Bảng 4.1 Tóm tắt các bộ dữ liệu liên quan. [2]

Bộ dữ liệu gồm khoảng 80.000 ảnh được lấy từ các video có tổng thời lượng 10 tiếng với khoảng 0,84 triệu bounding box và hơn 2.700 phương tiện giao thông, được chia làm 2 bộ dữ liệu:

UAVDT-Benchmark-M: 40.735 ảnh (từ 50 video), dành cho bài toán phát hiện

đối tượng và theo dõi nhiều đối tượng.

UAVDT-Benchmark-S: 37.085 ảnh (từ 50 video), dành cho bài toán theo dõi

một đối tượng.

4.2. Bộ dữ liệu UAVDT-Benchmark-M

4.2.1. Tổng quan

Bộ dữ liệu UAVDT-Benchmark-M là bộ dữ liệu dành cho bài toán Phát hiện đối tượng (DET – Object Detection) và Theo dõi nhiều đối tượng (MOT – Multiple Object Tracking) với 40 735 ảnh định dạng JPG thuộc 50 video, mỗi video là một thư

55

mục chứa các frame ảnh thuộc video đó, được đặt tên tương ứng thứ tự frame trong video. Trong đó, có 24 143 ảnh train (từ 30 video) và 16 592 ảnh test (từ 20 video). Bộ dữ liệu gồm 798 795 đối tượng thuộc 3 class: car (755688 đối tượng), truck (25086 đối tượng) và bus (18021 đối tượng). Ngồi ra, mỡi video của bộ dữ liệu được đánh dấu theo các thuộc tính:

Thời tiết: daylight, night, fog.

Độ cao: low-alt, medium-alt, high-alt.

Góc quay của camera: front-view, side-view, bird-view

− long-term.

4.2.2. Annotation

Annotation của bộ dữ liệu gồm các tệp dạng TXT với mỡi video có 3 tệp TXT (* là tên mỗi video):

− *_gt.txt: dành cho bài tốn MOT:

<frame_index>,<target_id>,<bbox_left>,<bbox_top>,<bbox_width>, <bbox_height>,<score>,<in-view>,<occlusion>

o Trong đó:

Thuộc tính Ý nghĩa

<frame_index> Số thứ tự của frame trong video.

<target_id>

ID của đối tượng cung cấp sự tương quan giữa các bounding box của nó trong các frame khác nhau.

<bbox_left> Hồnh độ góc trái trên của bounding box

được dự đốn.

<bbox_top> Tung độ góc trái trên của bounding box được dự đoán

56

<bbox_width> Chiều rộng (tính theo số pixel) của

bounding box được dự đoán.

<bbox_height> Chiều cao (tính theo số pixel) của

bounding box được dự đốn.

<score>

Có giá trị 1 hoặc 0 cho biết bounding box này sẽ được đưa vào đánh giá hay bị bỏ qua.

<in-view> Mặc định giá trị bằng −1.

<occlusion> Mặc định giá trị bằng −1.

Bảng 4.2 Mô tả ý nghĩa định dạng annotation dành cho bài toán MOT.

− *_gt_whole.txt: dành cho bài tốn DET:

<frame_index>,<target_id>,<bbox_left>,<bbox_top>,<bbox_width>, <bbox_height>,<out-of-view>,<occlusion>,<object_category>

o Trong đó:

Thuộc tính Ý nghĩa

<frame_index> Số thứ tự của frame trong video.

<target_id>

ID của đối tượng cung cấp sự tương quan giữa các bounding box của nó trong các frame khác nhau.

<bbox_left> Hồnh độ góc trái trên của bounding box

được dự đốn.

<bbox_top> Tung độ góc trái trên của bounding box được dự đốn

<bbox_width> Chiều rộng (tính theo số pixel) của

57

<bbox_height> Chiều cao (tính theo số pixel) của

bounding box được dự đoán.

<out-of-view>

Cho biết mức độ bên ngồi khung hình của đối tượng: 1 = ‘no-out’, 2 = ‘medium-out’, 3 = ‘small-out’.

<occlusion>

Cho biết mức độ bị che phủ của đối tượng: 1 = ’no-occ’, 2 = ‘lagre-occ’, 3 = ‘medium-occ’, 4 = ‘small-occ’.

<object_category> Cho biết nhãn của đối tượng: 1 = ‘car’,

2 = ‘truck’, 3 = ‘bus’

Bảng 4.3 Mô tả ý nghĩa định dạng annotation dành cho bài toán DET.

58

Chương 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Nội dung chương này trình bày về quá trình thực nghiệm, phương pháp đánh giá và kết quả thu được của đề tài.

5.1. Quá trình thực nghiệm

5.1.1. Dữ liệu thực nghiệm

Trong phạm vi đề tài này, chúng tôi chỉ sử dụng bộ dữ liệu UAVDT- Benchmark-M 1 để thực nghiệm cho bài tốn phát hiện phương tiện giao thơng trong không ảnh.

5.1.1.1. Thay đởi cách tở chức của bộ dữ liệu

Vì chúng tôi sử dụng định dạng annotation của MS COCO nên ảnh trong các thư mục của bộ dữ liệu cần được gom lại vào thư mục chung. Chúng tôi đã thực hiện như sau:

− Đầu tiên, chúng tôi lấy 15% trên tổng số lượng frame ảnh ứng với mỗi thư mục train để làm validation set.

− Sau đó, chúng tơi tiến hành thay đổi tên của toàn bộ frame ảnh trong tất cả thư mục theo định dạng: Tên thư mục + 6 ký tự chỉ số thứ tự của frame + .jpg.

− Cuối cùng, chúng tơi di chuyển tồn bộ ảnh trong toàn bộ thư mục sang thư mục train, val, set tương ứng.

− Ngoài ra, dựa trên các thuộc tính của video, chúng tơi cũng tạo các thư mục daylight, lowalt, birdview, daylight – lowalt – birdview để chứa tồn bộ ảnh test có thuộc tính tương ứng để đánh giá mơ hình cho các trường hợp ấy. Như vậy, sau khi thay đổi, bộ dữ liệu UAVDT-benchmark-M chúng tơi dùng để thực nghiệm gồm có các thư mục sau:

Train set: 20 536 ảnh.

Validation set: 3 607 ảnh.

59

Test set: 16 592 ảnh.

Daylight: 9 376 ảnh

Lowalt: 6 987 ảnh

Birdview: 3 217 ảnh

Daylight – lowalt – birdview: 298 ảnh

5.1.1.2. Thay đổi định dạng annotation của bộ dữ liệu

Chúng tôi dùng định dạng annotation của COCO (JSON). Tuy nhiên, vì định dạng này khá phức tạp, chúng tơi chỉ sử dụng 3 khóa chính của định dạng này. Đó là:

− ‘image’: chứa danh sách thơng tin của ảnh.

− ‘annotations’: chứa danh sách thông tin của bounding box.

− ‘categories’: chứa danh sách nhãn và id của chúng.

Một phần của tài liệu Tìm hiểu phương pháp d2det cho bài toán phát hiện phương tiện giao thông trong không ảnh (Trang 53 - 59)