.12 Minh họa định dạng annotation sau khi thay đô- 123docz.net

− Trong đó:

o Với khóa ‘images’:

▪ ‘file_name’: Tên ảnh, kiểu chuỗi (String).

▪ ‘height’: Chiều cao của ảnh, kiểu số nguyên (Integer). ▪ ‘width’: Chiều rộng của ảnh, kiểu số nguyên (Integer). ▪ ‘id’: ID của ảnh trong bộ dữ liệu, kiểu số nguyên (Integer).

o Với khóa ‘annotations’:

▪ ‘segmentation’: Chúng tôi mặc định giá trị này bằng [] do đây là giá trị không dùng cho bài toán phát hiện đối tượng.

▪ ‘area’: Diện tích bounding box của đối tượng, kiểu số thực (float).

▪ ‘iscrowd’: Chỉ có thể là giá trị 0 hoặc 1.

• 0: bounding box chứa 1 đới tượng.

• 1: bounding box chứa nhiều đới tượng.

▪ ‘image_id’: ID ảnh chứa đối tượng, kiểu số nguyên (Integer) ▪ ‘bbox’: Tọa độ và kích thước bounding box của đối tượng, kiểu

danh sách (List) với định dạng [x, y, width, height], trong đó: • x, y: tọa độ góc trái trên của bounding box.

• width: chiều rộng của bounding box. • height: chiều cao của bounding box.

▪ ‘category_id’: ID nhãn của đối tượng, ID này phải tương ứng

với ID trong khóa ‘categories’, kiểu số nguyên (Integer). ▪ ‘id’: ID của đối tượng, kiểu số nguyên (Integer).

o Với khóa ‘categories’:

▪ ‘id’: ID duy nhất của nhãn, kiểu số nguyên (Integer). ▪ ‘name’: Tên của nhãn, kiểu chuỗi (String).

Như vậy, sau khi hoàn thành quá trình chuyển đổi, chúng tôi sẽ có 7 tệp .json tương ứng với từng tập train, val, test, daylight, low-alt, bird-view, daylight – lowalt – birdview lưu trong thư mục anno.

3.2.2. Chạy thực nghiệm D2Det 3.2.2.1. Thông tin chung

− Mô hình D2Det là mô hình phát hiện đối tượng được tác giả huấn luyện trên bộ dữ liệu COCO với 80 lớp đối tượng. Sử dụng mô hình này sẽ phát hiện cả các đối tượng không phải là phương tiện giao thông, vượt ngoài phạm vi của đề tài nên chúng tôi tiến hành huấn luyện lại mô hình D2Det trên bộ dữ liệu UAVDT-benchmark-M với backbone ResNet50, ResNet101 kết hợp với FPN.

− Phiên bản D2Det mà chúng tôi thực nghiệm là phiên bản D2Det dùng trên môi trường mmdetection 2.1.0. 1

− Yêu cầu:

o Linux or macOS (Windows is not currently officially supported)

o Python 3.7+ o PyTorch 1.4.0+ o CUDA 10.0+ o mmcv 0.6.1+ o GCC 5+ 3.2.2.2. Chạy thực nghiệm

− Cài đặt môi trường:

conda create -n open-mmlab python=3.7 -y conda activate open-mmlab

conda install pytorch torchvision -c pytorch pip install -r requirements/build.txt

pip install

"git+https://github.com/cocodataset/cocoapi.git#subdirectory=PythonAP I"

pip install -v -e . # or "python setup.py develop" git clone https://github.com/open-mmlab/mmcv.git cd mmcv

MMCV_WITH_OPS=1 pip install -e .

− Chỉnh sửa tệp coco_detection.py trong đường dẫn …/D2Det-

mmdet2.1/configs/_base_/datasets/:

o Thay đổi đường dẫn của biến data_root thành đường dẫn tới bộ dữ liệu.

o Tạo một biến classes kiểu Tuple với các phần tử là các nhãn của đối tượng và thay đổi các tham số img_prefix, ann_file của đoạn sau tương ứng với đường dẫn của bộ dữ liệu.

train=dict(

img_prefix='./train_model/data/images/train/', classes=classes,

ann_file='./train_model/data/annotations/train.json/'), 1 Nguồn: https://github.com/JialeCao001/D2Det-mmdet2.1

56 val=dict( img_prefix='./train_model/data/images/val/', classes=classes, ann_file='./train_model/data/annotations/val.json/'), test=dict( img_prefix='./train_model/data/images/test/', classes=classes, ann_file='./train_model/data/annotations/test.json/')) − Tiến hành huấn luyện mô hình:

python tools/train.py <file config>

o Với <file config>:…/configs/d2det/D2Det_detection_r101_fpn_2x.py/

3.3. Phương pháp đánh giá

Chúng tôi sử dụng độ đo AP với IoU khác nhau để đánh giá mô hình.

3.3.1. Intersection over Union

Intersection over Union (IoU) là chỉ số đánh giá thường được dùng để đo độ chính xác của các phương pháp object detection, IoU có thể được dùng để đánh giá mọi tḥt tốn có khả năng dự đoán ra các bounding box. Cách tính IoU được thể hiện qua hình sau đây:

.12 Minh họa định dạng annotation sau khi thay đổi

.15 Fast R-CNN trong Faster R-CNN

.17 Minh họa vùng mà AP tính tốn