Kết quả: Sau khi gán nhãn xong, ta sẽ thu được 1 bộ cơ sở dữ liệu gồm ảnh chứa các đối tượng được đánh nhãn, đi kèm với mỗi 1 ảnh là 1 file chứa thông tin của các đối tượng được đánh nhãn trên cùng 1 bức ảnh, thông tin bao gồm : đường dẫn đến mục chứa các ảnh sau khi gán nhãn, kích thước của toàn bộ khung ảnh, tên lớp đã gán tên cho đối tượng, tọa độ 4 điểm của khung đã khoanh vùng đối tượng.
50
Hình 4.12 Xuất ra file .xml chứa thông tin bức ảnh vừa được dán nhãn
4.5 Cài đặt chương trình
4.5.1 Môi trường cài đặt
- Hệđiều hành: Ubuntu 18.04 - Ngôn ngữ: Python 3
- Framework: Keras trên Tensorflow
4.5.2 Tiền xử lý
- Ảnh được resize vềkích thước 416x416 nhưng giữ nguyên tỉ lệ bằng cách thêm viền đen (zero-fill).
- Anchor boxes: là các kích thước mặc định cho các bounding box. Sử dụng thuật toán k-means trên tập test để chọn ra 3 anchor boxes. YOLOv3 dự đoán toạ độ tâm và kích thước hình bao bằng cách dựđoán độ chênh lệch (offset) toạđộ, kích thước so với anchor boxes.
51
4.5.3 Huấn luyện
- Sử dụng dịch vụ Google Colab của Google để đào tạo mô hình (Google Colab (Google Colaboratory) là một dịch vụ đám mây miễn phí của Google nhằm hỗ trợ cộng đồng nghiên cứu AI phát triển các ứng dụng deep learning bằng việc cung cấp GPU và TPU miễn phí).
- Cầu hình sử dụng: GPU Tesla K80, 12 GB RAM - Môi trường: Python 3, Keras 2.1.5, Tensorflow 1.6.0
- Code được tham khảo: https://github.com/qqwweee/keras-yolo3
Bước 1: Chuẩn bị dữ liệu training dưới dạng file txt được chuyển đổi từ file xml thu được trong quá trình gán nhãn dữ liệu