3. QUÁ TRÌNH THỰC HIỆN
3.2. Huấn luyện mơ hình Deep Learning
3.2.1. Chuẩn bị dữ liệu
3.2.1.1.! Mơ hình Object Detection COCO Dataset 2017
Hình 3.1. Một số hình ảnh trong tập COCO 2017!
- COCO 2017 Dataset [27] là một tập dữ liệu đã được gán nhãn sẵn gồm 80 classes khác nhau. Trong đó có tổng cộng 123,287 hình được chia thành 2 tập dữ liệu:
+ Tập data train gồm khoảng 118,000 ảnh đã được gán nhãn. + Tập data validation gồm khoảng 5,000 ảnh đã được gán nhãn.
- Do ta chỉ cần các hình ảnh về người để phục vụ cho quá trình huấn luyện, vì vậy từ tập data COCO 2017 có 80 classes này tiến hành lọc ra những ảnh nào xuất hiện người dựa vào tập nhãn đã có sẵn.
- Sau khi lọc ta thu được:
+ Data train: 34,212 ảnh có người + Data val: 2,685 ảnh có người
- Ngồi ra, để tăng Precision (giảm False Positive) cho mơ hình, ta cần thêm những ảnh khơng xuất hiện người để bổ sung vào tập data train. Tham khảo một số
bài viết thì đa phần các tác giả chọn khoảng 10% ảnh data train là ảnh background (không xuất hiện người)
+ Data train: 4,000 ảnh khơng có người + Data val: 2,259 ảnh khơng có người
Substation Dataset
- Vì mục đích của mơ hình này là phát hiện người trong trạm biến áp, nên ta cần có thêm một bộ dữ liệu về ảnh người trong TBA.
- Substation Dataset là bộ dữ liệu chụp lại ảnh người di chuyển và xuất hiện trong TBA.
- Tập dữ liệu ảnh này có kích thước ảnh lớn bao gồm 306 ảnh chưa được gán nhãn.
- Sau khi gán nhãn và tăng cường dữ liệu cho tập huấn luyện ta thu được + Data train + augment: 483 ảnh đã gán nhãn
- Ngoài ra, để tăng độ chính xác cho mơ hình cần huấn luyện, tránh các trường hợp phát hiện nhằm các vật thể có sẵn trong mơi trường trạm biến áp như cột điện, tủ điện, bình chữa cháy, ... ta bổ sung 1259 ảnh chụp môi trường trong TBA mà không có người để huấn luyện cho mơ hình.
Youtube Dataset
- Để tạo nên sự đa dạng trong góc nhìn (góc chụp ảnh), giúp mơ hình có thể
nhận diện người ở nhiều góc hơn. Ta sử dụng thêm một bộ dữ liệu Youtube Dataset.
- Tập dữ liệu này gồm 4,343 ảnh được cắt ra từ các video trộm đột nhập trên
Youtube và chưa được gán nhãn. Đa phần ảnh trong bộ dữ liệu này được chụp trong môi trường thiếu sáng hoặc khi camera đã chuyển sang chế độ nhìn đêm. Từ đó, tập dữ liệu này có thể giúp mơ hình của chúng ta nhận biết được người trong môi trường thiếu sáng.
- Sau khi gán nhãn và tăng cường dữ liệu ta có được + Data train: 2,821 ảnh đã gán nhãn
+ Data validation: 829 ảnh đã gán nhãn + Data test: 870 ảnh đã gán nhãn
Tăng cường dữ liệu
- Tăng cường dữ liệu còn gọi là Data Augmentation dùng để gia tăng số lượng
ảnh bằng các phép xử lý ảnh thông thường nhằm tạo nên sự đa dạng cho tập dữ liệu huấn luyện nhưng vẫn giữ được tính tổng quát của tập dữ liệu.
- Do số lượng ảnh của tập COCO 2017 Dataset khá lớn nên ta không cần tăng cường dữ liệu cho tập dữ liệu này.
- Thực hiện tăng cường dữ liệu cho Youtube và Substation Dataset.
- Các phép biến đổi hình học thơng dụng và được mơ tả ở các hình sau:
Hình 3.4. Hình ảnh dữ liệu được Augmentation
- Với model YOLO v5, khi huấn luyện model, có thể chọn chế độ augment online, có nghĩa là chương trình huấn luyện sẽ tự động tăng cường dữ liệu trong quá trình huấn luyện mà khơng cần phải tăng cường dữ liệu trước đó.
3.2.1.2.! Mơ hình Classification
- Mơ hình này dùng để giải quyết bài tốn xác định người có đội mũ bảo hộ hay khơng. Dữ liệu dùng để huấn luyện mơ hình được thu thập trong quá trình khảo
- Việc tiếp theo cần làm là trích xuất hình ảnh người từ các bộ dữ liệu đã thu thập được. Để nhanh chóng và thuận tiện hơn trong q trình thu thập dữ liệu, đề tài luận văn này sử dụng mơ hình YOLOv5-m đã huấn luyện sẵn để thực hiện phát hiện người sau đó thu thập lại các bức ảnh người đó.
- Để loại bỏ đi các tình huống người khơng đội nón mà chỉ cầm hoặc ơm nón gây nhầm lẫn cho mơ hình trong q trình huấn luyện, ta tiến hành cắt ½ bức ảnh người chỉ giữ lại phần thân trên và đầu người làm dữ liệu huấn luyện mơ hình Classification. Ngồi ra, để tăng độ chính xác cho mơ hình chỉ những hình ảnh nào người thật sự đội nón trên đầu mới được tính là đội nón. Cịn lại các trường hợp như cầm nón che đầu, hay vị trí nón khơng đúng u cầu đều được xem là khơng đội nón.
Hình 3.5. Một số hình ảnh trong tập dữ liệu có đội mũ bảo hộ
- Sau q trình xử lý và tăng cường dữ liệu ta thu thập được:
+ Data train: 817 ảnh khơng đội nón + 1247 ảnh đội nón bảo hộ. + Data validation: 215 ảnh khơng đội nón + 407 ảnh đội nón bảo hộ. + Data test: 970 ảnh khơng đội nón + 2879 ảnh đội nón bảo hộ.
- Vì số lượng ảnh người khơng đội nón bảo hộ thu thập được cịn khá ít, chính vì vậy cần bổ sung thêm ảnh người khơng đội nón được trích xuất từ các camera khác nhau để cân bằng với tập ảnh có người đội mũ bảo hộ.
+ Data train: 400 ảnh + Data validation: 195 ảnh + Data test: 1684 ảnh
Hình 3.6. Một số hình ảnh trong tập dữ liệu khơng đội mũ bảo hộ