- Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test.
- Gộp 2 bộ dữ liệu Tiếng Việt 344.143 ảnh và bộ dữ liệu 600 ảnh trích xuất từ tập dữ liệu phiếu xét nghiệm.
- Dữ liệu được chia ra 300.617 ảnh huấn luyện và 44.126 ảnh kiểm thử.
3.2 Các bước xây dựng phương pháp
3.2.1 Phát hiện đối tượng trên phiếu xét nghiệm
- Dữ liệu phiếu xét nghiệm covid-19 sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS
- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.
- Chỉnh file config YOLOv4 huấn luyện
o width=416.
o height=416.
o learning_rate=0.001.
o max_batches = (# of classes) * 2000 = 4 * 2000 = 8000.
o steps = (80% of max_batches), (90% of max_batches) = (80% of 8000), (90% of 8000) = 6400,7200.
49 filters = (# of classes + 5) * 3 = (4 +5 )*3 = 27.
- Tạo file obj.names and obj.data chứa đường dẫn cấu hình. - Generating train.txt and test.txt chứa địa chỉ ảnh.
- Download pre-trained model weights convolutional layers từ link https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/ yolov4.conv.137
- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.
- Kiểm tra Mean Average Precision (mAP), Accuracy của mơ hình. - Vẽ biểu đồ.
3.2.2 Sử dụng CTPN phát hiện vùng chứa văn bản trên ảnh
- Dữ liệu ảnh văn bản sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS
- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.
- Download pre-trained model weights vgg16.cpkt - Chỉnh file config huấn luyện
o learning_rate=1e-5.
o batch_size = 4.
o max_steps = 50000.
o decay_steps = 3000
o decay_rate = 0.1.
- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.
- Kiểm tra Mean Average Precision (mAP), Accuracy của mơ hình. - Vẽ biểu đồ.
3.2.3 Sử dụng Transformer OCR trích xuất văn bản
- Dữ liệu ảnh nhận dạng ký tự sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS
50
- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.
- Download pre-trained model weights vgg16.cpkt - Chỉnh file config huấn luyện
o learning_rate=1e-5.
o batch_size = 4.
o iters = 300000.
o metrics = 1000
o valid_eveery = 100000.
- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.
- Kiểm tra Accuracy của mơ hình. - Vẽ biểu đồ.
3.2.4 Quy trình thực nghiệm
- Xử lý khử nhiễu bằng phương pháp Gauss ảnh đầu vào.
- Sau khi sử dụng yolo nhận phát hiện đối tượng phiếu xét nghiệm, ta được tọa độ của các đối tượng.
- Cắt ảnh các đối tượng theo tọa độ.
- Chuyển ảnh ảnh đen trắng các đối tượng phiếu xét nghiệm đã cắt.
- Sử dụng CTPN phát hiện vùng chứa văn bản, ta được tọa độ vùng chưa văn bản.
- Cắt ảnh theo tọa độ vùng chứa văn bản, sau đó resize lại ảnh x2 lần,sử dụng phương pháp khử nhiễu làm tăng đợ chính xác cho OCR.
51
THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ
4.1 Phát hiện đối tượng trên phiếu xét nghiệm bằng YOLOv4
Công cụ: Laptop lenovo Legion y540