Hình 3.19 Biểu diễn hình ảnh kết quả sau khi chuyển đổi.
46 Kết quả
Hình 3.20 Bộ dữ liệu sau khi chuyển đổi.
3.2.3 Tập dữ liệu cho OCR
- Bộ dữ liệu ảnh Tiếng Việt 344.143 ảnh, đã được dán nhẵn sẵn.
Hình 3.21 Bợ dữ liệu ảnh Tiếng việt.
47
Hình 3.22 Bợ dữ liệu kết hợp trích x́t từ phiếu xét nghiệm - Bộ dữ liệu đã được dán nhẵn sẵn. - Bộ dữ liệu đã được dán nhẵn sẵn.
Hình 3.23 Dán nhãn dữ liệu
- Kết hợp thêm 600 ảnh trích xuất từ tập dữ liệu phiếu xét nghiệm được dán nhãn thủ cơng.
48
- \
Hình 3.24 Dán nhãn dữ liệu phiếu xét nghiệm. - Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test. - Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test.
- Gộp 2 bộ dữ liệu Tiếng Việt 344.143 ảnh và bộ dữ liệu 600 ảnh trích xuất từ tập dữ liệu phiếu xét nghiệm.
- Dữ liệu được chia ra 300.617 ảnh huấn luyện và 44.126 ảnh kiểm thử.
3.2 Các bước xây dựng phương pháp
3.2.1 Phát hiện đối tượng trên phiếu xét nghiệm
- Dữ liệu phiếu xét nghiệm covid-19 sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS
- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.
- Chỉnh file config YOLOv4 huấn luyện
o width=416.
o height=416.
o learning_rate=0.001.
o max_batches = (# of classes) * 2000 = 4 * 2000 = 8000.
o steps = (80% of max_batches), (90% of max_batches) = (80% of 8000), (90% of 8000) = 6400,7200.
49 filters = (# of classes + 5) * 3 = (4 +5 )*3 = 27.
- Tạo file obj.names and obj.data chứa đường dẫn cấu hình. - Generating train.txt and test.txt chứa địa chỉ ảnh.
- Download pre-trained model weights convolutional layers từ link https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/ yolov4.conv.137
- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.
- Kiểm tra Mean Average Precision (mAP), Accuracy của mơ hình. - Vẽ biểu đồ.
3.2.2 Sử dụng CTPN phát hiện vùng chứa văn bản trên ảnh
- Dữ liệu ảnh văn bản sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS
- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.
- Download pre-trained model weights vgg16.cpkt - Chỉnh file config huấn luyện
o learning_rate=1e-5.
o batch_size = 4.
o max_steps = 50000.
o decay_steps = 3000
o decay_rate = 0.1.
- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.
- Kiểm tra Mean Average Precision (mAP), Accuracy của mơ hình. - Vẽ biểu đồ.
3.2.3 Sử dụng Transformer OCR trích xuất văn bản
- Dữ liệu ảnh nhận dạng ký tự sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS
50
- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.
- Download pre-trained model weights vgg16.cpkt - Chỉnh file config huấn luyện
o learning_rate=1e-5.
o batch_size = 4.
o iters = 300000.
o metrics = 1000
o valid_eveery = 100000.
- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.
- Kiểm tra Accuracy của mơ hình. - Vẽ biểu đồ.
3.2.4 Quy trình thực nghiệm
- Xử lý khử nhiễu bằng phương pháp Gauss ảnh đầu vào.
- Sau khi sử dụng yolo nhận phát hiện đối tượng phiếu xét nghiệm, ta được tọa độ của các đối tượng.
- Cắt ảnh các đối tượng theo tọa độ.
- Chuyển ảnh ảnh đen trắng các đối tượng phiếu xét nghiệm đã cắt.
- Sử dụng CTPN phát hiện vùng chứa văn bản, ta được tọa độ vùng chưa văn bản.
- Cắt ảnh theo tọa độ vùng chứa văn bản, sau đó resize lại ảnh x2 lần,sử dụng phương pháp khử nhiễu làm tăng đợ chính xác cho OCR.
51
THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ
4.1 Phát hiện đối tượng trên phiếu xét nghiệm bằng YOLOv4
Công cụ: Laptop lenovo Legion y540
Hình 4.1 Thơng tin máy tính sử dụng. Q trình huấn luyện. Thời gian huấn luyện 8000 iteration ~ 36h. Q trình huấn luyện. Thời gian huấn luyện 8000 iteration ~ 36h.
52 Loss diagram
Hình 4.3 Biểu đồ loss diagram Yolov4. Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4. Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4.
Info Score Best accuracy 90.4% mAP 86.42% Class 0 (id) – AP 90,7% Class 1 (target_name) – AP 86,67% Class 2 (method) – AP 77,03% Class 3 (result) – AP 91,02%
53 Kết quả thực nghiệm.
Hình 4.4 Kết quả nhận diện Yolov4 1
54
55
Hình 4.7 Kết quả nhận diện Yolov4 4
56
Đối tượng được nhận diện sẽ được cắt ra: chuẩn bị cho đầu vào bước 2 (CTPN nhận diện text)
Hình 4.9 Ảnh các đối tượng trên phiếu xét nghiệm sau khi đã nhận dạng 1.
4.2 Phát hiện ảnh chứa văn bản bằng CTPN
Công cụ: Laptop lenovo Legion y540
57
Quá trình huấn luyện. Thời gian huấn luyện 50000 iteration ~ 48h.
Hình 4.11 Quá trình huấn luyện CTPN Bảng 4.2 Kết quả quá trình huấn luyện CTPN. Bảng 4.2 Kết quả quá trình huấn luyện CTPN.
Info Score
mAP 87%
Kết quả thực nghiệm:
Chuyển sang ảnh trắng đen. Sử dụng CTPN phát hiện vũng chứa văn bản.
58
Hình 4.13 Nhận diện câu chữ bằng CTPN trên đối tượng target_name
Hình 4.14 Nhận diện câu chữ bằng CTPN trên đối tượng result
Các đối tượng văn bản được cắt ra tương ứng với class đối tượng: id, target_name, method, result.
59
Hình 4.16 Kết quả trích xuất câu chữ từ các đối tượng 2. - Đối tượng method
Hình 4.17 Kết quả trích x́t ảnh văn bản đối tượng method. - Đối tượng target_name
Hình 4.18 Kết quả trích x́t ảnh văn bản đối tượng target_name. - Đối tượng result
60
4.3 Nhận dạng ký tự tiếng việt bằng Transformer OCR
Cơng cụ: Laptop lenovo Legion y540
Hình 4.20 Thơng tin máy tính h́n luyện. Q trình h́n luyện. Thời gian huấn luyện 30000 iteration ~ 48h.
Hình 4.21 Kết quả huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR.
61
Info Score
acc full seq 93.82%
acc per char 98,9%
Loss diagram
Hình 4.22 Biểu đồ loss diagram
62
63
SO SÁNH VỚI TESSERACT OCR
TRANFORMER OCR TESSERACT OCR
1
64 3
65 5
Kết quả cho thấy Tranformer OCR hiệu quả hơn Tesseract OCR về đợ chính xác nhận trích xuất câu chữ, ký tự.
4.4 Đánh giá
Từ kết quả trên ta đưa ra đánh giá sau:
- Đối với việc phát hiện đối tượng bằng YOLO trên trên phiếu xét nghiệm, tỷ lệ chính xác chưa cao đối với ảnh đầu vào bị nghiêng, xéo. Vì tập dữ liệu cịn ít, và đa phần các mẫu rời rạc không đồng nhất. Bên cạnh đó đối với ảnh đầu vào tốt, YOLO xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất mợt nhãn cho một bức ảnh. - Đối với việc phát hiện đối tượng văn bản bằng CTPN tỷ lệ chính xác rất cao, vùng văn bản được bao trùm trọn văn bản, không bị bắt ký tự vùng biên (phụ thuộc vào ảnh đối tượng nhận dạng từ YOLO).
- Đối với việc nhận dạng dòng text đánh máy bằng Tranformer OCR tỷ lệ chính xác cao nên cơ bản đáp ứng được yêu cầu bài toán. Tuy nhiên, đối với ảnh có ký tự bị khuất vùng biên ảnh hưởng lớn đến kết quả nhận dạng.
66
- Một số mẫu cho tỷ lệ nhận dạng ký tự chính xác khá cao 93 % nhưng cũng có mẫu không thể nhận dạng không thành công. Đây có thể do ảnh hưởng chất lượng ảnh đầu vào.
67
KẾT LUẬN VÀ KIẾN NGHỊ
1. Kết luận:
Luận văn đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo, hiểu rõ các kỹ thuật nhận dạng đối tượng, nhận dạng ký tự. Trên cơ sở phân tích, kế thừa và ứng dụng các nghiên cứu liên quan, luận văn đã tập trung nghiên cứu, giải quyết bài toán số hóa phiếu xét nghiệm gồm ba bước: phát hiện đối tượng trên phiếu xét nghiệm, trích xuất ảnh chứa văn bản từ đối tượng phiếu xét nghiệm và nhận dạng ký tự văn bản. Một số kết quả đạt của luận văn cụ thể như sau:
- Sử dụng YOLOv4 nhận dạng với tốc đợ nhanh với đợ chính xác tốt, xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất một nhãn cho một bức ảnh. Làm giảm tải việc số hóa chỉ lấy dữ liệu cần thiết so với số hóa dữ liệu tồn bợ phiếu xét nghiệm. - CTPN hoạt động tốt trên những ảnh thiếu sáng, ảnh mờ, có thể xử lý đa ngôn ngữ hiệu quả.
- Tranformer OCR xử lý song song cho các từ so với mơ hình LSTM thì các từ phải được xử lý tuần tự. Vị trí của các từ được mã hóa Positional Encoding bằng mợt vector có kích thước bằng word embedding và được cộng trực tiếp vào word embedding việc nhận diện ký tự chính xác hơn.
Tuy nhiên, luận văn cịn mợt số hạn chế:
- Bộ dữ liệu phiếu xét nghiệm covid19 cho YOLO quá ít. Lý do phiếu xét nghiệm covid19 mang thông tin cá nhân nên việc thu thập mẫu phiếu hạn chế. - Chưa đề x́t được mơ hình đầu cuối tốt nhất cho bài toán số hóa phiếu xét nghiệm.
2. Đề xuất:
- Nghiên cứu các phương pháp nhận dạng văn bản, nhận dạng ký tự hiệu quả hơn để đề x́t mơ hình tốt nhất cho bài tốn số hóa.
68
TÀI LIỆU THAM KHẢO
[1] P. T. Tài. "Tìm hiểu về cơng nghệ nhận dạng kí tự quang học (OCR - Optical Character Recognition) ứng dụng trong các phần mềm phát hiện và xử lý vi phạm luật giao thông thông qua hệ thống camera giám sát." Internet: http://congan.travinh.gov.vn/ch26/351.prt, 30 Agu. 2017.
[2] N. Laodongxahoi.net, "Ảnh hưởng của dịch Covid 19 và những chính sách bảo đảm an sinh xã hội trong đại dịch,". Internet: https://phutho.gov.vn/vi/anh- huong-cua-dich-covid-19-va-nhung-chinh-sach-bao-dam-sinh-xa-hoi-trong- dai-dich, 22 Nov. 2021
[3] Phạm Đình Khanh. "Các thuật tốn Object Detection." Internet: https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html, 29 Sep. 2019.
[4] A. Bochkovskiy et al. "YOLOv4: Optimal Speed and Accuracy of Object Detection," 2020.
[5] G. Ghiasi et al. "DropBlock: A regularization method for convolutional
networks. In Advances in Neural Information Processing Systems (NIPS)," pp. 10727–10737, 2018.
[6] M. Chablani. "YOLO — You only look once, real time object detection explained." Internet: https://towardsdatascience.com/yolo-you-only-look- once-real-time-object-detection-explained-492dc9230006, 21 Aug. 2017. [7] Joseph Redmon et al. "You Only Look Once: Unified, Real-Time Object
Detection," 9 May. 2016.
[8] J. Redmon and A. Farhadi, "YOLO9000:Better, Faster, Stronger," Dec. 2016. [9] J. Redmon and A. Farhadt, "YOLOv3: An Incremental Improvement,"
YOLOv3: An Incremental Improvement, Sep. 2018.
[10] C.-Y. Wang et al. "CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING," 27 Nov. 2019.
[11] G. Huang et al. "Densely Connected Convolutional Networks," 28 Jan. 2018. [12] L. Wright. "Meet Mish — New State of the Art AI Activation Function. The successor to ReLU?" Internet: https://lessw.medium.com/meet-mish-new- state-of-the-art-ai-activation-function-the-successor-to-relu-
846a6d93471f#:~:text=ReLU%20has%20some%20known%20weaknesses,bo th%20training%20stability%20and%20accuracy, 27 Agu. 2019.
[13] n. Phung. "Tìm hiểu về CTPN - Connectionist Text Proposal Network." Internet: https://nerophung.github.io/2019/07/25/tim-hieu-ctpn, 24 Jul. 2019.
69
[14] Z. Tian et al. "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016.
[15] Epshtein et al. "Detecting text in natural scenes with stroke," 2010.
[16] Pan, Y. Hou and X. Liu, "Hybrid approach to detect and localize texts in natural," pp. 800-813, 2011.
[17] Mao et al. "Scale based region growing for scene text detection," ACM International Conference on Multimedia, 2013.
[18] Yin et al. "Multi-orientation scene text detection with adaptive clustering," EEE Trans. Pattern Analysis and Machine Intelligence, pp. 1930 - 1937, 2015.
[19] Zhang et al. "Symmetry-based text line detection in natural scenes," IEEE Computer Vision and Pattern Recognition, 2015.
[20] Tian et al. "Text flow: A unified text detection system in natural scene images,"
IEEE International Conference on Computer Vision, 2015.
[21] A. Vaswani et al. "Attention Is All You Need," 2017.
[22] J. Alammar. "The Illustrated Transformer." Internet: http://jalammar.github.io/illustrated-transformer, 27 June. 2018.
70
71
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN
I. LÝ LỊCH SƠ LƯỢC:
Họ và tên: NGUYỄN NGỌC DUY ....................... Giới tính: NAM ......................... Ngày, tháng, năm sinh: 25/09/1991 ........................ Nơi sinh: ĐỒNG THÁP ............. Email: quylekubota@gmail.com ............................ Điện thoại: 0764428347 .............
II. QUÁ TRÌNH ĐÀO TẠO:
2009 - 2012 Sinh viên Cao Đẳng trường Đại Học Khoa Học Tự Nhiên 2012 - 2014 Sinh viên Đại Học trường Đại Học Khoa Học Tự Nhiên 2019 – nay Học viên cao học trường Đại Học Công Nghiệp TP.HCM
III. Q TRÌNH CƠNG TÁC CHUN MƠN:
Thời gian Nơi cơng tác Công việc đảm nhiệm
Từ 10/2014 đến 05/2016 Trung tâm Tin học tỉnh Đồng Tháp
Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Tin học Tỉnh.
Từ 05/2016 đến 11/2019 Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp
Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp
Từ 11/2019 đến nay Viễn thông tỉnh Đồng Tháp Nhân viên giải pháp Trung tâm Công nghệ Thông tin – VNPT Đồng Tháp. Tp. HCM, ngày 30 tháng 11 Năm 2021 Người khai (Ký tên) Nguyễn Ngọc Duy