59
Hình 4.16 Kết quả trích x́t câu chữ từ các đối tượng 2. - Đối tượng method
Hình 4.17 Kết quả trích x́t ảnh văn bản đối tượng method. - Đối tượng target_name
Hình 4.18 Kết quả trích x́t ảnh văn bản đối tượng target_name. - Đối tượng result
60
4.3 Nhận dạng ký tự tiếng việt bằng Transformer OCR
Công cụ: Laptop lenovo Legion y540
Hình 4.20 Thơng tin máy tính h́n luyện. Quá trình huấn luyện. Thời gian huấn luyện 30000 iteration ~ 48h.
Hình 4.21 Kết quả huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR.
61
Info Score
acc full seq 93.82%
acc per char 98,9%
Loss diagram
Hình 4.22 Biểu đồ loss diagram
62
63
SO SÁNH VỚI TESSERACT OCR
TRANFORMER OCR TESSERACT OCR
1
64 3
65 5
Kết quả cho thấy Tranformer OCR hiệu quả hơn Tesseract OCR về đợ chính xác nhận trích xuất câu chữ, ký tự.
4.4 Đánh giá
Từ kết quả trên ta đưa ra đánh giá sau:
- Đối với việc phát hiện đối tượng bằng YOLO trên trên phiếu xét nghiệm, tỷ lệ chính xác chưa cao đối với ảnh đầu vào bị nghiêng, xéo. Vì tập dữ liệu cịn ít, và đa phần các mẫu rời rạc không đồng nhất. Bên cạnh đó đối với ảnh đầu vào tốt, YOLO xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất một nhãn cho một bức ảnh. - Đối với việc phát hiện đối tượng văn bản bằng CTPN tỷ lệ chính xác rất cao, vùng văn bản được bao trùm trọn văn bản, không bị bắt ký tự vùng biên (phụ thuộc vào ảnh đối tượng nhận dạng từ YOLO).
- Đối với việc nhận dạng dòng text đánh máy bằng Tranformer OCR tỷ lệ chính xác cao nên cơ bản đáp ứng được yêu cầu bài toán. Tuy nhiên, đối với ảnh có ký tự bị khuất vùng biên ảnh hưởng lớn đến kết quả nhận dạng.
66
- Một số mẫu cho tỷ lệ nhận dạng ký tự chính xác khá cao 93 % nhưng cũng có mẫu không thể nhận dạng không thành công. Đây có thể do ảnh hưởng chất lượng ảnh đầu vào.
67
KẾT LUẬN VÀ KIẾN NGHỊ
1. Kết luận:
Luận văn đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo, hiểu rõ các kỹ thuật nhận dạng đối tượng, nhận dạng ký tự. Trên cơ sở phân tích, kế thừa và ứng dụng các nghiên cứu liên quan, luận văn đã tập trung nghiên cứu, giải quyết bài toán số hóa phiếu xét nghiệm gồm ba bước: phát hiện đối tượng trên phiếu xét nghiệm, trích xuất ảnh chứa văn bản từ đối tượng phiếu xét nghiệm và nhận dạng ký tự văn bản. Một số kết quả đạt của luận văn cụ thể như sau:
- Sử dụng YOLOv4 nhận dạng với tốc đợ nhanh với đợ chính xác tốt, xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất mợt nhãn cho mợt bức ảnh. Làm giảm tải việc số hóa chỉ lấy dữ liệu cần thiết so với số hóa dữ liệu tồn bợ phiếu xét nghiệm. - CTPN hoạt động tốt trên những ảnh thiếu sáng, ảnh mờ, có thể xử lý đa ngôn ngữ hiệu quả.
- Tranformer OCR xử lý song song cho các từ so với mơ hình LSTM thì các từ phải được xử lý tuần tự. Vị trí của các từ được mã hóa Positional Encoding bằng một vector có kích thước bằng word embedding và được cộng trực tiếp vào word embedding việc nhận diện ký tự chính xác hơn.
Tuy nhiên, luận văn cịn mợt số hạn chế:
- Bộ dữ liệu phiếu xét nghiệm covid19 cho YOLO quá ít. Lý do phiếu xét nghiệm covid19 mang thông tin cá nhân nên việc thu thập mẫu phiếu hạn chế. - Chưa đề x́t được mơ hình đầu cuối tốt nhất cho bài toán số hóa phiếu xét nghiệm.
2. Đề xuất:
- Nghiên cứu các phương pháp nhận dạng văn bản, nhận dạng ký tự hiệu quả hơn để đề x́t mơ hình tốt nhất cho bài tốn số hóa.
68
TÀI LIỆU THAM KHẢO
[1] P. T. Tài. "Tìm hiểu về cơng nghệ nhận dạng kí tự quang học (OCR - Optical Character Recognition) ứng dụng trong các phần mềm phát hiện và xử lý vi phạm luật giao thông thông qua hệ thống camera giám sát." Internet: http://congan.travinh.gov.vn/ch26/351.prt, 30 Agu. 2017.
[2] N. Laodongxahoi.net, "Ảnh hưởng của dịch Covid 19 và những chính sách bảo đảm an sinh xã hội trong đại dịch,". Internet: https://phutho.gov.vn/vi/anh- huong-cua-dich-covid-19-va-nhung-chinh-sach-bao-dam-sinh-xa-hoi-trong- dai-dich, 22 Nov. 2021
[3] Phạm Đình Khanh. "Các thuật tốn Object Detection." Internet: https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html, 29 Sep. 2019.
[4] A. Bochkovskiy et al. "YOLOv4: Optimal Speed and Accuracy of Object Detection," 2020.
[5] G. Ghiasi et al. "DropBlock: A regularization method for convolutional
networks. In Advances in Neural Information Processing Systems (NIPS)," pp. 10727–10737, 2018.
[6] M. Chablani. "YOLO — You only look once, real time object detection explained." Internet: https://towardsdatascience.com/yolo-you-only-look- once-real-time-object-detection-explained-492dc9230006, 21 Aug. 2017. [7] Joseph Redmon et al. "You Only Look Once: Unified, Real-Time Object
Detection," 9 May. 2016.
[8] J. Redmon and A. Farhadi, "YOLO9000:Better, Faster, Stronger," Dec. 2016. [9] J. Redmon and A. Farhadt, "YOLOv3: An Incremental Improvement,"
YOLOv3: An Incremental Improvement, Sep. 2018.
[10] C.-Y. Wang et al. "CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING," 27 Nov. 2019.
[11] G. Huang et al. "Densely Connected Convolutional Networks," 28 Jan. 2018. [12] L. Wright. "Meet Mish — New State of the Art AI Activation Function. The successor to ReLU?" Internet: https://lessw.medium.com/meet-mish-new- state-of-the-art-ai-activation-function-the-successor-to-relu-
846a6d93471f#:~:text=ReLU%20has%20some%20known%20weaknesses,bo th%20training%20stability%20and%20accuracy, 27 Agu. 2019.
[13] n. Phung. "Tìm hiểu về CTPN - Connectionist Text Proposal Network." Internet: https://nerophung.github.io/2019/07/25/tim-hieu-ctpn, 24 Jul. 2019.
69
[14] Z. Tian et al. "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016.
[15] Epshtein et al. "Detecting text in natural scenes with stroke," 2010.
[16] Pan, Y. Hou and X. Liu, "Hybrid approach to detect and localize texts in natural," pp. 800-813, 2011.
[17] Mao et al. "Scale based region growing for scene text detection," ACM International Conference on Multimedia, 2013.
[18] Yin et al. "Multi-orientation scene text detection with adaptive clustering," EEE Trans. Pattern Analysis and Machine Intelligence, pp. 1930 - 1937, 2015.
[19] Zhang et al. "Symmetry-based text line detection in natural scenes," IEEE Computer Vision and Pattern Recognition, 2015.
[20] Tian et al. "Text flow: A unified text detection system in natural scene images,"
IEEE International Conference on Computer Vision, 2015.
[21] A. Vaswani et al. "Attention Is All You Need," 2017.
[22] J. Alammar. "The Illustrated Transformer." Internet: http://jalammar.github.io/illustrated-transformer, 27 June. 2018.
70
71
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN
I. LÝ LỊCH SƠ LƯỢC:
Họ và tên: NGUYỄN NGỌC DUY ....................... Giới tính: NAM ......................... Ngày, tháng, năm sinh: 25/09/1991 ........................ Nơi sinh: ĐỒNG THÁP ............. Email: quylekubota@gmail.com ............................ Điện thoại: 0764428347 .............
II. QUÁ TRÌNH ĐÀO TẠO:
2009 - 2012 Sinh viên Cao Đẳng trường Đại Học Khoa Học Tự Nhiên 2012 - 2014 Sinh viên Đại Học trường Đại Học Khoa Học Tự Nhiên 2019 – nay Học viên cao học trường Đại Học Công Nghiệp TP.HCM
III. Q TRÌNH CƠNG TÁC CHUN MƠN:
Thời gian Nơi công tác Công việc đảm nhiệm
Từ 10/2014 đến 05/2016 Trung tâm Tin học tỉnh Đồng Tháp
Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Tin học Tỉnh.
Từ 05/2016 đến 11/2019 Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp
Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp
Từ 11/2019 đến nay Viễn thông tỉnh Đồng Tháp Nhân viên giải pháp Trung tâm Công nghệ Thông tin – VNPT Đồng Tháp. Tp. HCM, ngày 30 tháng 11 Năm 2021 Người khai (Ký tên) Nguyễn Ngọc Duy