.15 Kết quả trích xuất câu chữ từ các đối tượng- 123docz.net

Hình 4.16 Kết quả trích x́t câu chữ từ các đối tượng 2. - Đối tượng method

Hình 4.17 Kết quả trích x́t ảnh văn bản đối tượng method. - Đối tượng target_name

Hình 4.18 Kết quả trích x́t ảnh văn bản đối tượng target_name. - Đối tượng result

4.3 Nhận dạng ký tự tiếng việt bằng Transformer OCR

Công cụ: Laptop lenovo Legion y540

Hình 4.20 Thơng tin máy tính h́n luyện. Quá trình huấn luyện. Thời gian huấn luyện 30000 iteration ~ 48h.

Hình 4.21 Kết quả huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR.

Info Score

acc full seq 93.82%

acc per char 98,9%

Loss diagram

Hình 4.22 Biểu đồ loss diagram

SO SÁNH VỚI TESSERACT OCR

TRANFORMER OCR TESSERACT OCR

64 3

65 5

Kết quả cho thấy Tranformer OCR hiệu quả hơn Tesseract OCR về đợ chính xác nhận trích xuất câu chữ, ký tự.

4.4 Đánh giá

Từ kết quả trên ta đưa ra đánh giá sau:

- Đối với việc phát hiện đối tượng bằng YOLO trên trên phiếu xét nghiệm, tỷ lệ chính xác chưa cao đối với ảnh đầu vào bị nghiêng, xéo. Vì tập dữ liệu cịn ít, và đa phần các mẫu rời rạc không đồng nhất. Bên cạnh đó đối với ảnh đầu vào tốt, YOLO xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất một nhãn cho một bức ảnh. - Đối với việc phát hiện đối tượng văn bản bằng CTPN tỷ lệ chính xác rất cao, vùng văn bản được bao trùm trọn văn bản, không bị bắt ký tự vùng biên (phụ thuộc vào ảnh đối tượng nhận dạng từ YOLO).

- Đối với việc nhận dạng dòng text đánh máy bằng Tranformer OCR tỷ lệ chính xác cao nên cơ bản đáp ứng được yêu cầu bài toán. Tuy nhiên, đối với ảnh có ký tự bị khuất vùng biên ảnh hưởng lớn đến kết quả nhận dạng.

- Một số mẫu cho tỷ lệ nhận dạng ký tự chính xác khá cao 93 % nhưng cũng có mẫu không thể nhận dạng không thành công. Đây có thể do ảnh hưởng chất lượng ảnh đầu vào.

KẾT LUẬN VÀ KIẾN NGHỊ

1. Kết luận:

Luận văn đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo, hiểu rõ các kỹ thuật nhận dạng đối tượng, nhận dạng ký tự. Trên cơ sở phân tích, kế thừa và ứng dụng các nghiên cứu liên quan, luận văn đã tập trung nghiên cứu, giải quyết bài toán số hóa phiếu xét nghiệm gồm ba bước: phát hiện đối tượng trên phiếu xét nghiệm, trích xuất ảnh chứa văn bản từ đối tượng phiếu xét nghiệm và nhận dạng ký tự văn bản. Một số kết quả đạt của luận văn cụ thể như sau:

- Sử dụng YOLOv4 nhận dạng với tốc đợ nhanh với đợ chính xác tốt, xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất mợt nhãn cho mợt bức ảnh. Làm giảm tải việc số hóa chỉ lấy dữ liệu cần thiết so với số hóa dữ liệu tồn bợ phiếu xét nghiệm. - CTPN hoạt động tốt trên những ảnh thiếu sáng, ảnh mờ, có thể xử lý đa ngôn ngữ hiệu quả.

- Tranformer OCR xử lý song song cho các từ so với mơ hình LSTM thì các từ phải được xử lý tuần tự. Vị trí của các từ được mã hóa Positional Encoding bằng một vector có kích thước bằng word embedding và được cộng trực tiếp vào word embedding  việc nhận diện ký tự chính xác hơn.

Tuy nhiên, luận văn cịn mợt số hạn chế:

- Bộ dữ liệu phiếu xét nghiệm covid19 cho YOLO quá ít. Lý do phiếu xét nghiệm covid19 mang thông tin cá nhân nên việc thu thập mẫu phiếu hạn chế. - Chưa đề x́t được mơ hình đầu cuối tốt nhất cho bài toán số hóa phiếu xét nghiệm.

2. Đề xuất:

- Nghiên cứu các phương pháp nhận dạng văn bản, nhận dạng ký tự hiệu quả hơn để đề x́t mơ hình tốt nhất cho bài tốn số hóa.

TÀI LIỆU THAM KHẢO

[1] P. T. Tài. "Tìm hiểu về cơng nghệ nhận dạng kí tự quang học (OCR - Optical Character Recognition) ứng dụng trong các phần mềm phát hiện và xử lý vi phạm luật giao thông thông qua hệ thống camera giám sát." Internet: http://congan.travinh.gov.vn/ch26/351.prt, 30 Agu. 2017.

[2] N. Laodongxahoi.net, "Ảnh hưởng của dịch Covid 19 và những chính sách bảo đảm an sinh xã hội trong đại dịch,". Internet: https://phutho.gov.vn/vi/anh- huong-cua-dich-covid-19-va-nhung-chinh-sach-bao-dam-sinh-xa-hoi-trong- dai-dich, 22 Nov. 2021

[3] Phạm Đình Khanh. "Các thuật tốn Object Detection." Internet: https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html, 29 Sep. 2019.

[4] A. Bochkovskiy et al. "YOLOv4: Optimal Speed and Accuracy of Object Detection," 2020.

[5] G. Ghiasi et al. "DropBlock: A regularization method for convolutional

networks. In Advances in Neural Information Processing Systems (NIPS)," pp. 10727–10737, 2018.

[6] M. Chablani. "YOLO — You only look once, real time object detection explained." Internet: https://towardsdatascience.com/yolo-you-only-look- once-real-time-object-detection-explained-492dc9230006, 21 Aug. 2017. [7] Joseph Redmon et al. "You Only Look Once: Unified, Real-Time Object

Detection," 9 May. 2016.

[8] J. Redmon and A. Farhadi, "YOLO9000:Better, Faster, Stronger," Dec. 2016. [9] J. Redmon and A. Farhadt, "YOLOv3: An Incremental Improvement,"

YOLOv3: An Incremental Improvement, Sep. 2018.

[10] C.-Y. Wang et al. "CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING," 27 Nov. 2019.

[11] G. Huang et al. "Densely Connected Convolutional Networks," 28 Jan. 2018. [12] L. Wright. "Meet Mish — New State of the Art AI Activation Function. The successor to ReLU?" Internet: https://lessw.medium.com/meet-mish-new- state-of-the-art-ai-activation-function-the-successor-to-relu-

846a6d93471f#:~:text=ReLU%20has%20some%20known%20weaknesses,bo th%20training%20stability%20and%20accuracy, 27 Agu. 2019.

[13] n. Phung. "Tìm hiểu về CTPN - Connectionist Text Proposal Network." Internet: https://nerophung.github.io/2019/07/25/tim-hieu-ctpn, 24 Jul. 2019.

[14] Z. Tian et al. "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016.

[15] Epshtein et al. "Detecting text in natural scenes with stroke," 2010.

[16] Pan, Y. Hou and X. Liu, "Hybrid approach to detect and localize texts in natural," pp. 800-813, 2011.

[17] Mao et al. "Scale based region growing for scene text detection," ACM International Conference on Multimedia, 2013.

[18] Yin et al. "Multi-orientation scene text detection with adaptive clustering," EEE Trans. Pattern Analysis and Machine Intelligence, pp. 1930 - 1937, 2015.

[19] Zhang et al. "Symmetry-based text line detection in natural scenes," IEEE Computer Vision and Pattern Recognition, 2015.

[20] Tian et al. "Text flow: A unified text detection system in natural scene images,"

IEEE International Conference on Computer Vision, 2015.

[21] A. Vaswani et al. "Attention Is All You Need," 2017.

[22] J. Alammar. "The Illustrated Transformer." Internet: http://jalammar.github.io/illustrated-transformer, 27 June. 2018.

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN

I. LÝ LỊCH SƠ LƯỢC:

Họ và tên: NGUYỄN NGỌC DUY ....................... Giới tính: NAM ......................... Ngày, tháng, năm sinh: 25/09/1991 ........................ Nơi sinh: ĐỒNG THÁP ............. Email: quylekubota@gmail.com ............................ Điện thoại: 0764428347 .............

II. QUÁ TRÌNH ĐÀO TẠO:

2009 - 2012 Sinh viên Cao Đẳng trường Đại Học Khoa Học Tự Nhiên 2012 - 2014 Sinh viên Đại Học trường Đại Học Khoa Học Tự Nhiên 2019 – nay Học viên cao học trường Đại Học Công Nghiệp TP.HCM

III. Q TRÌNH CƠNG TÁC CHUN MƠN:

Thời gian Nơi công tác Công việc đảm nhiệm

Từ 10/2014 đến 05/2016 Trung tâm Tin học tỉnh Đồng Tháp

Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Tin học Tỉnh.

Từ 05/2016 đến 11/2019 Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp

Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp

Từ 11/2019 đến nay Viễn thông tỉnh Đồng Tháp Nhân viên giải pháp Trung tâm Công nghệ Thông tin – VNPT Đồng Tháp. Tp. HCM, ngày 30 tháng 11 Năm 2021 Người khai (Ký tên) Nguyễn Ngọc Duy

.15 Kết quả trích xuất câu chữ từ các đối tượng 1

.19 Kiến trúc OCR phổ biến

.28 Mơ hình hệ thống của đề tài