.18 Chủn đổi tọa đợ 4 góc thành dữ liệu đầu và- 123docz.net

Hình 3.19 Biểu diễn hình ảnh kết quả sau khi chuyển đổi.

46 Kết quả

Hình 3.20 Bộ dữ liệu sau khi chuyển đổi.

3.2.3 Tập dữ liệu cho OCR

- Bộ dữ liệu ảnh Tiếng Việt 344.143 ảnh, đã được dán nhẵn sẵn.

Hình 3.21 Bợ dữ liệu ảnh Tiếng việt.

Hình 3.22 Bợ dữ liệu kết hợp trích x́t từ phiếu xét nghiệm - Bộ dữ liệu đã được dán nhẵn sẵn. - Bộ dữ liệu đã được dán nhẵn sẵn.

Hình 3.23 Dán nhãn dữ liệu

- Kết hợp thêm 600 ảnh trích xuất từ tập dữ liệu phiếu xét nghiệm được dán nhãn thủ cơng.

- \

Hình 3.24 Dán nhãn dữ liệu phiếu xét nghiệm. - Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test. - Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test.

- Gộp 2 bộ dữ liệu Tiếng Việt 344.143 ảnh và bộ dữ liệu 600 ảnh trích xuất từ tập dữ liệu phiếu xét nghiệm.

- Dữ liệu được chia ra 300.617 ảnh huấn luyện và 44.126 ảnh kiểm thử.

3.2 Các bước xây dựng phương pháp

3.2.1 Phát hiện đối tượng trên phiếu xét nghiệm

- Dữ liệu phiếu xét nghiệm covid-19 sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS

- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.

- Chỉnh file config YOLOv4 huấn luyện

o width=416.

o height=416.

o learning_rate=0.001.

o max_batches = (# of classes) * 2000 = 4 * 2000 = 8000.

o steps = (80% of max_batches), (90% of max_batches) = (80% of 8000), (90% of 8000) = 6400,7200.

49 filters = (# of classes + 5) * 3 = (4 +5 )*3 = 27.

- Tạo file obj.names and obj.data chứa đường dẫn cấu hình. - Generating train.txt and test.txt chứa địa chỉ ảnh.

- Download pre-trained model weights convolutional layers từ link https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/ yolov4.conv.137

- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.

- Kiểm tra Mean Average Precision (mAP), Accuracy của mơ hình. - Vẽ biểu đồ.

3.2.2 Sử dụng CTPN phát hiện vùng chứa văn bản trên ảnh

- Dữ liệu ảnh văn bản sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS

- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.

- Download pre-trained model weights vgg16.cpkt - Chỉnh file config huấn luyện

o learning_rate=1e-5.

o batch_size = 4.

o max_steps = 50000.

o decay_steps = 3000

o decay_rate = 0.1.

- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.

- Kiểm tra Mean Average Precision (mAP), Accuracy của mơ hình. - Vẽ biểu đồ.

3.2.3 Sử dụng Transformer OCR trích xuất văn bản

- Dữ liệu ảnh nhận dạng ký tự sau khi được thu thập và gắn nhãn được chuyển đổi thành ảnh trắng đen, khử nhiễu bằng phương pháp GAUSS

- Dữ liệu sau khi gán nhẵn được chia ra làm 80% cho huấn luyện, 20% kiểm thử.

- Download pre-trained model weights vgg16.cpkt - Chỉnh file config huấn luyện

o learning_rate=1e-5.

o batch_size = 4.

o iters = 300000.

o metrics = 1000

o valid_eveery = 100000.

- Sử dụng laptop với cấu hình CPU corei7-9750H, ram 16gb, card Geforce GTX 1650 4MB huấn luyện.

- Kiểm tra Accuracy của mơ hình. - Vẽ biểu đồ.

3.2.4 Quy trình thực nghiệm

- Xử lý khử nhiễu bằng phương pháp Gauss ảnh đầu vào.

- Sau khi sử dụng yolo nhận phát hiện đối tượng phiếu xét nghiệm, ta được tọa độ của các đối tượng.

- Cắt ảnh các đối tượng theo tọa độ.

- Chuyển ảnh ảnh đen trắng các đối tượng phiếu xét nghiệm đã cắt.

- Sử dụng CTPN phát hiện vùng chứa văn bản, ta được tọa độ vùng chưa văn bản.

- Cắt ảnh theo tọa độ vùng chứa văn bản, sau đó resize lại ảnh x2 lần,sử dụng phương pháp khử nhiễu  làm tăng đợ chính xác cho OCR.

THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ

4.1 Phát hiện đối tượng trên phiếu xét nghiệm bằng YOLOv4

Công cụ: Laptop lenovo Legion y540

Hình 4.1 Thơng tin máy tính sử dụng. Q trình huấn luyện. Thời gian huấn luyện 8000 iteration ~ 36h. Q trình huấn luyện. Thời gian huấn luyện 8000 iteration ~ 36h.

52 Loss diagram

Hình 4.3 Biểu đồ loss diagram Yolov4. Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4. Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4.

Info Score Best accuracy 90.4% mAP 86.42% Class 0 (id) – AP 90,7% Class 1 (target_name) – AP 86,67% Class 2 (method) – AP 77,03% Class 3 (result) – AP 91,02%

53 Kết quả thực nghiệm.

Hình 4.4 Kết quả nhận diện Yolov4 1

Hình 4.7 Kết quả nhận diện Yolov4 4

Đối tượng được nhận diện sẽ được cắt ra: chuẩn bị cho đầu vào bước 2 (CTPN nhận diện text)

Hình 4.9 Ảnh các đối tượng trên phiếu xét nghiệm sau khi đã nhận dạng 1.

4.2 Phát hiện ảnh chứa văn bản bằng CTPN

Công cụ: Laptop lenovo Legion y540

Quá trình huấn luyện. Thời gian huấn luyện 50000 iteration ~ 48h.

Hình 4.11 Quá trình huấn luyện CTPN Bảng 4.2 Kết quả quá trình huấn luyện CTPN. Bảng 4.2 Kết quả quá trình huấn luyện CTPN.

Info Score

mAP 87%

Kết quả thực nghiệm:

Chuyển sang ảnh trắng đen. Sử dụng CTPN phát hiện vũng chứa văn bản.

Hình 4.13 Nhận diện câu chữ bằng CTPN trên đối tượng target_name

Hình 4.14 Nhận diện câu chữ bằng CTPN trên đối tượng result

Các đối tượng văn bản được cắt ra tương ứng với class đối tượng: id, target_name, method, result.

Hình 4.16 Kết quả trích xuất câu chữ từ các đối tượng 2. - Đối tượng method

Hình 4.17 Kết quả trích x́t ảnh văn bản đối tượng method. - Đối tượng target_name

Hình 4.18 Kết quả trích x́t ảnh văn bản đối tượng target_name. - Đối tượng result

4.3 Nhận dạng ký tự tiếng việt bằng Transformer OCR

Cơng cụ: Laptop lenovo Legion y540

Hình 4.20 Thơng tin máy tính h́n luyện. Q trình h́n luyện. Thời gian huấn luyện 30000 iteration ~ 48h.

Hình 4.21 Kết quả huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR.

Info Score

acc full seq 93.82%

acc per char 98,9%

Loss diagram

Hình 4.22 Biểu đồ loss diagram

SO SÁNH VỚI TESSERACT OCR

TRANFORMER OCR TESSERACT OCR

64 3

65 5

Kết quả cho thấy Tranformer OCR hiệu quả hơn Tesseract OCR về đợ chính xác nhận trích xuất câu chữ, ký tự.

4.4 Đánh giá

Từ kết quả trên ta đưa ra đánh giá sau:

- Đối với việc phát hiện đối tượng bằng YOLO trên trên phiếu xét nghiệm, tỷ lệ chính xác chưa cao đối với ảnh đầu vào bị nghiêng, xéo. Vì tập dữ liệu cịn ít, và đa phần các mẫu rời rạc không đồng nhất. Bên cạnh đó đối với ảnh đầu vào tốt, YOLO xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất mợt nhãn cho một bức ảnh. - Đối với việc phát hiện đối tượng văn bản bằng CTPN tỷ lệ chính xác rất cao, vùng văn bản được bao trùm trọn văn bản, không bị bắt ký tự vùng biên (phụ thuộc vào ảnh đối tượng nhận dạng từ YOLO).

- Đối với việc nhận dạng dòng text đánh máy bằng Tranformer OCR tỷ lệ chính xác cao nên cơ bản đáp ứng được yêu cầu bài toán. Tuy nhiên, đối với ảnh có ký tự bị khuất vùng biên ảnh hưởng lớn đến kết quả nhận dạng.

- Một số mẫu cho tỷ lệ nhận dạng ký tự chính xác khá cao 93 % nhưng cũng có mẫu không thể nhận dạng không thành công. Đây có thể do ảnh hưởng chất lượng ảnh đầu vào.

KẾT LUẬN VÀ KIẾN NGHỊ

1. Kết luận:

Luận văn đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo, hiểu rõ các kỹ thuật nhận dạng đối tượng, nhận dạng ký tự. Trên cơ sở phân tích, kế thừa và ứng dụng các nghiên cứu liên quan, luận văn đã tập trung nghiên cứu, giải quyết bài toán số hóa phiếu xét nghiệm gồm ba bước: phát hiện đối tượng trên phiếu xét nghiệm, trích xuất ảnh chứa văn bản từ đối tượng phiếu xét nghiệm và nhận dạng ký tự văn bản. Một số kết quả đạt của luận văn cụ thể như sau:

- Sử dụng YOLOv4 nhận dạng với tốc đợ nhanh với đợ chính xác tốt, xác định vị trí của đối tượng dễ dàng và phát hiện được nhiều vật thể có nhãn khác nhau trong mợt bức ảnh thay vì chỉ phân loại duy nhất một nhãn cho một bức ảnh. Làm giảm tải việc số hóa chỉ lấy dữ liệu cần thiết so với số hóa dữ liệu tồn bợ phiếu xét nghiệm. - CTPN hoạt động tốt trên những ảnh thiếu sáng, ảnh mờ, có thể xử lý đa ngôn ngữ hiệu quả.

- Tranformer OCR xử lý song song cho các từ so với mơ hình LSTM thì các từ phải được xử lý tuần tự. Vị trí của các từ được mã hóa Positional Encoding bằng mợt vector có kích thước bằng word embedding và được cộng trực tiếp vào word embedding  việc nhận diện ký tự chính xác hơn.

Tuy nhiên, luận văn cịn mợt số hạn chế:

- Bộ dữ liệu phiếu xét nghiệm covid19 cho YOLO quá ít. Lý do phiếu xét nghiệm covid19 mang thông tin cá nhân nên việc thu thập mẫu phiếu hạn chế. - Chưa đề x́t được mơ hình đầu cuối tốt nhất cho bài toán số hóa phiếu xét nghiệm.

2. Đề xuất:

- Nghiên cứu các phương pháp nhận dạng văn bản, nhận dạng ký tự hiệu quả hơn để đề x́t mơ hình tốt nhất cho bài tốn số hóa.

TÀI LIỆU THAM KHẢO

[1] P. T. Tài. "Tìm hiểu về cơng nghệ nhận dạng kí tự quang học (OCR - Optical Character Recognition) ứng dụng trong các phần mềm phát hiện và xử lý vi phạm luật giao thông thông qua hệ thống camera giám sát." Internet: http://congan.travinh.gov.vn/ch26/351.prt, 30 Agu. 2017.

[2] N. Laodongxahoi.net, "Ảnh hưởng của dịch Covid 19 và những chính sách bảo đảm an sinh xã hội trong đại dịch,". Internet: https://phutho.gov.vn/vi/anh- huong-cua-dich-covid-19-va-nhung-chinh-sach-bao-dam-sinh-xa-hoi-trong- dai-dich, 22 Nov. 2021

[3] Phạm Đình Khanh. "Các thuật tốn Object Detection." Internet: https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html, 29 Sep. 2019.

[4] A. Bochkovskiy et al. "YOLOv4: Optimal Speed and Accuracy of Object Detection," 2020.

[5] G. Ghiasi et al. "DropBlock: A regularization method for convolutional

networks. In Advances in Neural Information Processing Systems (NIPS)," pp. 10727–10737, 2018.

[6] M. Chablani. "YOLO — You only look once, real time object detection explained." Internet: https://towardsdatascience.com/yolo-you-only-look- once-real-time-object-detection-explained-492dc9230006, 21 Aug. 2017. [7] Joseph Redmon et al. "You Only Look Once: Unified, Real-Time Object

Detection," 9 May. 2016.

[8] J. Redmon and A. Farhadi, "YOLO9000:Better, Faster, Stronger," Dec. 2016. [9] J. Redmon and A. Farhadt, "YOLOv3: An Incremental Improvement,"

YOLOv3: An Incremental Improvement, Sep. 2018.

[10] C.-Y. Wang et al. "CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING," 27 Nov. 2019.

[11] G. Huang et al. "Densely Connected Convolutional Networks," 28 Jan. 2018. [12] L. Wright. "Meet Mish — New State of the Art AI Activation Function. The successor to ReLU?" Internet: https://lessw.medium.com/meet-mish-new- state-of-the-art-ai-activation-function-the-successor-to-relu-

846a6d93471f#:~:text=ReLU%20has%20some%20known%20weaknesses,bo th%20training%20stability%20and%20accuracy, 27 Agu. 2019.

[13] n. Phung. "Tìm hiểu về CTPN - Connectionist Text Proposal Network." Internet: https://nerophung.github.io/2019/07/25/tim-hieu-ctpn, 24 Jul. 2019.

[14] Z. Tian et al. "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016.

[15] Epshtein et al. "Detecting text in natural scenes with stroke," 2010.

[16] Pan, Y. Hou and X. Liu, "Hybrid approach to detect and localize texts in natural," pp. 800-813, 2011.

[17] Mao et al. "Scale based region growing for scene text detection," ACM International Conference on Multimedia, 2013.

[18] Yin et al. "Multi-orientation scene text detection with adaptive clustering," EEE Trans. Pattern Analysis and Machine Intelligence, pp. 1930 - 1937, 2015.

[19] Zhang et al. "Symmetry-based text line detection in natural scenes," IEEE Computer Vision and Pattern Recognition, 2015.

[20] Tian et al. "Text flow: A unified text detection system in natural scene images,"

IEEE International Conference on Computer Vision, 2015.

[21] A. Vaswani et al. "Attention Is All You Need," 2017.

[22] J. Alammar. "The Illustrated Transformer." Internet: http://jalammar.github.io/illustrated-transformer, 27 June. 2018.

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN

I. LÝ LỊCH SƠ LƯỢC:

Họ và tên: NGUYỄN NGỌC DUY ....................... Giới tính: NAM ......................... Ngày, tháng, năm sinh: 25/09/1991 ........................ Nơi sinh: ĐỒNG THÁP ............. Email: quylekubota@gmail.com ............................ Điện thoại: 0764428347 .............

II. QUÁ TRÌNH ĐÀO TẠO:

2009 - 2012 Sinh viên Cao Đẳng trường Đại Học Khoa Học Tự Nhiên 2012 - 2014 Sinh viên Đại Học trường Đại Học Khoa Học Tự Nhiên 2019 – nay Học viên cao học trường Đại Học Công Nghiệp TP.HCM

III. Q TRÌNH CƠNG TÁC CHUN MƠN:

Thời gian Nơi cơng tác Công việc đảm nhiệm

Từ 10/2014 đến 05/2016 Trung tâm Tin học tỉnh Đồng Tháp

Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Tin học Tỉnh.

Từ 05/2016 đến 11/2019 Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp

Chuyên viên phòng Nghiên cứu và Phát triển – Trung tâm Công nghệ Thông tin và Truyền thông tỉnh Đồng Tháp

Từ 11/2019 đến nay Viễn thông tỉnh Đồng Tháp Nhân viên giải pháp Trung tâm Công nghệ Thông tin – VNPT Đồng Tháp. Tp. HCM, ngày 30 tháng 11 Năm 2021 Người khai (Ký tên) Nguyễn Ngọc Duy

.18 Chủn đổi tọa đợ 4 góc thành dữ liệu đầu vào CTPN

.19 Kiến trúc OCR phổ biến

.28 Mơ hình hệ thống của đề tài