Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
7,09 MB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN NGỌC DUY SỐ HĨA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 8480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Huỳnh Trung Hiếu Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày 02 tháng 03 năm 2022 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Nguyễn Hòa - Chủ tịch Hội đồng TS Lê Thành Sách - Phản biện TS Đặng Thị Phúc - Phản biện TS Phạm Thị Thiết - Ủy viên TS Lê Nhật Duy - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA/VIỆN CƠNG NGHỆ THƠNG TIN PGS TS NGUYỄN HỊA PGS TS HUỲNH TRUNG HIẾU BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NGỌC DUY MSHV: 19000111 Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: Đồng Tháp Chuyên ngành: Khoa học Máy tính Mã chuyên ngành: 8480101 I TÊN ĐỀ TÀI: SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO ………………………………………………………………… NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu giải pháp số hóa dữ liệu Tiền xử lý dữ liệu dựa yêu cầu bước thực bước theo giải pháp Ứng dụng công cụ xử lý số hóa dữ liệu phiếu xét nghiệm covid19 Phân tích kết đưa hướng phát triển II NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1032/QĐ-ĐHCN ngày 09/8/2021 về việc giao đề tài cử người hướng dẫn luận văn thạc sĩ III NGÀY HOÀN THÀNH NHIỆM VỤ: 09/02/2022 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Huỳnh Trung Hiếu Tp Hồ Chí Minh, ngày … tháng năm 2022 NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) PGS TS HUỲNH TRUNG HIẾU TRƯỞNG KHOA/VIỆN ….……… (Họ tên chữ ký) LỜI CẢM ƠN Trong trình thực luận văn những năm học vừa qua, Tôi nhận sự bảo hướng dẫn tận tâm thầy PGS TS Huỳnh Trung Hiếu Lời đầu tiền xin gửi tới thầy lời cảm ơn chân thành sâu sắc nhất Tôi xin chân thành cảm ơn tới thầy, cô Khoa Công nghệ Thông tin, trường Đại học Cơng Nghiệp TP HCM tận tình dạy dỗ truyền đạt cho những kiến thức chuyên sâu về chuyên ngành suốt thời gian học tập để tơi có nền tảng kiến thức hỗ trợ rất lớn cho tơi q trình làm luận văn thạc sĩ Tôi xin gửi lời cảm ơn chân thành đến thầy Lê Nhật Duy – Phó khoa Cơng nghệ thông tin hướng dẫn giúp đỡ biểu mẫu quy trình hồn thành đề tài luận văn từ bắt đầu đăng ký đề cương đến bảo vệ luận văn Xin gửi lời cảm ơn đến thầy cơ, cán bợ phịng Quản lý sau đại học tận tình giúp đỡ, hỗ trợ tơi q trình làm luận văn Trong trình thực hiện, hạn chế về kiến thức, kinh nghiệm thời gian nghiên cứu cịn hạn chế, luận văn khơng thể tránh khỏi những sai sót Tơi rất mong nhận những ý kiến đóng góp q Thầy, Cơ để luận văn hoàn thiện Trân Trọng cảm ơn i TÓM TẮT LUẬN VĂN THẠC SĨ Trong luận văn, tác giả nghiên cứu tiếp cận số hóa mẫu phiếu xét nghiệm Tiếp cận đề x́t dựa mơ hình học sâu sử dụng một số kỹ thuật đại, luận văn bao gồm bước: Bước - Sử dụng thuật toán Yolov4 (You only look once version 4) xây dựng cơng cụ trích x́t đối tượng id, tên xét nghiệm, phương pháp, kết xét nghiệm đối tượng phiếu xét nghiệm Bước - Sử dụng tiếp cận CTPN (Connectionist Text Proposal Network) trích xuất ảnh chứa văn từ những đối đượng id, tên xét nghiệm, phương pháp, kết Bước - Sau có đối tượng ảnh chứa văn bản, tác giả sử dụng tiếp cận Tranformer OCR để nhận dạng ký tự từ đối tượng ảnh text ii ABSTRACT In this thesis, author investgated in digitailizing medical test The proposed approach is based on deep learning model and using modern techniques, it includes steps: Step - Using Yolov4 (You only look once version 4) to detection object id, test name, method, test result on the test form object Step - Using the CTPN (Connectionist Text Proposal Network) to extract text images from the id, test names, methods, and results Step - After having the text image object, use the Transformer OCR algorithm is applied to recognize characters from the text image objects iii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các kết nghiên cứu kết luận luận văn trung thực, không chép từ bất kỳ một nguồn bất kỳ hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Học viên (Chữ ký) NGUYỄN NGỌC DUY iv MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN THẠC SĨ ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU xi DANH MỤC TỪ VIẾT TẮT xii MỞ ĐẦU .1 Đặt vấn đề Mục tiêu nghiên cứu 2.1 Mục tiêu nghiên cứu tổng quát 2.2 Mục tiêu nghiên cứu cụ thể Đối tượng phạm vi nghiên cứu .2 3.1 Đối tượng 3.2 Phạm vi nghiên cứu .2 Cách tiếp cận phương pháp nghiên cứu 4.1 Cách tiếp cận 4.2 Thời gian nghiên cứu 4.3 Địa điểm nghiên cứu .3 4.4 Vật liệu nghiên cứu .3 4.5 Phương pháp Ý nghĩa thực tiễn đề tài .3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 Tổng quan về đề tài 1.2 Khó khăn thách thức 1.3 Đề xuất hướng giải CƠ SỞ LÝ THUYẾT v 2.1 Nhận dạng đối tượng, nhận dạng ký tự OCR 2.1.1 Nhận dạng đối tượng 2.1.2 Nhận dạng ký tự .10 2.2 Các khái niệm, phương pháp tiền xử lý dữ liệu 10 2.2 YOLO 14 2.2.1 Các phiên YOLO .14 2.2.2 Kiến trúc YOLOv4 15 2.2.3 So sánh với mô hình khác 18 2.3 CTPN .19 2.3.1 Kiến trúc CTPN 21 2.3.2 So sánh với phương pháp khác 24 2.4 Tranformer OCR .26 2.4.1 Kiến trúc Tranformer OCR 27 2.5 Luận văn thạc sĩ “Đề tài Trí tuệ nhân tạo chuyển đổi số: ứng dụng hỗ trợ thu thập số đường huyết thai phụ” học viên Nguyễn Phạm Thanh Tâm 32 PHƯƠNG PHÁP ĐỀ XUẤT .35 3.1 Mơ hình tổng qt 35 3.2 Thu thập dữ liệu 36 3.2.1 Tập dữ liệu phiếu xét nghiệm 36 3.2.2 Tập dữ liệu cho phát văn 42 3.2.3 Tập dữ liệu cho OCR .46 3.2 Các bước xây dựng phương pháp 48 3.2.1 Phát đối tượng phiếu xét nghiệm 48 3.2.2 Sử dụng CTPN phát vùng chứa văn ảnh 49 3.2.3 Sử dụng Transformer OCR trích xuất văn 49 3.2.4 Quy trình thực nghiệm .50 THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ 51 4.1 Phát đối tượng phiếu xét nghiệm YOLOv4 51 4.2 Phát ảnh chứa văn CTPN 56 4.3 Nhận dạng ký tự tiếng việt Transformer OCR .60 vi 4.4 Đánh giá 65 TÀI LIỆU THAM KHẢO 68 PHỤ LỤC 70 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 71 vii Quá trình huấn luyện Thời gian huấn luyện 50000 iteration ~ 48h Hình 4.11 Quá trình huấn luyện CTPN Bảng 4.2 Kết trình huấn luyện CTPN Info Score 87% mAP Kết thực nghiệm: Chuyển sang ảnh trắng đen Sử dụng CTPN phát vũng chứa văn Hình 4.12 Nhận diện câu chữ CTPN đối tượng method 57 Hình 4.13 Nhận diện câu chữ CTPN đối tượng target_name Hình 4.14 Nhận diện câu chữ CTPN đối tượng result Các đối tượng văn cắt tương ứng với class đối tượng: id, target_name, method, result Hình 4.15 Kết trích xuất câu chữ từ đối tượng 58 Hình 4.16 Kết trích x́t câu chữ từ đối tượng - Đối tượng method Hình 4.17 Kết trích xuất ảnh văn đối tượng method - Đối tượng target_name Hình 4.18 Kết trích xuất ảnh văn đối tượng target_name - Đối tượng result Hình 4.19 Kết trích x́t ảnh văn đối tượng result 59 4.3 Nhận dạng ký tự tiếng việt Transformer OCR Công cụ: Laptop lenovo Legion y540 Hình 4.20 Thơng tin máy tính h́n luyện Q trình huấn luyện Thời gian huấn luyện 30000 iteration ~ 48h Hình 4.21 Kết huấn luyện Tranformer OCR Bảng 4.3 Kết trình huấn luyện Tranformer OCR 60 Info acc full seq acc per char Score 93.82% 98,9% Loss diagram Hình 4.22 Biểu đồ loss diagram Trích x́t ký tự từ ảnh văn từ đối tượng phiếu xét nghiệm 61 Hình 4.23 Kết nhận diện ký tự Tranformer OCR 62 SO SÁNH VỚI TESSERACT OCR TRANFORMER OCR TESSERACT OCR 63 64 Kết cho thấy Tranformer OCR hiệu Tesseract OCR về đợ xác nhận trích xuất câu chữ, ký tự 4.4 Đánh giá Từ kết ta đưa đánh giá sau: - Đối với việc phát đối tượng YOLO trên phiếu xét nghiệm, tỷ lệ xác chưa cao ảnh đầu vào bị nghiêng, xéo Vì tập dữ liệu cịn ít, đa phần mẫu rời rạc không đồng nhất Bên cạnh đó ảnh đầu vào tốt, YOLO xác định vị trí đối tượng dễ dàng phát nhiều vật thể có nhãn khác mợt bức ảnh thay phân loại nhất một nhãn cho một bức ảnh - Đối với việc phát đối tượng văn CTPN tỷ lệ xác rất cao, vùng văn bao trùm trọn văn bản, không bị bắt ký tự vùng biên (phụ thuộc vào ảnh đối tượng nhận dạng từ YOLO) - Đối với việc nhận dạng dòng text đánh máy Tranformer OCR tỷ lệ xác cao nên đáp ứng yêu cầu toán Tuy nhiên, ảnh có ký tự bị khuất vùng biên ảnh hưởng lớn đến kết nhận dạng 65 - Một số mẫu cho tỷ lệ nhận dạng ký tự xác cao 93 % có mẫu không thể nhận dạng không thành công Đây có thể ảnh hưởng chất lượng ảnh đầu vào 66 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận: Luận văn trình bày khái quát vấn đề liên quan đến toán số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo, hiểu rõ kỹ thuật nhận dạng đối tượng, nhận dạng ký tự Trên sở phân tích, kế thừa ứng dụng nghiên cứu liên quan, luận văn tập trung nghiên cứu, giải toán số hóa phiếu xét nghiệm gồm ba bước: phát đối tượng phiếu xét nghiệm, trích xuất ảnh chứa văn từ đối tượng phiếu xét nghiệm nhận dạng ký tự văn Một số kết đạt luận văn cụ thể sau: - Sử dụng YOLOv4 nhận dạng với tốc độ nhanh với độ xác tốt, xác định vị trí đối tượng dễ dàng phát nhiều vật thể có nhãn khác mợt bức ảnh thay phân loại nhất một nhãn cho một bức ảnh Làm giảm tải việc số hóa lấy dữ liệu cần thiết so với số hóa dữ liệu tồn bợ phiếu xét nghiệm - CTPN hoạt động tốt những ảnh thiếu sáng, ảnh mờ, có thể xử lý đa ngôn ngữ hiệu - Tranformer OCR xử lý song song cho từ so với mơ hình LSTM từ phải xử lý tuần tự Vị trí từ mã hóa Positional Encoding một vector có kích thước word embedding cợng trực tiếp vào word embedding việc nhận diện ký tự xác Tuy nhiên, luận văn cịn mợt số hạn chế: - Bộ dữ liệu phiếu xét nghiệm covid19 cho YOLO Lý phiếu xét nghiệm covid19 mang thông tin cá nhân nên việc thu thập mẫu phiếu hạn chế - Chưa đề xuất mô hình đầu cuối tốt nhất cho tốn số hóa phiếu xét nghiệm Đề xuất: - Nghiên cứu phương pháp nhận dạng văn bản, nhận dạng ký tự hiệu để đề x́t mơ hình tốt nhất cho toán số hóa 67 TÀI LIỆU THAM KHẢO [1] P T Tài "Tìm hiểu về cơng nghệ nhận dạng kí tự quang học (OCR - Optical Character Recognition) ứng dụng phần mềm phát xử lý vi phạm luật giao thông thông qua hệ thống camera giám sát." Internet: http://congan.travinh.gov.vn/ch26/351.prt, 30 Agu 2017 [2] N Laodongxahoi.net, "Ảnh hưởng dịch Covid 19 những sách bảo đảm an sinh xã hội đại dịch," Internet: https://phutho.gov.vn/vi/anhhuong-cua-dich-covid-19-va-nhung-chinh-sach-bao-dam-sinh-xa-hoi-trongdai-dich, 22 Nov 2021 [3] Phạm Đình Khanh "Các thuật toán Object Detection." Internet: https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html, 29 Sep 2019 [4] A Bochkovskiy et al "YOLOv4: Optimal Speed and Accuracy of Object Detection," 2020 [5] G Ghiasi et al "DropBlock: A regularization method for convolutional networks In Advances in Neural Information Processing Systems (NIPS)," pp 10727–10737, 2018 [6] M Chablani "YOLO — You only look once, real time object detection explained." Internet: https://towardsdatascience.com/yolo-you-only-lookonce-real-time-object-detection-explained-492dc9230006, 21 Aug 2017 [7] Joseph Redmon et al "You Only Look Once: Unified, Real-Time Object Detection," May 2016 [8] J Redmon and A Farhadi, "YOLO9000:Better, Faster, Stronger," Dec 2016 [9] J Redmon and A Farhadt, "YOLOv3: An Incremental Improvement," YOLOv3: An Incremental Improvement, Sep 2018 [10] C.-Y Wang et al "CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING," 27 Nov 2019 [11] G Huang et al "Densely Connected Convolutional Networks," 28 Jan 2018 [12] L Wright "Meet Mish — New State of the Art AI Activation Function The successor to ReLU?" Internet: https://lessw.medium.com/meet-mish-newstate-of-the-art-ai-activation-function-the-successor-to-relu846a6d93471f#:~:text=ReLU%20has%20some%20known%20weaknesses,bo th%20training%20stability%20and%20accuracy, 27 Agu 2019 [13] n Phung "Tìm hiểu về CTPN - Connectionist Text Proposal Network." Internet: https://nerophung.github.io/2019/07/25/tim-hieu-ctpn, 24 Jul 2019 68 [14] Z Tian et al "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016 [15] Epshtein et al "Detecting text in natural scenes with stroke," 2010 [16] Pan, Y Hou and X Liu, "Hybrid approach to detect and localize texts in natural," pp 800-813, 2011 [17] Mao et al "Scale based region growing for scene text detection," ACM International Conference on Multimedia, 2013 [18] Yin et al "Multi-orientation scene text detection with adaptive clustering," EEE Trans Pattern Analysis and Machine Intelligence, pp 1930 - 1937, 2015 [19] Zhang et al "Symmetry-based text line detection in natural scenes," IEEE Computer Vision and Pattern Recognition, 2015 [20] Tian et al "Text flow: A unified text detection system in natural scene images," IEEE International Conference on Computer Vision, 2015 [21] A Vaswani et al "Attention Is All You Need," 2017 [22] J Alammar "The Illustrated Transformer." http://jalammar.github.io/illustrated-transformer, 27 June 2018 69 Internet: PHỤ LỤC 70 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: NGUYỄN NGỌC DUY Giới tính: NAM Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: ĐỒNG THÁP Email: quylekubota@gmail.com Điện thoại: 0764428347 II QUÁ TRÌNH ĐÀO TẠO: 2009 - 2012 Sinh viên Cao Đẳng trường Đại Học Khoa Học Tự Nhiên 2012 - 2014 Sinh viên Đại Học trường Đại Học Khoa Học Tự Nhiên 2019 – Học viên cao học trường Đại Học Công Nghiệp TP.HCM III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Từ 10/2014 đến 05/2016 Từ 05/2016 đến 11/2019 Từ 11/2019 đến Nơi công tác Công việc đảm nhiệm Trung tâm Tin học tỉnh Đồng Tháp Trung tâm Công nghệ Thông tin Truyền thông tỉnh Đồng Tháp Viễn thông tỉnh Đồng Tháp Chuyên viên phòng Nghiên cứu Phát triển – Trung tâm Tin học Tỉnh Chuyên viên phòng Nghiên cứu Phát triển – Trung tâm Công nghệ Thông tin Truyền thông tỉnh Đồng Tháp Nhân viên giải pháp Trung tâm Công nghệ Thông tin – VNPT Đồng Tháp Tp HCM, ngày 30 tháng 11 Năm 2021 Người khai (Ký tên) Nguyễn Ngọc Duy 71