Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa trên rút trích văn bản luận văn thạc sĩ công nghệ thông tin

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG XÂY DỰNG PHƯƠNG PHÁP HỖ TRỢ KIỂM TRA HỒ SƠ SINH VIÊN DỰA TRÊN RÚT TRÍCH VĂN BẢN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG XÂY DỰNG PHƯƠNG PHÁP HỖ TRỢ KIỂM TRA HỒ SƠ SINH VIÊN DỰA TRÊN RÚT TRÍCH VĂN BẢN Chuyên ngành: Công nghệ thông tin Mã số chuyên ngành: 8480201 Đồng Nai, năm 2022 LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn cơng trình nghiên cứu tơi, hướng dẫn Thầy PGS.TS , trường Đại học Lạc Hồng Trong luận văn này, kiến thức từ công trình có liên quan, kế thừa lại có trích dẫn đầy đủ Mã nguồn cài đặt hệ thống, thực nghiệm, kết quả, số liệu hình ảnh sử dụng luận văn trung thực Người thực LỜI CẢM ƠN Luận văn tốt nghiệp cao học hoàn thành trường Đại học Lạc Hồng học viên xin bày tỏ lòng biết ơn chân thành sâu sắc tới đến Ban giám hiệu, Khoa Sau Đại học trường Đại học Lạc Hồng, đặc biệt Thầy PGS.TS trực tiếp hướng dẫn, giúp đỡ học viên với dẫn khoa học quý giá suốt q trình triển khai, nghiên cứu hồn thành đề tài Xin chân thành cảm ơn quý Thầy Cô giáo - Các nhà khoa học trực tiếp giảng dạy, truyền đạt kiến thức khoa học chuyên ngành kinh nghiệm quý báu, tạo điều kiện cho học viên hoàn thành luận văn Xin chân thành cảm ơn! Đồng Nai, tháng 11 năm 2022 TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ TÓM TẮT LUẬN VĂN (Dùng cho luận văn người hướng dẫn) Đề tài: Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa rút trích văn Ngành: Công nghệ thông tin Mã số: Luận văn: Người hướng dẫn: PGS.TS NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Nghiên cứu, phân tích cơng trình nghiên cứu liên quan đến công việc sử dụng máy học rút trích thơng tin văn có hình ảnh - Tổng hợp liệu hình ảnh hồ sơ sinh viên - Nghiên cứu thuật toán SAST cho toán nhận dạng kết hợp với SRN để tối ưu việc rút trích văn có nội dung tiếng Việt hình ảnh - Phân tích kết đạt - Thực nghiệm đánh giá chương trình - Viết báo cáo luận văn Cách thức giải vấn đề Giải pháp đưa để giải vấn đề toán “Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa rút trích văn bản” thực theo bước sau: - Bước 1: Tổng hợp liệu hình ảnh chứa thơng tin hồ sơ sinh viên, liệu hồ sơ sinh viên có hệ thống - Bước 2: Gán nhãn cho mẫu liệu huấn luyện - Bước 3: Phân chia liệu tạo thành ba phần train, valid test để phục vụ cho việc huấn luyện - Bước 4: Sau có liệu, huấn luyện với mơ hình SAST để xác định vùng chứa văn cần trích xuất nội dung - Bước 5: Nhận dạng rút trích văn vùng chứa nội dung SRN - Bước 6: So sánh kết rút trích với liệu hồ sơ có sẵn hệ thống - Bước 5: Sau huấn luyện, áp dụng mơ hình vào hệ thống để hỗ trợ kiểm tra hồ sơ sinh viên Đồng Nai, Ngày … tháng … năm 2022 NGƯỜI HƯỚNG DẪN HỌC VIÊN MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vi Chương Giới Thiệu Đề Tài .1 1.1 Tổng quan đề tài 1.2 Ý nghĩa khoa học thực tiễn đề tài .2 1.2.1 Tính khoa học 1.2.2 Tính ứng dụng .2 1.3 Mục tiêu luận văn 1.4 Phát biểu toán 1.5 Phạm vi toán 1.6 Mô tả chung hệ thống .3 1.7 Đóng góp luận văn 1.8 Cấu trúc luận văn Chương Cơ Sở Lý Thuyết Và Các Cơng Trình Nghiên Cứu Liên Quan 2.1 Giới thiệu .5 2.2 Một số sở lý thuyết 2.2.1 Nhận dạng đối tượng 2.2.2 Phát nhận dạng ký tự 2.2.3 Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) .8 2.3 Một số cơng trình nghiên cứu liên quan 11 Một số mơ hình phát đối tượng 11 2.3.1 R-CNN, Fast R-CNN Faster R-CNN 11 2.3.2 Yolo (You Only Look Once) 13 2.3.3 SAST (Single-Shot Arbitrarily-Shaped Text Detector) 16 Một số công cụ nhận dạng ký tự quang học OCR (Optical Character Recognition) 16 2.3.4 Tesseract 16 2.3.5 PaddleOCR 21 Chương Mơ hình đề xuất 24 3.1 Giới thiệu .24 3.2 Trình phân đoạn văn .24 3.2.1 Biểu diễn hình dạng tùy ý 24 3.2.2 Khối ý theo ngữ cảnh 26 3.2.3 Gán Point-to-Quad 27 3.3 Trình nhận dạng văn .28 3.4 Mơ hình rút trích văn 29 3.5 Phương pháp đối sánh 30 Chương Thực nghiệm đánh giá 33 4.1 Giới thiệu .33 4.2 Xây dựng liệu huấn luyện 33 4.3 Đánh dấu liệu 35 4.4 Tiền xử lý liệu 36 4.5 Huấn luyện liệu nhận dạng văn với Paddle-OCR 37 4.6 Cài đặt chương trình ứng dụng demo 38 4.6.1 Môi trường ngôn ngữ cài đặt 38 4.6.2 Huấn luyện mơ hình phát văn SAST 38 4.6.3 Huấn luyện mơ hình nhận dạng văn SRN 39 4.7 Kết thực nghiệm 39 4.8 Đối sánh với liệu gốc 43 4.9 So sánh mơ hình đề xuất với phương pháp OCR khác 44 Chương Kết Luận 48 TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT STT Ký hiệu viết tắt Nội dung viết tắt CAB Context Attention Block DQN Deep Q-Network FCN Fully Convolutional Network ML Machine Learning SRN Semantic reasoning network TBO Text Border Offset TCL Text Center Line TCO Text Center Offset TVO Text Vertex Offset 36 Sau gán nhãn, công cụ xuất thành file json chứa thơng tin kích thước tọa độ khung chữ Hình 4.4 Kết sau đánh dấu 4.4 Tiền xử lý liệu Do liệu đầu vào trình phát văn Paddle-OCR có dạng Hình 4.5, nên học viên tiến hành xử lý lại liệu cho định dạng PaddleOCR Ở transcription text text box Khi chứa “###” có nghĩa text box không hợp lệ skip train model, points cặp (x, y) biểu diễn tọa độ góc text box theo chiều ngược kim đồng hồ, góc bên trái Hình 4.5 Định dạng liệu đầu vào trình phát văn Paddle-OCR Tiếp đến, để xử lý liệu đầu vào trình nhận diện văn bản, học viên tiến hành cắt ảnh thành phần nhỏ theo tọa độ cho bước trước Với ảnh cắt có nhãn tương ứng Chi tiết liệu đầu vào xử lý mô tả hình 4.6 37 Hình 4.6 Định dạng liệu đầu vào trình nhận dạng Paddle-OCR 4.5 Huấn luyện liệu nhận dạng văn với Paddle-OCR Hầu hết hệ thống OCR không hỗ trợ tiếng Việt, vậy, để huấn luyện, cần tạo từ điển chứa tất ký tự tiếng Việt Ví dụ chữ số có tiếng Việt: a A À ả Ả ã Ã Á Ạ ă Ă ằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeÈẻẺẽẼéÉẹ ẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoỊỏ ỎõÕóĨọỌơƠồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsSt TuÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹ Ỹ ý Ý ỵ Ỵ z Z Paddle-OCR hỗ trợ huấn luyện riêng lẻ trình phát văn trình nhận dạng văn Sau có liệu từ bước trước, học viên tiến hành cài đặt thử nghiệm mơ hình đưa đánh giá 38 4.6 Cài đặt chương trình ứng dụng demo 4.6.1 Mơi trường ngơn ngữ cài đặt Chương trình viết ngơn ngữ Python môi trường Windows Thư viện dùng Pytorch Cấu hình máy sử dụng thể cài đặt chương trình: CPU: i7-7820HK@2.90GHz; RAM: 16GB; GPU: GTX 1080 8GB, Hệ điều hành: Windows 10 Home 64bit Các thư viện cần để chạy ứng dụng demo: Python 3.8+, OpenCV, Pytorch, Paddle 4.6.2 Huấn luyện mơ hình phát văn SAST Để huấn luyện mơ hình này, cần tiến hành cài đặt số thông số Ở đây, mơ hình sử dụng mơ hình huấn luyện trước tập liệu tiếng Anh Điều rút ngắn trình huấn luyện áp dụng cho tiếng Việt Hình 4.7 Một số thơng số huấn luyện trình phát văn 39 4.6.3 Huấn luyện mơ hình nhận dạng văn SRN Tương tự trình phát văn bản, trình nhận dạng văn cần thiết lập thông số số epoch, learning rate, thuật toán huấn luyện Adam [22], có sử dụng GPU hay khơng… Hình 4.8 Một số thơng số huấn luyện trình nhận dạng văn 4.7 Kết thực nghiệm Học viên tiến hành thực nghiệm liệu VinAI đạt kết hình 4.9 Với trình phát đối tượng, học viên sử dụng ba độ đo Precision, Recall Hmean Trình nhận dạng đối tượng so sánh độ xác Accuracy Sau tiến hành cài đặt bước trên, bắt đầu huấn luyện hai trình phát trình nhận dạng Khi chạy 100 epoch đầu (Hình 4.9), mơ hình nhận dạng đến 99.5% chữ riêng lẻ đánh giá liệu xác thực (validation) Hình 4.9 Kết huấn luyện chạy 100 epoch đầu Hình 4.10 mơ tả kết thử nghiệm mơ hình giấy chứng nhận kết thi Hình bên trái có độ mờ cao hình bên phải Tuy nhiên mơ hình phát 40 văn xác Mặt khác, mơ hình nhận dạng chữ hoạt động tiếng Việt tốt, Hình 4.11 cho thấy kết nhận dạng lên tới tỉ lệ 99-100% Hình 4.10 Mơ tả việc phát văn mơ hình đề xuất Hình 4.11 Một số kết nhận dạng chữ Khi thử nghiệm rút trích văn (giấy chứng nhận kết thi giấy chứng nhận tốt nghiệp), kết mô tả Hình 4.12 Hình 4.13 cho thấy mơ hình hoạt động tốt dù áp dụng cho ngôn ngữ tiếng Việt Một vấn đề thường thấy rút trích văn số mẫu hình ảnh sinh viên tải lên có chất lượng Điển giấy chứng nhận tốt nghiệp Hình 4.13 Tuy nhiên, mơ hình hoạt động tốt điều kiện văn có chất lượng 41 Hình 4.12 Mơ tả việc rút trích văn giấy chứng nhận kết thi 42 Hình 4.13 Mơ tả việc rút trích văn giấy chứng nhận tốt nghiệp 43 Bảng 4.2 Kết huấn luyện trình phát đối tượng Mơ hình Precision Recall Hmean Faster-RCNN [5] 90.52% 82.32% 86.12% YOLO [7] 89.26% 80.21% 84.13% SAST [10] 91.39% 83.77% 87.42% Bảng 4.3 Kết huấn luyện trình nhận dạng đối tượng Mơ hình Accuracy STAR-Net [15] 81.42% RARE [16] 83.60% SRN [20] 88.52% Học viên tiến hành thử nghiệm để so sánh mơ hình với cơng trình nghiên cứu liên quan Từ bảng kết cho thấy, mơ hình phát văn phát triển đến mức gần vượt ngưỡng 80%, cịn mơ hình nhận dạng có độ xác khoảng gần 80% 4.8 Đối sánh với liệu gốc Sau rút trích nội dung văn bản, cơng việc cuối đối sánh thông tin rút trích với liệu gốc thu thập dựa vào phương pháp đối sánh Mục 3.4 Thông tin liệu gốc mơ tả hình 4.14 Hình 4.14 Dữ liệu gốc hệ thống 44 Hình 4.15 Rút trích thơng tin đưa tỉ lệ chấp nhận giấy chứng nhận kết thi Hình 4.16 Rút trích thơng tin đưa tỉ lệ chấp nhận giấy chứng nhận tốt nghiệp 4.9 So sánh mơ hình đề xuất với phương pháp OCR khác Học viên tiến hành thử nghiệm việc rút trích liệu cơng cụ OCR khác Tesseract (miễn phí), Google Docs (miễn phí), ABBYY FineReader (trả phí – luận văn sử dụng Trial) Ba cơng cụ có hỗ trợ nhận dạng cho tiếng Việt, nhiên khả nhận dạng cịn Hình 4.17 cho thấy số kết 45 thử nghiệm Tesseract FineReader Do Google Docs khơng có chức phát khung giới hạn nên khơng mơ tả a) b) Hình 4.17 Rút trích thơng tin cơng cụ Tesseract Có thể thấy Tesseract hoạt động tốt ảnh mờ (Hình 4.17a) nhiên lại hoạt động khơng tốt ảnh bị nhiễu (Hình 4.17b) FineReader hoạt động gặp hồ sơ bị mờ ( 46 Hình 4.18a) hoạt động tốt gặp hồ sơ bị nhiễu ( Hình 4.18b) Tuy nhiên, đề cập từ trước, công cụ OCR chưa hoạt động tốt với tiếng Việt a) b) Hình 4.18 Rút trích thơng tin công cụ ABBYY FineReader Bảng 4.4 Kết so sánh với phương pháp OCR Thông tin rút trích Paddle-OCR Tesseract ABBYY FineReader Google Docs Số CMND 95.20% 92.74% 91.39% 87.85% Số báo danh 93.30% 91.64% 90.38% 85.97% Ngày sinh 85.55% 83.98% 81.62% 78.33% Họ tên 80.01% 79.60% 79.74% 75.27% Trung bình 88.52% 86.99% 85.78% 81.86% 47 Kết kiểm nghiệm 100 hồ sơ giấy chứng nhận kết thi thể Bảng 4.4 Từ cho thấy phương pháp cho kết tốt số CMND/CCCD số báo danh số theo mẫu cố định (9 ký tự số CMND/CCCD ký tự số báo danh) Thông tin ngày sinh thu kết tốt chứa số ký tự / Kết rút trích họ tên cho kết rút trích chữ tiếng Việt Tuy nhiên mơ hình đề xuất tốt so sánh với công cụ OCR liên quan 48 Chương Kết Luận Trong luận văn này, học viên giới thiệu phân tích sâu tốn rút trích văn tiếng Việt Đầu tiên, học viên nghiên cứu, so sánh phương pháp liên quan đến việc phát hiện, phân đoạn văn phương pháp nhận dạng văn Học viên tìm hiểu cơng cụ hỗ trợ OCR có sẵn tiến hành thử nghiệm Sau đó, học viên lựa chọn phương pháp tối ưu để tiến hành xây dựng mơ hình Để mơ hình hoạt động ngôn ngữ tiếng Việt, học viên xây dựng liệu bao gồm hồ sơ đăng ký nhập học trường Đại học Công nghệ Đồng Nai thu thập liệu chữ tiếng Việt tiến hành gán nhãn Sau mô hình xây dựng huấn luyện, học viên đánh giá áp dụng mơ hình vào hỗ trợ kiểm tra hồ sơ sinh viên dựa rút trích văn cho trường Đại học Công nghệ Đồng Nai Bên cạnh thuận lợi, hạn chế mặt thời gian kiến thức, luận văn hạn chế liệu văn tiếng Việt thu thập khiêm tốn nên khả nhận dạng hạn chế Một yếu điểm mơ hình đề xuất có thời gian thực thi chưa nhanh mơ hình đề xuất cịn phức tạp Trong tương lai, học viên tiếp tục giải vấn đề nhận dạng tiếng Việt Học viên tăng cường lượng liệu tiếng Việt chuẩn hóa liệu thu thập Sau để khắc phục tốc độ thực thi mơ hình, học viên cải thiện mơ hình phát văn mơ hình nhận dạng văn trở nên đơn giản để giảm thiểu thời gian thực thi sử dụng thời gian thực TÀI LIỆU THAM KHẢO [1] Zou, Zhengxia, et al "Object detection in 20 years: A survey." arXiv preprint arXiv:1905.05055 (2019) [2] Mithe, Ravina, Supriya Indalkar, and Nilam Divekar "Optical character recognition." International journal of recent technology and engineering (IJRTE) 2.1 (2013): 72-75 [3] Chaudhuri, Arindam, et al "Optical character recognition systems." Optical Character Recognition Systems for Different Languages with Soft Computing Springer, Cham, 2017 9-41 [4] Zhou, Xinyu, et al "East: an efficient and accurate scene text detector." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition 2017 [5] Ren, Shaoqing, et al "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems 28 (2015) [6] Liu, Wei, et al "Ssd: Single shot multibox detector." European conference on computer vision Springer, Cham, 2016 [7] Redmon, Joseph, and Ali Farhadi "Yolov3: An incremental improvement." arXiv preprint arXiv:1804.02767 (2018) [8] Girshick, Ross, et al "Rich feature hierarchies for accurate object detection and semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition 2014 [9] Girshick, Ross "Fast r-cnn." Proceedings of the IEEE international conference on computer vision 2015 [10] Wang, Pengfei, et al "A single-shot arbitrarily-shaped text detector based on context attended multi-task learning." Proceedings of the 27th ACM international conference on multimedia 2019 [11] Milletari, Fausto, Nassir Navab, and Seyed-Ahmad Ahmadi "V-net: Fully convolutional neural networks for volumetric medical image segmentation." 2016 fourth international conference on 3D vision (3DV) IEEE, 2016 [12] Du, Yuning, et al "Pp-ocr: A practical ultra lightweight ocr system." arXiv preprint arXiv:2009.09941 (2020) [13] Du, Yuning, et al "PP-OCRv2: bag of tricks for ultra lightweight OCR system." arXiv preprint arXiv:2109.03144 (2021) [14] Li, Chenxia, et al "PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System." arXiv preprint arXiv:2206.03001 (2022) [15] Liu, Wei, et al "Star-net: a spatial attention residue network for scene text recognition." BMVC Vol 2016 [16] Shi, Baoguang, et al "Robust scene text recognition with automatic rectification." Proceedings of the IEEE conference on computer vision and pattern recognition 2016 [17] Wang, Wenhai, et al "Shape robust text detection with progressive scale expansion network." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2019 [18] Long, Shangbang, et al "Textsnake: A flexible representation for detecting text of arbitrary shapes." Proceedings of the European conference on computer vision (ECCV) 2018 [19] Vaswani, Ashish, et al "Attention is all you need." Advances in neural information processing systems 30 (2017) [20] Yu, Deli, et al "Towards accurate scene text recognition with semantic reasoning networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2020 [21] Nguyen, Nguyen, et al "Dictionary-guided scene text recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2021 [22] Kingma, Diederik P., and Jimmy Ba "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014) ... GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG XÂY DỰNG PHƯƠNG PHÁP HỖ TRỢ KIỂM TRA HỒ SƠ SINH VIÊN DỰA TRÊN RÚT TRÍCH VĂN BẢN Chuyên ngành: Công nghệ thông tin Mã số chuyên ngành: 8480201 Đồng Nai,... (Dùng cho luận văn người hướng dẫn) Đề tài: Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa rút trích văn Ngành: Cơng nghệ thông tin Mã số: Luận văn: Người hướng dẫn: PGS.TS NỘI DUNG TÓM... chương trình - Viết báo cáo luận văn Cách thức giải vấn đề Giải pháp đưa để giải vấn đề toán ? ?Xây dựng phương pháp hỗ trợ kiểm tra hồ sơ sinh viên dựa rút trích văn bản? ?? thực theo bước sau: -

Định dạng
Số trang	64
Dung lượng	3,88 MB