KHÓA LUẬN TỐT NGHIỆP: NGHIÊN CỨU MÔ HÌNH TRÍ TUỆ NHÂN TẠO ĐỂ PHÂN LOẠI CÔNG VĂN VÀ PHỤC VỤ SỐ HÓA DỰA TRÊN HÌNH ẢNH

TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM KHOA CÔNG NGHỆ THÔNG TIN - 🙣🙡 - NGUYỄN BÁ LỘC NGHIÊN CỨU MƠ HÌNH TRÍ TUỆ NHÂN TẠO ĐỂ PHÂN LOẠI CƠNG VĂN VÀ PHỤC VỤ SỐ HĨA DỰA TRÊN HÌNH ẢNH KHĨA LUẬN TỐT NGHIỆP Tp.Hồ Chí Minh – Năm 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN BÁ LỘC NGHIÊN CỨU MƠ HÌNH TRÍ TUỆ NHÂN TẠO ĐỂ PHÂN LOẠI CƠNG VĂN VÀ PHỤC VỤ SỐ HĨA DỰA TRÊN HÌNH ẢNH CHUN NGÀNH: KHOA HỌC MÁY TÍNH KHĨA LUẬN TỐT NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC: Ths Trịnh Huy Hoàng MỤC LỤC TP.HCM – NĂM 2022 MỤC LỤC MỤC LỤC LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH ẢNH Chương 1: Giới thiệu tổng quan đề tài 1.1 Bài tốn phân loại cơng văn hình ảnh: 1.2 Mục tiêu thực đề tài 1.3 Hướng tiếp cận giải pháp cho toán phân loại 1.3.1 Hướng tiếp cận 1.3.2 Yêu cầu: 10 1.3.3 Phạm vi: 10 1.4 Đóng góp luận văn 10 1.5 Tình hình nghiên cứu tại: 11 Chương 2: Cơ sở lý thuyết 12 2.1 Tổng quan Tesseract 12 2.2 Mạng nơ-ron hồi quy (RNN) 15 2.3 Long short term memory (LSTM) 17 2.3.1 Ý tưởng cốt lõi LSTM 18 2.3.2 Bên LSTM 19 2.4 Mơ hình ngơn ngữ (Language model) 22 2.4.1 Statistical Language Models ( Count-based) 22 2.4.2 N-gram Language Models 22 2.4.3 Neural Network Language Models (Continuous-space) 23 Chương : Thực nghiệm đánh giá kết 24 3.1 Cơ chế hoạt động Tesseract 24 3.1.1 Cài đặt Tesseract 27 3.1.2 Tiền xử lý cho Tesseract: 28 3.2 Xử lý liệu văn đầu vào cho mơ hình phân loại 29 3.3 Các mơ hình huấn luyện 32 3.3.1 Mơ hình XGBoost 32 3.3.2 Mơ hình Random Forest Classifer 36 3.3.3 Mơ hình LSTM 41 3.4 Kết phân loại so sánh mơ hình: 45 Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 48 4.1 Kết luận 48 4.2 Hướng phát triển 48 TÀI LIỆU THAM KHẢO 49 Tiếng Việt: 49 Tiếng Anh: 49 LỜI CẢM ƠN Trong thời gian nghiên cứu thực đề tài, giúp đỡ thầy cô bạn bè góp ý cho luận văn hồn thành cách hoàn chỉnh Em xin gửi lời cảm ơn chân thành đến: Em xin chân thành cảm ơn thầy Th.S Trịnh Huy Hoàng tạo điều kiện cho em tham gia vào khóa luận tốt nghiệp Cảm ơn thầy tận tình dẫn dắt hết lịng tạo điều kiện để em hồn thành khóa luận Em xin chân thành cảm ơn quý Thầy Cô khoa Công Nghệ Thông Tin trường Đại học Sư Phạm Thành Phố Hồ Chí Minh tận tình giảng dạy trang bị cho em kỹ mềm kiến thức chuyên môn cần thiết suốt trình học tập trường DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT AI: Artificial intelligence IoT: Internet of Things JS: Java Script KYC: Know Your Customer LM: Language Model LSTM: Long short term memory NLP: Natural Language Processing OCR: Optical Character Recognition PIL: Pillow QĐ: Quyết định RNN: Recurrent Neural Network SVD: Singular Value Decomposition TF-IDF: Term frequency–inverse document frequency TTg: Thủ tướng giao XGBoost: Extreme Gradient Boosting DANH MỤC HÌNH ẢNH Hình 1: Hình ảnh công văn Hình 2: Ứng dụng trí tuệ nhân tạo để tự động phân loại công văn phục vụ số hóa tài liệu Hình 1: Xác định vị trí text OCR 12 Hình 2: Quá trình OCR 13 Hình 3: Kiến trúc Tesseract OCR 14 Hình 4: Mạng nơ-ron thơng thường 15 Hình 5: Kiến trục mạng RNN 16 Hình 6: Các dạng RNN 17 Hình 7: Mơ-đun lặp lại RNN tiêu chuẩn chứa lớp 17 Hình 8: Mơ-đun lặp lại LSTM chứa lớp tương tác 18 Hình 1: Kiến trúc nhận dạng văn chữ in Tesseract 24 Hình 2: Đường sở hình cong 25 Hình 3: Cắt ký tự liền 25 Hình 4: Sơ đồ nhận dạng từ 26 Hình 5: Các đặc trưng ký tự nhận dạng 26 Hình 6: Đường cong học tập cho mơ hình XGBoost ban đầu 33 Hình 7: Đường cong học tập mơ hình XGBoost sau tăng siêu tham số n_estimators 34 Hình 8: Đường cong học tập mơ hình XGBoost sau tăng siêu tham số n_estimators giảm siêu tham số eta 35 Hình 9: Đường cong học tập mơ hình XGBoost sau thay đổi siêu tham số n_estimator, eta, submaple colsample_bytree 36 Hình 10: Báo cáo đánh giá mơ hình RandomForestClassifier 37 Hình 11: Đường cong học tập mơ hình RandomForestClassifier 38 Hình 12: Báo cáo đánh giá mơ hình RandomForestClassifier sau điều chỉnh tham số 39 Hình 13: Đường cong học tập mơ hình RandomForestClassfier sau điều chỉnh tham số 40 Hình 14: Kiến trúc mơ hình LSTM tốn 42 Hình 15: Tham số tầng mơ hình huấn luyện 43 Hình 16: Quá trình huấn luyện mơ hình LSTM 44 Hình 17: Biểu đồ biểu diễn độ xác mơ hình 44 Hình 18: Biểu đồ biểu diễn độ mát mơ hình 45 Hình 19: Cơng văn đạo 46 Chương 1: Giới thiệu tổng quan đề tài 1.1 Bài tốn phân loại cơng văn hình ảnh: Cách mạng cơng nghiệp 4.0 sử dụng sản phẩm ứng dụng cơng nghệ thơng tin trí tuệ cao để giải hiệu hoạt động nghiệp vụ nhiều lĩnh vực chuyên môn Đặc biệt, thủ tục giấy tờ ngày sử dụng nhiều ứng dụng Internet vạn vật (IoT), trí tuệ nhân tạo (AI), liệu lớn Do đó, thủ tục giấy tờ đạt tiêu chuẩn cách nhanh chóng, hiệu tiết kiệm chi phí Theo Quyết định số 28/2018 / QĐ-TTg [4] ngày tháng 12 năm 2018 Thủ tướng Chính phủ việc gửi nhận đường truyền điện tử hệ thống hành cơng, đường truyền điện tử có giá trị pháp lý hiệu lực thi hành Vì vậy, văn thức trở thành phương tiện liên lạc, trao đổi thông tin, truyền tải mệnh lệnh quan, tổ chức cần số hóa, lưu trữ Vì vậy, xây dựng mơ hình trí tuệ nhân tạo giúp phân loại cơng văn phục vụ số hóa tài liệu Hình 1: Hình ảnh cơng văn 1.2 Mục tiêu thực đề tài Bài toán đặt việc văn điện tử thức trở thành phương tiện liên lạc, trao đổi thơng tin, truyển tải mệnh lệnh quan, tổ chức cần số hóa, lưu trữ Thì yêu cầu mà hệ thống phân loại lưu trữ loại cơng văn phải có độ xác cao tốc độ xử lý nhanh Bài toán mô tả sau:  Input : Ảnh công văn đầu vào  Output: Tên công văn phân loại  Điều kiện ràng buộc: đầu vào file ảnh công văn(jpg, png, …) Ảnh công văn đầu vào Mơ hình trí tuệ nhân tạo Kĩ thuật xử lí ảnh Kết phân loại cơng văn Hình 2: Ứng dụng trí tuệ nhân tạo để tự động phân loại cơng văn phục vụ số hóa tài liệu 1.3 Hướng tiếp cận giải pháp cho toán phân loại 1.3.1 Hướng tiếp cận Bài toán đề tài chia thành nhiệm vụ là: + Nhiệm vụ thứ nhất: Trích xuất kí tự văn từ hình ảnh (OCR) + Nhiệm vụ thứ hai: Phân loại đoạn kí tự trích xuất (Text Classification) Đối với nhiệm vụ thứ nhất, toán OCR ( Optical Character Recognition) hay gọi Nhận dạng ký tự quang học Đây công nghệ áp dụng để đọc kí tự tệp ảnh thành định dạng kí tự OCR ngày sử dụng nhiều để số hóa ngành cơng nghiệp khác nhằm cắt giảm khối lượng công việc thủ cơng Điều làm cho việc trích xuất lưu trữ thông tin từ tài liệu kinh doanh, biên lai, hộ chiếu, v.v trở nên dễ dàng hiệu Ngoài ra, bạn tải lên tài liệu cho KYC ( Know Your Customer), OCR sử dụng để trích xuất thơng tin từ tài liệu lưu trữ chúng để tham khảo tương lai Việc số hóa sử dụng OCR rõ ràng có lợi rộng rãi lưu trữ thao tác văn dễ dàng, chưa kể đến lượng phân tích khó lường mà bạn áp dụng cho liệu Ngồi lợi ích OCR đem lại cho tốn có số khó khăn đề tài kí tự văn Các đường cong phẳng dài cho thấy thuật toán học nhanh chúng tơi lợi từ việc làm chậm Điều đạt cách sử dụng tỷ lệ học tập, giới hạn đóng góp thêm vào quần thể Điều kiểm sốt thơng qua siêu tham số “ eta ” mặc định giá trị 0,3 Chúng ta thử giá trị nhỏ hơn, chẳng hạn 0,05 Chúng ta thấy việc bổ sung quy định dẫn đến cải thiện nữa, tăng độ xác từ khoảng 96,4% lên khoảng 97,07% Các đường cong gợi ý quy hóa làm chậm q trình học có lẽ việc tăng số lần lặp lại dẫn đến cải tiến Hình 8: Đường cong học tập mơ hình XGBoost sau tăng siêu tham số n_estimators giảm siêu tham số eta Một cách tiếp cận khác để làm chậm trình học thêm quy hóa hình thức giảm số lượng mẫu tính (hàng cột) sử dụng để xây dựng tập hợp 35 Trong trường hợp này, thử giảm nửa số lượng mẫu tính tương ứng thơng qua siêu tham số “ subsample ” “ colsample_bytree ” Chúng ta thấy việc bổ sung quy định dẫn đến cải thiện nữa, tăng độ xác từ khoảng 97,07% lên khoảng 97,2% Hình 9: Đường cong học tập mơ hình XGBoost sau thay đổi siêu tham số n_estimator, eta, submaple colsample_bytree 3.3.2 Mơ hình Random Forest Classifer Bây giờ, chúng tơi biết mong đợi từ vấn đề mình, đến lúc nghiêm túc với việc xây dựng mơ hình Rừng ngẫu nhiên mơ hình tơi sử dụng đây, chúng mạnh mẽ khái quát tốt; chúng diễn giải dễ dàng Rừng ngẫu nhiên tập hợp định: chúng bao gồm loạt định độc lập, đào tạo sử dụng tập hợp tính đào tạo để đảm bảo chúng học 36 cách đưa dự đoán theo cách khác Kết đầu chúng sau gộp lại với cách sử dụng biểu đơn giản Như khi, bước tơi sử dụng mơ hình phân loại rừng ngẫu nhiên hộp Điều dẫn đến cú hích lớn hiệu suất: độ xác 96% xác nhận 100% độ xác đào tạo Nói cách khác, mơ hình overfitting (hay nói hơn, định tập hợp overfitting) nhận thấy cải thiện lớn hiệu suất từ việc gộp loạt định overfit lại với Hình 10: Báo cáo đánh giá mơ hình RandomForestClassifier 37 Hình 11: Đường cong học tập mơ hình RandomForestClassifier Một chìa khóa để điều chỉnh siêu tham số khu rừng ngẫu nhiên nói chung, hiệu suất mơ hình tăng lên với số lượng định mà thêm vào nhóm Do đó, thực thơng số cuối mà điều chỉnh, sau chúng tơi hồn tất việc điều chỉnh tất thơng số có liên quan khác (như max_depth, min_samples_leaf min_samples_split) GridSearchCV Chúng nhận tập hợp cuối cơng cụ ước tính tốt và, với thông số tốt này, chúng tơi sau áp dụng chúng vào mơ hình so sánh kết quả: 38 Hình 12: Báo cáo đánh giá mơ hình RandomForestClassifier sau điều chỉnh tham số 39 Hình 13: Đường cong học tập mơ hình RandomForestClassfier sau điều chỉnh tham số Một số khả quan trọng cần nghĩ đến liên quan đến thời điểm là:  Chúng sử dụng GridSearch với cv = (xác thực chéo lần) Điều có nghĩa tổ hợp siêu tham số, mơ hình huấn luyện 2/3 liệu tập huấn luyện (vì 1/3 giữ để xác thực) Vì vậy, dựa điều này, hy vọng GridSearch tạo kết bi quan 40 Một cách để tránh điều tăng giá trị cv để bạn có xác nhận nhỏ đào tạo lớn  Ln có nhiễu (hoặc “phương sai”) cần xem xét: đào tạo mô hình tập liệu khác, nói chung cho kết khác Nếu phương sai mơ hình chúng tơi đủ cao (có nghĩa hiệu suất phụ thuộc nhiều vào điểm cụ thể mà đào tạo) GridSearch thực khơng thể phân biệt siêu tham số “tốt nhất” siêu tham số Đây lời giải thích cho kết Điều có nghĩa chúng tơi sử dụng giá trị mặc định  Một lĩnh vực khác mà khám phá sâu max_features 3.3.3 Mơ hình LSTM Bây cố gắng sử dụng mạng nơ-ron LSTM để cải thiện hiệu suất mơ hình ban đầu Đầu tiên, cần mã hóa câu cách sử dụng ‘TfidfVectorizer’ thư viện sklearn Ngồi ra, chúng tơi đặt num_words thành 2000 Điều có nghĩa tokenizer phát 2000 từ phổ biến từ tập liệu sử dụng chúng làm tính để xây dựng mơ hình thêm Sau mơ hình chúng tơi xây dựng Đầu tiên, khởi tạo lớp input_layer, sau chúng tơi thay đổi đầu vào cho input_layer Tiếp theo thêm tầng LSTM_layer với 256 nốt lớp kết nối đầy đủ (densen_layer) với 512 nốt Sau thêm tầng drop_out để bỏ qua ngẫu nhiên 0.3 (30%) nốt Tương tự vậy, tầng thêm sau: tầng kết nối đầy đủ với 512 nốt, tầng kết nối đầy đủ với 256 nốt, tầng drop_out 0.3, tầng kết nối đầy đủ với 256 nốt, tầng kết nối đầy đủ với 128 nốt, tầng drop_out 0.3, tầng kết nối đầy đủ với 128 nốt Tiếp đến tầng kết nối đầy đủ với (đầu ra) nơ-ron với hàm chức ‘softmax’ Chúng sử dụng hàm mát sparse_categorical_crossentropy‘ tối ưu hóa ‘ Adam’ Ngồi chúng tơi, dùng phương pháp tính tốn ‘accuracy’ để đo lường hiệu suất mơ hình 41 Hình 14: Kiến trúc mơ hình LSTM tốn Ở tầng LSTM có (300*256 + 256^2)*4 + 256*4 = 570,368 tham số, tầng densen_7 có 256*512 + 512 = 131,584 tham số, tầng densen_8 có 512*512+512 = 262,656 tham số, tầng densen_9 có 512*256+ 256 = 131,584 tham số, tầng densen_10 có 256*256 + 256= 65,792 tham số, tầng densen_11 có 256*128+128= 32,896 tham số, tầng densen_12 có 128*128 + 128 = 16,512 tham 42 số, tầng densen_13 có 128*4 + = 516 tham số Tổng số tham số mơ hình 1,211,652 Hình 15: Tham số tầng mơ hình huấn luyện Sau huấn luyện mơ hình với epoch = 25 ta thu kết với xác suất tập train 99%, tập valid 92.7% tập test 95% 43 Hình 16: Q trình huấn luyện mơ hình LSTM Hình 17: Biểu đồ biểu diễn độ xác mơ hình 44 Hình 18: Biểu đồ biểu diễn độ mát mơ hình 3.4 Kết phân loại so sánh mơ hình: Sau kết thu đưa ảnh công văn sử dụng mơ hình nêu để dự đốn Ảnh cơng văn thuộc loại đạo: 45 Hình 19: Cơng văn đạo 46 Và kết từ mơ hình thực hiện: Theo kết thì, mơ hình XGBoost LSTM có dự đốn xác so với mơ hình RandomForestClassifier 47 Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận Khóa luận thực nghiên cứu ứng dụng mơ hình trí tuệ nhân tạo để phân loại cơng văn Khóa luận bao gồm nghiên cứu cơng cụ Tesseract, mơ hình RandomForestClassifier, mơ hình XGBoost kiến trúc mạng LSTM Thực nghiên cứu kiến trúc để tìm hướng giải pháp tốt cho tốn phân loại cơng văn Các mơ hình khóa luận hoạt động tốt, cho kết xác 90% thời gian phân loại nhanh chóng ảnh rõ chữ dịng Cịn ảnh chi tiết, nhiễu, nhiều dòng cho kết xác 80% Qua phần đánh giá thực nghiệm chương 3, mơ hình XGBoost cho kết xác mơ hình RandomForestClassifier mơ hình LSTM Vì vậy, qua kết khóa luận đề xuất mơ hình XGBoost mơ hình sử dụng để báo cáo đánh giá cho khóa luận 4.2 Hướng phát triển Với kết đạt trên, mơ hình cịn số hạn chế thời gian nghiên cứu ngắn, số phương pháp lĩnh vực nhận dạng ký tự quang học phân loại ảnh chưa áp dụng triệt để Chưa tìm hiểu sâu áp dụng thư viện mơ hình tốt vào tốn Về mặt liệu huấn luyện thử nghiệm chưa đa dạng phong phú phần lớn liệu văn phải thao tác thủ công tốn nhiều thời gian Với liệu tại, mơ hình phân loại nhiều loại công văn mà theo loại luận văn đề xuất Trong tương lai, có thời gian kinh nghiệm thêm cho việc thu thập liệu nghiên cứu thư viện, mơ hình tốt hơn, chúng tơi phát triển đề tài tốt 48 TÀI LIỆU THAM KHẢO Tiếng Việt: [10] Hải, T S (2018) Tổng Quan Bài Tốn Phân Lớp Ảnh Đa Đặc Trưng, Tạp chí Đại học Sư Phạm Thành phố Hồ Chí Minh Available: http://dlib.hcmue.edu.vn/handle/SPHCM/19352 Tiếng Anh: [1] Kirill Safronov: Optical Character Recognition Using Optimisation Algorithms Institute for Process Control and Robotics (IPR) University of Karlsruhe Karlsruhe, Germany (2007) [2] Vinutha MH, Sweatha KN and Sreepriya Kurup: Optical Character Recognition Based Auto Navigation of Robot (2013) [3] Ali Ahmadi, Yoshinori Shirakawa, Md.Anwarul Abedin, Kazuhiro Takemura, Kazuhiro Kamimura, Hans Jürgen Mattausch, and Tetsushi Koide: Real-time Character Reconition System Using Associative Memory Base Hardware, Japan [4] Hochreiter & Schmidhuber (1997): Long Short-term Memory Neural Computation (8): 1735-1780 [5] Tianqi Chen, Carlos Guestrin : XGBoost: A Scalable Tree Boosting System [6] Hagara, M., Stojanović, R., Bagala, T., Kubinec, P., & Ondráček, O (2020) Grayscale image formats for edge detection and for its FPGA implementation Microprocessors and Microsystems, 75, 103056 [7] Haykin, Simon S., et al Neural networks and learning machines Vol Upper Saddle River: Pearson, 2009 [8] Hegghammer, T (2021) OCR with Tesseract, Amazon Textract, and Google Document AI: A Benchmarking Experiment [9].Keechul Jung, Kwang In Kim, Anil K Jain, (2003), “Text Information Extraction in Images and Video: A Survey” 49 ... 22 2.4.1 Statistical Language Models ( Count-based) 22 2.4.2 N-gram Language Models 22 2.4.3 Neural Network Language Models (Continuous-space) 23 Chương : Thực nghiệm... (Count-based), Neural Network LM (Continuous-space) Knowledge-based LM, Ngồi cịn số LM khác chẳng hạn KenLM, 2.4.1 Statistical Language Models ( Count-based) Những mơ hình thuộc nhóm dựa việc đếm... (Language model) Language Model (LM) mô hình đại diện cho kiến thức biết ngơn ngữ, kiến thức từ, chuỗi từ có hay mức độ thường xuyên mà chúng xuất LM chia thành ba nhóm Statistical LM (Count-based),

Định dạng
Số trang	50
Dung lượng	2,5 MB