Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC XÂY DỰNG MƠ HÌNH TRÍCH XUẤT THƠNG TIN TRONG CÁC VĂN BẢN HÀNH CHÍNH NGÀNH: KHOA HỌC MÁY TÍNH HỘI ĐỒNG : KHOA HỌC MÁY TÍNH GVHD : TS TRẦN TUẤN ANH TS NGUYỄN TIẾN THỊNH TRẦN HOÀI NAM GVPB : ThS TRẦN HỒNG TÀI SVTH : NGUYỄN HỮU THẮNG LÊ CÔNG LINH TP Hồ Chí Minh, 8/2021 1713239 1711948 Lời cam đoan Chúng xin cam đoan công trình nghiên cứu phát triển thành viên nhóm hướng dẫn TS Trần Tuấn Anh, TS Nguyễn Tiến Thịnh anh Trần Hoài Nam Nội dung nghiên cứu kết trung thực chưa công bố trước Các số liệu, tài nguyên thu thập từ nguồn khác ghi rõ phần tài liệu tham khảo Ngồi ra, chúng tơi có sử dụng số nhận xét, đánh giá số liệu tác giả khác, quan tổ chức khác Tất có trích dẫn thích nguồn gốc Nếu phát gian lận nào, chúng tơi xin hồn tồn chịu trách nhiệm Trường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh khơng liên quan đến vi phạm tác quyền, quyền gây (nếu có) q trình thực luận văn tốt nghiệp đại học Nhóm sinh viên thực đề tài Lời ngỏ Trước tiên, xin cảm ơn chân thành đến TS Trần Tuấn Anh TS Nguyễn Tiến Thịnh, người dẫn dắt định hướng cho bước đường nghiên cứu khoa học, phát triển luận văn Bên cạnh đó, chúng tơi chân thành cảm ơn đến đội ngũ giảng viên đầy nhiệt trường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh, người truyền cảm hứng truyền đạt kiến thức quý giá chặng đường dài đại học Ngồi ra, chúng tơi muốn gửi lời cám ơn chân thành đến anh Trần Hoài Nam, cựu sinh viên Khoá 2016, Khoa Khoa học Kỹ thuật Máy tính, Trường Đại học Bách Khoa - Đại học quốc gia Thành phố Hồ Chí Minh Cảm ơn anh dẫn, nhận xét đánh giá giúp chúng tơi hồn thiện khóa luận Cuối cùng, muốn gửi lời cảm ơn đến gia đình, bạn bè người xung quanh ủng hộ giúp đỡ suốt trình học tập trường Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh Nhóm sinh viên thực đề tài Tóm tắt nội dung Văn hành (VBHC) loại tài liệu phổ biến sống ngày quan, doanh nghiệp nước Những loại văn chứa đựng nhiều thơng tin có cách thức trình bày khác ứng với quan, tổ chức Hiện tại, việc trích xuất thơng tin từ văn hành phần lớn thực thủ cơng, hệ thống bán tự động dựa vào kinh nghiệm, mẫu sẵn, dễ lỗi linh hoạt Để tiện lợi cho q trình trích xuất thơng tin số hóa liệu, chúng tơi đề xuất xây dựng hệ thống trích xuất thơng tin từ hình ảnh văn hành cách tự động nhiều loại, nhiều cách thức trình bày khác Trong giới hạn luận văn tập trung giải vấn đề xung quanh văn hành Việt Nam Nhưng hạn chế tập liệu cách thức trình bày loại VBHC, trước hết thu thập đánh giá dựa liệu từ văn phổ biến định, thông báo từ quan thuộc thành phố Hồ Chí Minh Theo đó, hệ thống nhận vào ảnh chụp mẫu VBHC, trả trường thông tin mà hệ thống trích xuất được, bao gồm thơng tin như: Ngày xuất trình văn bản, Khóa-Tiêu đề, Địa tổ chức, Giá trị-Nội dung, Qua q trình khảo sát nghiên cứu, chúng tơi đề xuất xây dựng hệ thống trích xuất thơng tin gồm ba mơ-đun chính: Phát vùng văn bản, Nhận diện ký tự quang học, Trích xuất thơng tin Về phương pháp đề xuất cho mơ-đun chính, chúng tơi đề xuất sử dụng mơ hình phân đoạn U-Net cho mơ-đun Phát vùng văn bản, mơ hình Tesseract OCR Google phát triển cho mô-đun Nhận diện ký tự quang học, mơ hình mạng nơ-ron tích chập đồ thị (Graph Convolutional Neural Network) cho mơ-đun Trích xuất thơng tin Trong mô-đun, đề xuất vài biến thể phương pháp đánh giá tập liệu nhằm chọn biến thể tốt cho hệ thống Về tập liệu, văn hành tiếng Việt loại văn đặc thù độ bảo mật cao Vì thế, chưa có tập liệu thực phù hợp với hướng tiếp cận chúng tôi, nên tự thu thập xây dựng tập liệu từ định, thông báo quan thành phố Hồ Chí Minh Theo đó, tập liệu có 194 ảnh màu xám thu thập thông qua trình quét (scan) từ ảnh chụp điện thoại Chúng tiến hành gán nhãn tập liệu cho phù hợp với hướng tiếp cận mô-đun Về phương pháp đánh giá, với mô-đun sử dụng số độ đo riêng Cụ thể, mô-đun Phát vùng văn sử dụng độ đo Dice-score, mô-đun Nhận diện ký tự quang học đánh giá tỷ lệ sai số ký tự (Character Error Rate), mơ-đun Trích xuất thơng tin sử dụng kết hợp độ đo toán phân lớp Accuracy (Acc), Precision (P), Recall (R) F1-score (F1) Dựa kết đánh giá, ứng với mơ-đun chúng tơi chọn phương pháp có độ xác tốt để xây dựng hệ thống trích xuất thơng tin hồn chỉnh, đánh giá độ xác tồn hệ thống dựa vào độ đo Accuracy (Acc), Precision (P), Recall (R) F1-score (F1) Chúng mong rằng, với kết đạt thơng qua luận văn đóng góp phần cho cách mạng số hóa doanh nghiệp, tổ chức nói riêng, ngành Thị giác máy tính nói chung Qua đó, chứng minh tính khả thi tính ứng dụng hệ thống trích xuất thông tin tự động Trang 2/81 MỤC LỤC Mục lục Danh sách hình vẽ Danh sách bảng Tổng quan đề tài 1.1 Đặt vấn đề lý chọn đề tài 1.2 Phạm vi mục tiêu nghiên cứu 1.3 Bố cục luận văn 10 Kiến thức tảng 11 2.1 Các kiến thức học máy, học sâu 11 2.1.1 Mạng nơ-ron nhân tạo (Artificial Neural Nework - ANN) 11 2.1.2 Phép tính tích chập (Convolution) 15 2.1.3 Phép tính tích chập chuyển vị (Transposed Convolution) 17 2.1.4 Phép hợp (Pooling) 18 2.1.5 Batch Normalization (BatchNorm) 18 2.1.6 Mạng nơ-ron tích chập (Convolutional Neural Nework - CNN) 19 2.1.7 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) 21 2.1.8 Mạng nơ-ron tích chập đồ thị (GNN) 23 2.1.9 Các tượng thường gặp học máy, học sâu 28 Các kiến thức phương pháp đánh giá 30 2.2.1 Accuracy 30 2.2.2 Ma trận nhầm lẫn 30 2.2.3 Precision, Recall F1-score 31 Công cụ thư viện 33 2.2 2.3 Trang 1/81 MỤC LỤC 2.3.1 Computer Vision Annotation Tool - CVAT 33 2.3.2 Pytorch 33 2.3.3 Deep Graph Learning - DGL 34 2.3.4 Open Computer Vision - OpenCV 34 Một số cơng trình nghiên cứu liên quan 35 3.1 Khảo sát phương pháp 35 3.1.1 Cách tiếp cận theo xử lý ngôn ngữ tự nhiên (NLP-based approaches) 35 3.1.2 Cách tiếp cận theo thị giác máy tính (CV-based approaches) 35 3.1.3 Cách tiếp cận theo Chargrid 36 3.1.4 Cách tiếp cận theo mạng nơ-ron tích chập đồ thị (GNN-based approaches) 37 3.2 Khảo sát tính ứng dụng 38 3.3 Khảo sát thách thức 38 Tập liệu 40 4.1 Chuẩn bị liệu 40 4.2 Thống kê liệu 41 Phương pháp đề xuất 43 5.1 Phát vùng văn 43 5.2 Nhận diện ký tự quang học 44 5.3 Trích xuất thơng tin 46 5.3.1 Định nghĩa toán 46 5.3.2 Mơ hình GraphSAGE 49 5.3.3 Mơ hình Graph Attention Networks (GATs) 51 Hiện thực hệ thống 54 6.1 Phát vùng văn 54 6.1.1 Tiền xử lý làm giàu liệu 54 6.1.2 Huấn luyện 54 6.1.3 Hậu xử lý 55 Nhận diện ký tự quang học 55 6.2 Trang 2/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ tơi đánh giá mơ hình chúng tơi huấn luyện lại với mơ hình có sẵn cơng cụ Tesseract, độ đo chúng tơi sử dụng Character error rate (CER), thể tỷ lệ ký tự bị nhận diện sai chuỗi dự đoán so với chuỗi tham chiếu Kết đánh giá cụ thể thể Bảng 7.2: Bảng 7.2: Kết đánh giá công cụ Tesseract OCR trước sau huấn luyện thêm STT Thí nghiệm Tập huấn luyện Tập kiểm thử Tập kiểm tra Tesseract OCR có sẵn 0.0824 0.0861 0.0822 Tesseract OCR huấn luyện lại 0.0227 0.0147 0.0267 Dựa vào kết thí nghiệm từ Bảng 7.2, ta thấy kết sau trình huấn luyện thêm cải thiện nhiều Tuy nhiên Tesseract phiên gốc thân đạt kết tốt Nguyên nhân văn hành văn có cấu trúc, trắng chữ đen, viết theo font chữ phổ biến nên thuận lợi cho viêc nhận diện ký tự quang học Kết sau trực quan hóa thể Hình 7.2 Hình 7.3 Hình 7.2: Trực quan hóa kết q trình Nhận diện ký tự quang học theo dịng (line) 7.2.3 Trích xuất thơng tin Với mơ-đun Trích xuất thơng tin chúng tơi thực thí nghiệm đánh giá với mơ sau: • GraphSAGE - Max Pooling: Mơ hình GraphSAGE với tổ hợp Max Pooling • GraphSAGE - Mean: Mơ hình GraphSAGE với tổ hợp Mean • GraphSAGE - GCN: Mơ hình GraphSAGE với tổ hợp GCN • GraphSAGE - LSTM: Mơ hình GraphSAGE với tổ hợp LSTM • GAT (Graph Attention Network) Trang 67/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ Hình 7.3: Trực quan hóa kết q trình Nhận diện quang học văn hành hồn chỉnh Ảnh bên trái văn gốc Ảnh bên phải kết q trình nhận diện (có sử dụng kết q trình Phát vùng văn bản) khơi phục kích thước vị trí ban đầu Bảng 7.3: Kiến trúc mơ hình thí nghiệm Thí nghiệm Kiến trúc mơ hình Đồ thị Hàm lỗi GraphSAGE - Max Pooling Vô hướng Cross Entropy Loss Số lượng tham số 1.236M GraphSAGE - Mean Vô hướng Cross Entropy Loss 1.141M GraphSAGE - GCN Vô hướng Cross Entropy Loss 1.096M GraphSAGE - LSTM Vô hướng Cross Entropy Loss 1.243M GAT Vô hướng Cross Entropy Loss 1.608M Trang 68/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ Bảng 7.3 miêu tả kiến trúc mơ thơng số thí nghiệm Trong đó: • Thí nghiệm 1-4: Chúng tơi thực lại q trình trích xuất đặc trưng theo mơ hình GraphSAGE với lọc Max Pooling, Mean, GCN LSTM • Thí nghiệm 5: Chúng tơi thực việc tổ hợp thông tin dựa chế Attention, giúp nút trọng vào nút thực quan trọng nút lân cận với • Tất mơ hình thực đồ thị vô hướng, dùng hàm lỗi Cross Entropy Loss Bảng 7.4: Kết đánh giá thí nghiệm mơ-đun Trích xuất thơng tin Thí nghiệm Mơ hình Loss Accuracy Precision Recall F1-Score GraphSAGE - Max Pooling 0.0659 0.9836 0.9749 0.9663 0.9658 GraphSAGE - Mean 0.0445 0.9873 0.9654 0.9825 0.9696 GraphSAGE - GCN 0.2378 0.9317 0.8926 0.8548 0.8602 GraphSAGE - LSTM 0.0544 0.9868 0.9797 0.9718 0.9735 GAT 0.1218 0.9635 0.9176 0.9222 0.9127 Nhìn chung, mơ hình đề xuất cho kết ấn tượng thể Bảng 7.4 Trong đó, mơ hình GraphSAGE với tổ hợp Mean cho kết tốt nhất, đạt 0.9696 F1-Score với 1.141M tham số Do đó, chúng tơi đề xuất dùng mơ hình để phát triển cho mơ-đun Trích xuất thơng tin Các thí nghiệm dựa kiến trúc GraphSAGE cho kết tốt ổn định kiến trúc GAT Điều giải thích cấu trúc văn hành dạng văn có thứ tự, xếp từ xuống Chính cấu trúc ảnh hưởng đến cấu trúc đồ thị, khiến cho nút có tối đa nút lân cận, đa số nút Do số nút lân cận nhỏ nên việc gán trọng số làm giảm khả tổ hợp đặc trưng lọc GAT Trong thí nghiệm chúng tơi huấn luyện mơ hình với 200 epoch mơ hình thường hội tụ epoch thứ 40, chi tiết đánh giá bên q trình huấn luyện mơ hình mơ hình GraphSAGE - Mean thể qua Hình 7.4 Kết đánh giá GraphSAGE - Mean trường thông tin thể Bảng 7.5 Trang 69/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ Nhìn chung, trường thơng tin có độ xác cao nhau, vài trường V_SIGN_NAME NOTE cho kết thấp Điều lý giải số lượng mẫu cho trường thông tin ít, cộng thêm thơng tin đa dạng khiến mơ hình khó thể tính tổng qt Hình 7.4: Độ xác hàm lỗi thí nghiệm GraphSAGE - Mean q trình huấn luyện (a) Mẫu thơng báo (b) Mẫu định (c) Mẫu khác Hình 7.5: Kết mơ-đun Trích xuất thơng tin số mẫu văn khác Trang 70/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ Bảng 7.5: Kết đánh giá mô hình GraphSAGE - Mean trường thơng tin Precision Recall F1-score Support 7.2.4 DATE 1.00 1.00 1.00 30 K_HEADING 1.00 0.98 0.99 48 V_HEADING 0.98 0.97 0.98 66 K_REC 1.00 1.00 1.00 28 V_REC 0.99 1.00 0.99 168 K_SIGN 1.00 0.94 0.97 53 V_SIGN_NAME 0.93 0.96 0.94 26 O_DEPART 0.98 1.00 0.99 56 K_INDEX 1.00 1.00 1.00 30 V_INDEX 1.00 0.97 0.98 30 HEADER 1.00 1.00 1.00 60 NOTE 0.93 0.87 0.90 30 V_SENDTO 0.85 0.92 0.88 24 K_SENDTO 0.92 1.00 0.96 11 O_PROVINCE 1.00 1.00 1.00 30 V_CONTAIN 1.00 1.00 1.00 618 Toàn hệ thống Dựa vào kết mô-đun trước bao gồm Phát vùng băn bản, Nhận diện ký tự quang học Trích xuất thơng tin, chúng tơi tiến hành lựa chọn mơ hình tốt để xây dựng lại hệ thống hồn chỉnh, gồm: • Phát vùng văn bản: Sử dụng mơ hình Res-Unet với mạng sở Resnet-34, hàm mát Dice Loss, kết hợp làm giàu liệu q trình huấn luyện • Nhận diện ký tự quang học: Sử dụng công cụ Tesseract OCR huấn luyện tiếp dựa trọng số tối ưu sẵn công cụ, kết hợp với liệu làm giàu nội dung hình ảnh • Trích xuất thơng tin: Sử dụng mơ hình GraphSAGE với tổ hợp Mean Trang 71/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ Chúng tiến hành cho tập kiểm tra qua mô-đun, mô-đun sau sử dụng kết từ mô-đun trước Hệ thống cuối đánh giá dựa kết mô-đun cuối Trích xuất thơng tin, dùng phương pháp đánh giá toán phân loại Accuracy, Recall, Precision F1-score Kết đánh giá tổng thể chi tiết cho thực thể, số lượng số liệu đánh giá cuối thể chi tiết Bảng 7.6 Bảng 7.7 Bảng 7.6: Kết đánh giá tổng thể toàn hệ thống Accuracy Precision Toàn hệ thống 0.8952 0.7231 Recall F1-Score 0.7901 0.7147 Bảng 7.7: Kết đánh giá chi tiết tồn hệ thống trường thơng tin Precision Recall F1-score Support DATE 0.43 0.50 0.46 30 K_HEADING 0.90 0.96 0.93 48 V_HEADING 0.68 0.91 0.78 66 K_REC 1.00 0.89 0.94 28 V_REC 0.97 1.00 0.99 168 K_SIGN 1.00 0.92 0.96 53 V_SIGN_NAME 0.84 0.81 0.82 26 O_DEPART 0.93 0.98 0.96 56 K_INDEX 1.00 0.00 0.00 30 V_INDEX 0.53 0.60 0.56 30 HEADER 0.84 0.95 0.89 60 NOTE 0.67 0.47 0.55 30 V_SENDTO 0.83 0.79 0.81 24 K_SENDTO 0.67 0.73 0.70 11 O_PROVINCE 0.40 0.07 0.11 30 V_CONTAIN 0.96 0.99 0.98 618 Dựa kết so sánh từ Bảng 7.5 (đầu vào ground-truth) Bảng 7.7 (đầu vào kết mô-đun trước), dễ dàng nhận thấy kết từ Bảng 7.7 cho kết tệ nhiều tất Trang 72/81 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ phương pháp đánh giá Nguyên nhân dẫn đến tình trạng xuất phát từ kết hai mô-đun trước Cụ thể: Phát văn • Kết trả trình khơng tốt, chứa nhiều nhiễu Nhiễu bao gồm phát thừa, phát thiếu phát sai vị trí vùng văn bản, dẫn đến đầu vào khơng tốt cho q trình sau • Việc xuất nhiều nhiễu khiến cấu trúc đồ thị bị phá vỡ, dẫn đến xuất thêm kết nối thừa kết nối quan trọng vị trí văn bị nhận diện sai Kết quả, gây khác cấu trúc đồ thị huấn luyện kiểm tra Nhận diện ký tự quang học • Việc nhận vùng văn nhiễu từ mô-đun trước khiến mô-đun trả kết không thực tốt, đặc biệt vùng bị nhận diện thiếu sai, thông tin ngữ nghĩa thu chí bị thiếu nhiều so với thơng tin thực tế • Bản thân tiếng Việt ngơn ngữ khó, có nhiều dấu, cơng cụ Tesseract OCR huấn luyện thêm chưa thực ổn định, dẫn đến kết nhận diện ký tự trả cho mô-đun sau chưa thực kỳ vọng Tuy nhiên kết đạt sau tốt Hướng tiếp cận theo phương pháp GraphSAGE - Mean tỏ hoạt động hiệu quả, không bị ảnh hưởng nhiều nhiễu Điều cho thấy mơ hình chúng tơi đề xuất có độ tin cậy cao, ổn định hồn tồn có khả ứng dụng vào thực tiễn Trang 73/81 CHƯƠNG TỔNG KẾT Chương Tổng kết Trong chương cuối, tổng kết lại trình làm luận văn tốt nghiệp này, kết đạt được, hạn chế đọng lại đề xuất phương hướng phát triển cho nghiên cứu tương lai 8.1 Kết đạt Để tổng kết lại tìm hiểu, nghiên cứu thực giai đoạn luận văn, đạt kết sau: • Bước đầu có hiểu biết lĩnh vực học máy, học sâu, biết đề tài, hướng nghiên cứu, mơ hình phổ biến lĩnh vực mà doanh nghiệp, nhà nghiên cứu, sinh viên, thực để đưa chúng từ học thuật sang áp dụng vào công nghiệp sống • Chọn tốn có tính ứng dụng cao để tập trung tìm hiểu có động lực để thực, góp phần đẩy nhanh trình chuyển đổi số doanh nghiệp, tổ chức • Lựa chọn phương pháp phù hợp để thực đánh giá, bước đầu cho kết khả quan • Nắm quy trình nghiên cứu khoa học lĩnh vực học máy, từ việc khảo sát tốn, tính ứng dụng đến phương pháp, mơ hình tiếp cận giải tốn, biết cách phân tích, đánh giá chọn lựa hướng tiếp cận thích hợp, thực, cải tiến phát triển toán Trang 74/81 CHƯƠNG TỔNG KẾT • Đề xuất hướng phát triển cho tốn, mục đích mở rộng tốn Trích xuất thơng tin văn hành áp dụng dễ vào sống, đồng thời ứng dụng vào tốn tương tự khác, kiểu văn khác hóa đơn, văn phi cấu trúc 8.2 Hạn chế Sau trình thử nghiệm đánh giá kết quả, thẳng thắn hạn chế nghiên cứu: • Mơ-đun Phát vùng văn cịn nhiều nhiễu, chưa thể tách vùng văn dịng • Mơ-đun Nhận diện ký tự quang học chưa thực tốt, nhiều ký tự nhận diện sai, đặc biệt đoạn văn có chèn chữ viết tay chữ ký • Mơ-đun Trích xuất thơng tin chúng tơi sử dụng đặc trưng vị trí ngữ nghĩa, chưa tận dụng đặc trưng hình ảnh Bên cạnh mơ-đun bị phụ thuộc nhiều vào đặc trưng ngữ nghĩa (kết trình Nhận diện ký tự quang học), kết trích xuất khơng tốt kết nhận diện khơng tốt • Do thời gian làm luận văn hạn chế, nên có nhiều hướng tiếp cận khác nhóm chưa thể thực để đánh giá kết cách khách quan, mà chủ yếu tập trung vào hướng tiếp cận đề xuất gần • Do đặc thù liệu, nguồn liệu hạn chế, số lượng nhãn hình thức gán nhãn đặc thù nên nhóm nhiều thời gian để thu thập gán nhãn liệu 8.3 Phương hướng phát triển Dựa vào kết mơ-đun tồn hệ thống, chúng tơi nhận thấy rằng, hệ thống cần phải nâng cấp đạt độ tin cậy ổn định để ứng dụng vào thực Cụ thể đề phương hướng phát triển sau: • Nghiên cứu phát triển thêm mơ-đun Phát vùng văn bản, tăng cường hậu xử lý, nhằm giải vùng bị nhiễu, tách thực thể dòng, nhận diện Trang 75/81 CHƯƠNG TỔNG KẾT liệu bảng Chúng đề xuất thử nghiệm thêm mơ FPN [42], Mask-RCNN [43], FCN [44] nhằm cải tiến độ xác mơ-đun • Với mơ-đun Nhận diện ký tự quang học, để tăng độ xác giải với văn chữ viết tay, thay sử dụng Tesseract OCR, đề xuất nghiên cứu, ứng dụng phát triển thuật toán học sâu đại khác CRNN + CTCLoss [33], mơ hình Multi-scale CRNN [29] • Với mơ-đun Trích xuất thơng tin, tiến hành nghiên cứu giải pháp, xây dựng thử nghiệm mơ hình GNN cấu trúc đồ thị khác nhau, áp dụng thêm đặc trưng hình ảnh ngồi đặc trưng vị trí ngữ nghĩa • Tiến hành thu thập thêm loại văn hành khác nhau, đa dạng thêm liệu loại văn bản, cấu trúc, bố cục, nhằm giúp mơ hình có độ tổng qt cao • Xây dựng hoàn thiện ứng dụng hoạt động ổn định, thân thiện với người dùng Hình 8.1: Một mẫu văn hành có cấu trúc khác Trang 76/81 CHƯƠNG TỔNG KẾT Kế hoạch thực luận văn Để luận văn thực cách thuận tiện nhất, lên bảng kế hoạch công việc cần thực phân bổ thời gian trình bày cụ thể Bảng 8.1 Bảng 8.1: Kế hoạch thực luận văn Thu thập , xử lý gán nhãn liệu 10 11 12 13 14 15 Thắng + Linh Huấn luyện mô-đun Phát vùng văn Thắng Đánh giá mô-đun Phát vùng văn Thắng Huấn luyện mô-đun Nhận diện ký tự quang học Linh Đánh giá mô-đun Nhận diện ký tự quang học Linh Hiện thực mơ-đun Trích xuất thơng tin Thắng + Linh Huấn luyện mơ-đun Trích xuất thơng tin Thắng +Linh Đánh giá cải tiến mơ-đun Trích xuất thơng tin Thắng + Linh Hiện thực end-to-end pipeline Thắng + Linh Xây dụng Web Service: Backend Thắng Xây dụng Web Service: Frontend Linh Viết báo cáo + Bài thuyết trình Thắng + Linh Trang 77/81 TÀI LIỆU THAM KHẢO Tài liệu tham khảo [1] Văn hành (Việt Nam) Wikipedia Website https://vi.wikipedia.org/wiki/Văn_ bản_hành_chính_(Việt_Nam) Accessed: 2020-12-20 [2] ASU Website https://askabiologist.asu.edu/neuron-anatomy Accessed: 2020-12-20 [3] Wikipedia Website https://en.wikipedia.org/wiki/Neuron Accessed: 2020-12-20 [4] Wikipedia Website https://en.wikipedia.org/wiki/File:Colored_neural_network.svg Accessed: 2020-12-20 [5] Junxi Feng et al “Reconstruction of porous media from extremely limited information using conditional generative adversarial networks” In: Physical Review E 100 (Sept 2019) DOI: 10.1103/PhysRevE.100.033308 [6] Convolution - Tích chập giải thích code thực tế Website https://techmaster.vn/posts/ 35474/convolution-tich-chap-giai-thich-bang-code-thuc-te Accessed: 2020-12-20 [7] Convolutional Neural Networks (CNNs / ConvNets) Website https://cs231n.github.io/ convolutional-networks/ Accessed: 2020-12-20 [8] Vincent Dumoulin and Francesco Visin “A guide to convolution arithmetic for deep learning” In: arXiv preprint arXiv:1603.07285 (2016) [9] Medium Website https://miro.medium.com/max/700/1*FHPUtGrVP6fRmVHDn3A7Rw png Accessed: 2020-12-20 [10] Sergey Ioffe and Christian Szegedy “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift” In: CoRR abs/1502.03167 (2015) arXiv: 1502.03167 URL: http://arxiv.org/abs/1502.03167 [11] A Comprehensive Guide to Convolutional Neural Networks — the ELI5 way Medium Website https : / / towardsdatascience com / a - comprehensive - guide - to - convolutional neural-networks-the-eli5-way-3bd2b1164a53 Accessed: 2020-12-20 Trang 78/81 TÀI LIỆU THAM KHẢO [12] Guoyou Shi Miao Gao and Shuang Li “Online Prediction of Ship Behavior with Automatic Identification System Sensor Data Using Bidirectional Long Short-Term Memory Recurrent Neural Network” In: (2018) [13] Recurrent Neural Networks Tutorial, Part – Introduction to RNNs WILDML Website http : / / www wildml com / 2015 / 09 / recurrent - neural - networks - tutorial - part - introduction-to-rnns/ Accessed: 2020-12-20 [14] Kenneth H Rosen and Kamala Krithivasan Discrete mathematics and its applications: with combinatorics and graph theory Tata McGraw-Hill Education, 2012, pp 641–642, 644 [15] Graph Representations https://www.javatpoint.com/graph-theory-graph-representations Accessed: 2021-07-01 [16] Overfitting Machinelearningcoban Website https://machinelearningcoban.com/2017/ 03/04/overfitting/ Accessed: 2020-12-20 [17] Nitish Srivastava et al “Dropout: a simple way to prevent neural networks from overfitting” In: The journal of machine learning research 15.1 (2014), pp 1929–1958 [18] Welcome to Deep Graph Library Tutorials and Documentation Website https://docs.dgl ai/ Accessed: 2021-5-22 [19] OpenCV Homepage Website https://opencv.org/about/ Accessed: 2021-5-22 [20] Chargrid Medium Website https://miro.medium.com/max/2400/1*hxqXWHSudW28GawV7LpdQ.png Accessed: 2020-12-20 [21] Chargrid Medium Website https://miro.medium.com/max/700/1*ylud6L7kXwWJvJFw2bMy9Q png Accessed: 2020-12-20 [22] Anoop R Katti et al “Chargrid: Towards Understanding 2D Documents” In: CoRR abs/1809.08799 (2018) arXiv: 1809.08799 URL: http://arxiv.org/abs/1809.08799 [23] Chargrid pipeline Medium Website https://miro.medium.com/max/700/1*t50xsZkQqhlv3jInRe2Isw png Accessed: 2020-12-20 [24] FPT FPT AI Vision Documentation Website https : / / docs fpt / docs / en / vision / documentation/id-recognition Accessed: 2020-12-22 Trang 79/81 TÀI LIỆU THAM KHẢO [25] Xinyu Zhou et al “EAST: An Efficient and Accurate Scene Text Detector” In: CoRR abs/1704.03155 (2017) arXiv: 1704.03155 URL: http://arxiv.org/abs/1704.03155 [26] Youngmin Baek et al “Character Region Awareness for Text Detection” In: CoRR abs/1904.01941 (2019) arXiv: 1904.01941 URL: http://arxiv.org/abs/1904.01941 [27] Zhi Tian et al “Detecting Text in Natural Image with Connectionist Text Proposal Network” In: CoRR abs/1609.03605 (2016) arXiv: 1609.03605 URL: http://arxiv.org/abs/ 1609.03605 [28] Olaf Ronneberger, Philipp Fischer, and Thomas Brox “U-Net: Convolutional Networks for Biomedical Image Segmentation” In: CoRR abs/1505.04597 (2015) arXiv: 1505 04597 URL: http://arxiv.org/abs/1505.04597 [29] Yulei Zhao, Wenyuan Xue, and Qingyong Li “A multi-scale CRNN model for Chinese papery medical document recognition” In: 2018 IEEE Fourth International Conference on Multimedia Big Data (BigMM) IEEE 2018, pp 1–5 [30] Kai Wang, Boris Babenko, and Serge Belongie “End-to-end scene text recognition” In: 2011 International Conference on Computer Vision IEEE 2011, pp 1457–1464 [31] Cong Yao et al “Strokelets: A learned multi-scale representation for scene text recognition” In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014, pp 4042–4049 [32] Lukáˇs Neumann and Jiˇrı Matas “Real-time scene text localization and recognition” In: 2012 IEEE Conference on Computer Vision and Pattern Recognition IEEE 2012, pp 3538–3545 [33] Baoguang Shi, Xiang Bai, and Cong Yao “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition” In: IEEE transactions on pattern analysis and machine intelligence 39.11 (2016), pp 2298–2304 [34] Ray Smith “An overview of the Tesseract OCR engine” In: Ninth international conference on document analysis and recognition (ICDAR 2007) Vol IEEE 2007, pp 629– 633 [35] Will Hamilton, Zhitao Ying, and Jure Leskovec “Inductive representation learning on large graphs” In: Advances in neural information processing systems 2017, pp 1024– 1034 Trang 80/81 TÀI LIỆU THAM KHẢO [36] Petar Veliˇckovi´c et al “Graph attention networks” In: arXiv preprint arXiv:1710.10903 (2017) [37] Zonghan Wu et al “A comprehensive survey on graph neural networks” In: IEEE Transactions on Neural Networks and Learning Systems (2020) [38] Stanford GraphSAGE: Inductive Representation Learning on Large Graphs http://snap stanford.edu/graphsage/ Accessed: 2020-12-26 [39] D Lohani, A Belaăd, and Y Belaăd “An Invoice Reading System Using a Graph Convolutional Network” In: Computer Vision – ACCV 2018 Workshops Ed by Gustavo Carneiro and Shaodi You Cham: Springer International Publishing, 2019, pp 144–158 ISBN : 978-3-030-21074-8 [40] Thanh Vu et al “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit” In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations New Orleans, Louisiana: Association for Computational Linguistics, June 2018, pp 56–60 DOI : 10.18653/v1/N18- 5012 URL : https://www.aclweb.org/anthology/N18-5012 [41] Dat Quoc Nguyen and Anh Tuan Nguyen “PhoBERT: Pre-trained language models for Vietnamese” In: Findings of the Association for Computational Linguistics: EMNLP 2020 Online: Association for Computational Linguistics, Nov 2020, pp 1037–1042 DOI : 10.18653/v1/2020.findings-emnlp.92 URL : https://www.aclweb.org/anthology/ 2020.findings-emnlp.92 [42] Tsung-Yi Lin et al “Feature pyramid networks for object detection” In: Proceedings of the IEEE conference on computer vision and pattern recognition 2017, pp 2117–2125 [43] Kaiming He et al “Mask r-cnn” In: Proceedings of the IEEE international conference on computer vision 2017, pp 2961–2969 [44] Jonathan Long, Evan Shelhamer, and Trevor Darrell “Fully convolutional networks for semantic segmentation” In: Proceedings of the IEEE conference on computer vision and pattern recognition 2015, pp 3431–3440 Trang 81/81 ... chức, văn hành cần trích xuất thơng tin đặc trưng trước đưa vào khâu quản lý Khi đó, nhu cầu trích xuất thông tin từ văn trở thành nhu cầu thiết yếu Hiện tại, việc trích xuất thơng tin từ văn hành. .. bản, Trích xuất trang văn bản, Tóm tắt văn Các phương pháp đề xuất nhằm giải toán nhiều đạt kết tốt Tuy nhiên, đề cập phần trên, mong muốn luận văn Xây dựng mơ hình trích xuất thơng tin văn hành. .. tơi đề xuất xây dựng hệ thống trích xuất thơng tin từ hình ảnh văn hành cách tự động nhiều loại, nhiều cách thức trình bày khác Trong giới hạn luận văn tập trung giải vấn đề xung quanh văn hành

Tiêu đề	Xây Dựng Mô Hình Trích Xuất Thông Tin Trong Các Văn Bản Hành Chính
Tác giả	Nguyễn Hữu Thắng, Lê Cường Linh
Người hướng dẫn	TS. Trần Tuấn Anh, TS. Nguyễn Tiến Thịnh, ThS. Trần Hồng Tài
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn tốt nghiệp đại học
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	89
Dung lượng	3,87 MB

Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính

Kiến trúc mạng nơ-ron tích chập Nguồn [11]

Kiến trúc mô hình U-Net Nguồn [28]