8 Tổng kết
6.3 Kết quả sơ khai của graph modeling Các bounding box viền xanh thể hiện vùng
và các đoạn thẳng màu đỏ thể hiện liên kết giữa các nút với nhau.
isAlphaNumberic (ký tự và số hay không),... Ý tưởng chính của đặc trưng này dựa trên
đề xuất của tác giả D. Lohan, A. Belaıd và Y. Belaıd [39].
• Đặc trưng tần suất - Frequency features: Nội dung ngữ nghĩa bên trong một trường thông
tin (nút) thường có sự chênh lệch lớn về số lượng từ (word). Chúng tôi đề xuất đặc trưng tần suất để tận dụng triệt để thông tin về mặt cú pháp. Một số đặc trưng tần suất được đề
xuất như:FreNumberic(tần suất các ký tự số),FreAlphabetic(tần suất các ký tự chữ),...
• Đặc trưng ngữ nghĩa - Semantic features: Đặc trưng ngữ nghĩa được tổng hợp qua nhiều
bước được chúng tôi đề xuất. Đầu tiên, do đặc thù của văn bản Tiếng Việt được cấu tạo từ một tiếng hoặc nhiều tiếng nên mô hình cần áp dụng một phương pháp phân đoạn từ khác biệt các ngôn ngữ khác. Vì thế, nội dung thô được trích xuất từ bước Phát hiện vùng văn bản sẽ được cho qua mô hình phân đoạn từ VnCoreNLP [40] được đề xuất bởi tác giả Thanh Vu và các đồng giả khác. Sau đó, các từ đã được phân đoạn sẽ được qua mô hình ngôn ngữ cho Tiếng Việt PhoBERT [41] được đề xuất bởi hai tác giả người Việt Nam
Nguyen Dat Quoc và Tuan Nguyen Anh. Do nội dung bên trong các trường thông tin của văn bản hành chính thường với số lượng từ chênh lệnh nên chúng tôi đề xuất dùng một mạng LSTM để đảm bảo tổng hợp thông tin từ các nội dung với số lượng từ khác nhau về cùng một kích thước sao cho vẫn giữ được các thông tin có ý nghĩa cho việc thực hiện Phân lớp đỉnh.
6.3.3 Kiến trúc mô hình
Về kiến trúc mô hình, dựa trên các mô hình trích xuất thông tin được chúng tôi đề xuất ở Phần 5.3 và cách chúng tôi mã hóa dữ liệu đầu vào, chúng tôi tiến hành nghiên cứu và đề xuất hai kiến trúc chính, được thể hiện trong Hình 6.4 và Hình 6.5.