Chargrid pipeline Nguồn [23]

Một phần của tài liệu Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính (Trang 45 - 50)

8 Tổng kết

3.4 Chargrid pipeline Nguồn [23]

loại thông tin chính trong văn bản và hộp giới hạn (bounding boxes) thể hiện vị trí của các loại văn bản trên ảnh văn bản như trên Hình 3.4.

Chargrid đã chứng minh được tính khả thi trong các bài toán liên quan đến trích xuất thông tin trong hầu như các loại trường trên dữ liệu hóa đơn, trong khi các cách tiếp cận theo thị giác máy tính cũng như xử lý ngôn ngữ tự nhiên chỉ tốt trên một vài trường.

3.1.4 Cách tiếp cận theo mạng nơ-ron tích chập trên đồ thị (GNN-basedapproaches) approaches)

Trước khi đi vào trình bày về cách tiếp cận này, chúng ta cần hiểu rõ đôi chút về khái niệm dạng dữ liệu Euclidean (Euclidean data) và dạng dữ liệu non-Euclidean (non-Euclidiean data).

Dữ liệu Euclidean là dạng dữ liệu có cấu trúc Euclidean, được biểu biễn trong không gian

số Thựcnchiều tuyến tính (n-dimensional linear space), tức không gian Euclidean mà vẫn giữ

nguyên được các đặc trưng, tính liên kết của dữ liệu. Ví dụ như biểu diễn một tấm hình xám

trong không gian 3 chiều (3-D), trong đóxvà ylà tọa độ ứng với vị trí của từng điểm ảnh, còn

tọa độz chính là giá trị của điểm ảnh đó.

Ngược lại với dữ liệu Euclidean, dữ liệu non-Euclidean là dạng dữ liệu có cấu trúc non- Eclidean, tức không thể biểu diện tập dữ liệu này trong không gian Euclidean, vì sẽ bị mất đi thông tin, đôi khi là những thông tin rất quan trọng. Ví dụ như tập dữ liệu mạng xã hội (Social Network), nếu chúng ta cố gắng nhúng chúng về không gian Euclidean, chúng ta sẽ mất đi các thông tin như độ mạnh mối quan hệ giữa 2 người (độ lớn của các cạnh nối 2 đỉnh) hoặc trật tự của các mối quan hệ (hướng của các cạnh). Hiển nhiên chúng ta có thể nhúng chúng sang chiều không gian lớn hơn, nhưng điều đó là không thực sự tốt vì số lượng đặc trưng sinh ra có thể rất lớn và đôi khi còn tạo ra các tương quan giả.

Đối với các dạng dữ liệu non-Euclidean như trong bài toán văn bản hành chính, Chargrid không thể biểu diễn được các mỗi quan hệ phức tạp và sự phụ thuộc lẫn nhau giữa các đối tượng.

Song, cùng với các giải pháp áp dụng mạng tích chập trên đồ thị (Graph neural network) đang ngày càng phát triển và đã chứng minh được tính khả thi trong các bài toán phân loại nút (node classification), phân loại đồ thị (graph classification), mạng trích dẫn (citation networks), hệ thống gợi ý (recommendation system) và đặc biệt gần đây đã có một vài ứng dụng vào trong trích xuất thông tin. Dựa trên những ưu và nhược điểm của từng cách tiếp cận, chúng tôi đề xuất chọn mạng nơ-ron tích chập trên đồ thị để giải quyết bài toán này.

3.2 Khảo sát tính ứng dụng

Hệ thống trích xuất văn bản tự động đã được ứng dụng vào một số bài toán như:

• Trích xuất thông tin hóa đơn. Một vài công bố (publication) đã chứng minh được tính khả

thi của mô hình GNN trong việc trích xuất những thông tin quan trọng trong hóa đơn. Điển hình là mô hình được đề xuất bởi tác giả D. Lohani và các đồng tác giả với 28 loại thông tin như (Invoice number, Invoice date, Company name, Company address,...) đã chứng minh được tính khả thi của mạng nơ-ron tích chập trên đồ thị đối với bài toán trích xuất thông tin.

• Trích xuất các thông tin từ các loại giấy tờ tùy thân như chứng minh nhân dân, Hộ khẩu,

Hộ chiếu,...) để xác nhận danh tính một cách tự động, không cần đến quầy. Hiện tại, Việt Nam đã có một vài sản phẩm trích xuất thông tin trên thị trường. Điển hình các hệ thống xác nhận danh tính của ngân hàng và FPT.AI Vision với độ chính xác cao [24].

Mục tiêu xa hơn, hệ thống mong muốn có thể áp dụng được trên các loại format khác nhau. Nhằm giải quyết các vấn đề về trích xuất thông tin tự động trong hầu hết các lĩnh vực.

3.3 Khảo sát thách thức

Tuy bài toán về trích xuất thông tin trong các loại văn bản đã xuất hiện từ rất lâu, nhưng đến nay vẫn chưa có phương pháp nào có thể áp dụng để giải quyết triệt để và thống nhất. Mỗi phương pháp đều có nhược điểm riêng của nó (như đã được trình bày trong phần Khảo sát phương pháp. Trong đề tài này, chúng tôi chọn cách tiếp cận theo hướng graph-base approach, sử dụng graph neural network để trích xuất thông tin văn bản hành chính trong khi vẫn tận dụng được các

thông tin về mặt không gian, nội dung và thể hiện được các mối quan hệ phức tạp cũng như phụ thuộc lẫn nhau giữa các trường thông tin.

Các giải pháp về trích xuất thông tin bằng phương pháp sử dụng graph neural network vẫn chưa thực hiện tốt trên nhiều loại format khác nhau. Vì vậy, bước đầu chúng ta sẽ thử nghiệm trên một số mẫu format nhất định. Sau đó sẽ thử nghiệm thêm một số loại format khác để quan sát khả năng áp dụng của mô hình nên các loại văn bản khác nhau.

Chương 4 Tập dữ liệu

4.1 Chuẩn bị dữ liệu

Hiện nay, dữ liệu cho các bài toán trích xuất thông tin từ văn bản hành chính vẫn chưa được công bố nhiều do đặc tính bảo mật của chúng. Hơn nữa, dựa vào tính đặc thù của dự án, cũng như hướng tiếp cận và cách thức gán nhãn, chúng tôi chưa thấy tập dữ liệu bào thực sự phù hợp. Vì thế, chúng tôi đã tự thu thập và gán nhãn bằng tay toàn bộ tập dữ liệu để phù hợp cho cách tiếp cận của chúng tôi.

Tập dữ liệu bao gồm tổng cộng 194 ảnh màu và trắng đen được scan bằng máy và được chụp từ điện thoại của đa dạng các loại văn bản hành chính Tiếng Việt của nhiều cơ quan tổ chức khác nhau. Chúng tôi đảm bảo một số ràng buộc đó là hướng của ảnh đúng với hướng đọc của mắt người, từng dòng và toàn bộ văn bản nghiêng không quá 5 độ, không bị biến dạng quá nhiều do các tác động vật lý và diện tích văn bản chiếm 100% diện tích của toàn bức ảnh.

Dữ liệu văn bản hành chính được gán nhãn dưới 3 cấp độ khác nhau:

Vị trí vùng văn bản: Được gán nhãn dưới dạng vị trí, thể hiện bằng điểm trên-trái và

dưới-phải của hộp giới hạn hình chữ nhật, phục vụ cho mô-đun Phát hiện vùng văn bản.

Nội dung vùng văn bản: Được gán nhãn dưới dạng văn bản (text), chính là nội dung của

vùng văn bản đó, phục vụ cho mô-đun Nhận diện ký tự quang học.

Ngữ nghĩa vùng văn bản: Được gán nhãn dưới dạng loại đối tượng, phục vụ cho mô-đun

Bảng 4.1: Các loại nhãn được sử dụng trong quá trình gán nhãn ngữ nghĩa vùng văn bản.

Index Tên lớp Ý nghĩa

0 DATE Ngày xuất trình văn bản

1 K_HEADING Khóa - Tiêu đề

2 V_HEADING Giá trị - Tiêu đề

3 K_REC Khóa - Nơi nhận

4 V_REC Giá trị - Nơi nhận

5 K_SIGN Khóa - Người ký

6 V_SIGN_NAME Giá trị - Họ tên người ký

7 O_DEPART Tổ chức, bộ phận

8 K_INDEX Khóa - Mã số văn bản

9 V_INDEX Giá trị - Mã số văn bản

10 HEADER Nhà nước

11 NOTE Các ghi chú

12 K_SENDTO Khóa - Kính gửi

13 V_SENDTO Giá trị - Kính gửi ai

14 O_PROVINCE Địa chỉ tổ chức

15 V_CONTAIN Thông tin chi tiết

4.2 Thống kê dữ liệu

Tập dữ liệu của chúng tôi bao gồm 194 tấm ảnh, đại diện cho 194 tờ văn bản hành chính khác nhau. Trong đó gồm các loại như thông báo, quyết định, hướng dẫn,... được chúng tôi chia thành 3 loại lớn với số lượng như sau:

Quyết định: 87 mẫu.

Thông báo: 25 mẫu.

Các loại khác: 82 mẫu.

Tập dữ liệu được chia thành ba tập dữ liệu nhỏ có tỉ lệ như nhau cho các loại loại giấy tờ (quyết định, thông báo và các loại còn lại) như sau:

Tập huấn luyện(training set): gồm 57 mẫu quyết định, 16 mẫu thông báo và 53 mẫu các loại giấy tờ khác.

Tập kiểm thử(validation set): gồm 17 mẫu quyết định, 5 mẫu thông báo và 16 mẫu các

loại giấy tờ khác.

Tập kiểm tra(testing set): gồm 13 mẫu quyểt định, 4 mẫu thông báo và 13 mẫu các loại

giấy tờ khác.

Lưu ý, cách chia tập dữ liệu này sẽ được sử dụng xuyên suốt cho tất cả các mô-đun bên trong bài toán này cũng như cho đánh giá toàn bộ hệ thống.

Tập dữ liệu phân bổ số lượng trường thông tin có sự chênh lệch giữa V_CONTAIN và các trường thông tin khác. Cụ thể được thể hiện thông qua Hình 4.1.

Một phần của tài liệu Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính (Trang 45 - 50)

Tải bản đầy đủ (PDF)

(89 trang)