Kiến trúc mô hình U-Net Nguồn [28]

Một phần của tài liệu Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính (Trang 53 - 55)

8 Tổng kết

5.2 Kiến trúc mô hình U-Net Nguồn [28]

Kết quả của quá trình này, cụ thể là nội dung của vùng văn bản phải có sự tương đồng cao với ngữ nghĩa của vùng văn bản trong ảnh đầu vào.

Đây là bước tiếp theo trong quy trình của chúng tôi. Chúng tôi sử dụng để lấy ra được thông tin về nội dung, cụ thể là các ký tự của các vùng văn bản trong ảnh của các vùng trong văn bản

hành chính, mục đích để chuẩn bị dữ liệu đầu vào cho quá trìnhTrích xuất thông tinbên dưới.

Đầu vào của mô-đunNhận diện ký tự quang học sẽ là hình ảnh có chứa vùng văn bản mà

con người có thể đọc, hiểu được. Ở đầu ra, ta sẽ nhận được chuỗi ký tự có ý nghĩa, chính là nội dung của vùng văn bản đó. Để tăng độ chính xác của quá trình này, chúng ta có thể kết hợp hậu xử lý hoặc các kỹ thuật xử lý ngôn ngữ tự nhiên nhằm tăng độ chính xác cho mô-đun.

Hình 5.3: Mô phỏng nhận diện ký tự quang học cơ bản. Đầu vào (bên trái mũi tên) nhận hình

ảnh chứa các vùng văn bản và đầu ra (bên phải mũi tên) của quá trìnhNhận diện ký tự quang

học.

Bài toán Nhận diện ký tự quang học có một lịch sử phát triển khá lâu, và có nhiều phương

pháp được đề xuất để giải quyết vấn đề này. Hiện nay có 2 hướng tiếp cận chính đó làbottom-up

• Bottom-up: Hay còn gọi là hướng tiếp cận theoký tự. Ảnh đầu vào sẽ thực hiện bước phát

hiện từng ký tự riêng biệt trước dựa trên cửa số trượt (sliding window [30]), Hough voting [31] hoặc vùng kết nối [32], sau đó mới kết hợp chúng lại thành chuỗi văn bản hoàn chỉnh.

• Top-down: Hay còn gọi là hướng tiếp cận theo chuỗi ký tự, điển hình như Convolutional

Recurrent Neural Network [33] (CRNN). Hướng tiếp cận này sẽ dự đoán trực tiếp nội dung, cụm ký tự trên ảnh đầu vào mà không cần phải phát hiện từng ký tự riêng rẽ trước. Hướng tiếp cận này tỏ ra hiệu quả hơn so với hướng tiếp cận bottom-up và cũng đang là hướng tiếp cận phổ biến cho bài toán Nhận diện ký tự quang học.

Hiện nay, với sự phát triển của lĩnh vực học sâu, có rất nhiều mô hình và công cụ được phát triển cho bài toán Nhận diện ký tự quang học và đã được ứng dụng vào công nghiệp, có thể kể đến như mô hình CRNN [33], mô hình Multi-scale CRNN [29], công cụ Tesseract OCR [34],... Trong đó công cụ Tesseract OCR do Google phát triển và liên tục được cập nhật, được đánh giá là công cụ nhận diện ký tự quang học ổn định, hiệu quả và cho độ chính xác cao, hỗ trợ hơn 100 ngôn ngữ trên toàn thế giới, trong đó có Tiếng Việt. Là phần mềm miễn phí, được phát hành theo giấy phép Apache 2.0, chạy được trên nhiều nền tảng hệ điều hành như Window, Linux, MacO,... Tesseract OCR được nhiều tổ chức và doanh nghiệp sử dụng.

Để cân bằng thời gian, nguồn lực cũng như tập trung vào trọng tâm chính bài toán là phần

Trích xuất thông tin, chúng tôi đề xuất sử dụng lại công cụ Tesseract OCR cho quá trìnhNhận

diện ký tự quang học.

5.3 Trích xuất thông tin5.3.1 Định nghĩa bài toán 5.3.1 Định nghĩa bài toán

Trích xuất thông tin - Information Extraction là quá trình cuối cùng trong toàn bộ hệ thống xử lý văn bản. Nhiệm vụ của quá trình này là trích xuất tự động thông tin có cấu trúc từ các tài liệu không có cấu trúc hoặc bán cấu trúc mà máy tính có thể đọc được. Mục đích của quá trình này là lựa chọn được các trường thông tin quan trọng, giúp dễ dàng chắt lọc, tóm tắt được các thông tin cần lưu trữ, từ đó giảm chi phí lưu trữ và xử lý về sau. So với sự phát triển khá sớm và mạnh mẽ của quá trình Phát hiện vùng văn bản và Nhận diện ký tự quang học, quá trình Trích xuất thông tin mới được chú ý gần đây và đang dần phát triển.

Hiện nay đã có khá nhiều hướng tiếp cận để giải quyết bài toán này và đạt được những kết quả khá tốt. Tuy nhiên chúng vẫn chứa những hạn chế nhất định. Phương pháp tiếp cập theo hướng ngôn ngữ tự nhiên như Nhận dạng tên thực thể (Name Entity Recognition) chỉ có thể tận dụng được đặc trưng về mặt ngữ nghĩa mà không quan tâm đến đặc trưng về bố cục, không gian, vị trí của các thực thể (kết quả của quá trình Phát hiện vùng văn bản). Phương pháp tiếp cận theo hướng thị giác máy tính như Khớp mẫu (Template-Base Matching) thì chỉ tập trung vào đặc trưng về bố cục, vị trí mà bỏ qua thông tin về mặt ngữ nghĩa (kết quả quá trình Nhận diện ký tư quang học). Phân tích cụ thể chúng tôi đã trình bày trong Phần 3.1.

Một cách trực quan, cả thông tin về vị trí và ngữ nghĩa đều rất quan trọng trong thực tế. Do đó, cần có phương pháp có thể tận dụng tối đa cả 2 thông tin này.

Qua quá trình tìm hiểu và nghiên cứu, chúng tôi dề xuất xử dụng phương pháp Mạng nơ-ron tích chập trên đồ thị (Convolutional Neural Network) cho bài toán Trích xuất thông tin. Hướng tiếp cận này được đánh giá là sẽ tận dụng tối đa cả thông tin về mặt vị trí lẫn ngữ nghĩa thu được từ văn bản, khắc phục được hạn chế của các hướng tiếp cận trước đây. Từ đó mong muốn tạo được tính tổng quát và độ chính xác cao.

Chúng tôi giải quyết bài toán Trích xuất thông tin theo hướng phân loại nốt (Node Classi- fication). Đầu vào của mô hình là thông tin về vị trí (kết quả của quá trình Phát hiện vùng văn bản) và thông tin về ngữ nghĩa của thực thể (kết quả của quá trình Nhận diện ký tự quang học), đầu ra sẽ là kết quả dự đoán phân loại ngữ nghĩa thực thể đó. Mô phỏng quá trình được thể hiện trong Hình 5.4.

(a) Đầu vào (b) Đầu ra

Một phần của tài liệu Xây dựng mô hình trích xuất thông tin trong các văn bản hành chính (Trang 53 - 55)

Tải bản đầy đủ (PDF)

(89 trang)