TRIỂN KHAI VÀ ĐÁNH GIÁ

Một phần của tài liệu Ứng dụng học máy trong nhận dạng công văn các cơ quan đảng tỉnh quảng bình (Trang 45 - 50)

Trong chương 3, tác giả xin được trình bày bài toán ứng dụng học máy trong nhận dạng công văn tại các cơ quan Đảng tỉnh Quảng Bình. Ở chương này, tác giả xây dựng quá trình thực nghiệm và đánh giá kết quả.

3.1. Mô tả bài toán

Cho n văn bản thuộc các thể loại khác khác nhau. Yêu cầu đặt ra là cần phải xây dựng một ứng dụng thử nghiệm sử dụng thư viện Tessract4, bộ thư viện có chức năng nhận dạng ký tự từ hình ảnh dựa vào tập dữ liệu training sẵn có của nó nhận dạng văn bản thuộc thể loại văn bản nào dựa vào bộ dữ liệu mẫu đã được huấn luyện theo các thể loại khác nhau.

Như đã phân tích ở các phần trên, trong phạm vi đề tài này, luận văn xây dựng mô hình nhận dạng văn bản thể hiện mô hình hoạt động theo hình 3.1:

Hình 3. 1: Mô hình hoạt động

3.1.1. Nhận văn bản đầu vào

Thông thường, ảnh văn bản được thu nhận dưới rất nhiều dạng bao gồm ảnh quét/chụp bằng các công cụ quang học (máy ảnh, máy quét,...), ngoài ra còn có ảnh được tạo ra bởi các ứng dụng số như các trình biên tập hình ảnh (Photoshop, Corel Draw,...) hay ảnh chụp màn hình. Vì vậy chất lượng định dạng ảnh đầu vào sẽ rất khác nhau từ tập tin PDF đến các định dạng ảnh thông dụng khác như JPG, PNG, BMP,...

đòi hỏi cần phải được đưa về một định dạng ảnh chung nhất để tiện cho việc xử lý. Ở

đây, chương trình đưa về định dạng ảnh PNG trước lúc tiến hành tiền xử lý ảnh.

3.1.2. Tiền xử lý

Văn bản trước khi xử lý cần phải được tiền xử lý như chuyển đổi ảnh đen trắng, nếu ảnh từ máy quét có thể chứa độ nghiêng thì phải được khử nghiêng. Mặt khác, ngôn ngữ Java cung cấp thư viện xử lý ảnh hỗ trợ nhiều lớp lọc ảnh như tăng độ tương phản, trơn ảnh... cải thiện chất lượng ảnh. Các file ảnh sau đó crop theo kích thước đã cho trước để được hình ảnh chứa vùng cần trích xuất thông tin đặc trưng để nhận dạng văn bản.

3.1.3. Nhận dạng

Để có thể sử dụng các thư viện Tesseract trong dự án Java, trong chương trình sử dụng trình hỗ trợ quản lý thư viện Maven của Java nhằm tự động cập nhật đầy đủ các thư viện cần thiết trong nhận dạng tiếng việt in. Trong phần nhận dạng này tác giả sử dụng công nghệ Tesseract để nhận dạng văn bản đó là thể loại văn bản nào.

Tesseract phiên bản hiện nay hỗ trợ chế độ nhận dạng văn bản ảnh số theo chế độ phân đoạn trang (PSM):

- PSM_AUTO_ONLY: phân đoạn trang tự động.

- PSM_AUTO: phân đoạn trang tự động đầy đủ, hỗ trợ nhận dạng toàn văn bản.

- PSM_SINGLE_COLUMN: nhận dạng văn bản có một cột với những kích cỡ phông chữ khác nhau.

- PSM_SINGLE_BLOCK: nhận dạng hình ảnh chứa một khối văn bản chuẩn.

- PSM_SINGLE_LINE: nhận dạng hình ảnh văn bản nếu chỉ chứa một dòng.

- PSM_SINGLE_WORD: nhận dạng hình ảnh văn bản nếu chỉ chứa một từ.

Khi trích xuất được chuổi dữ liệu cần nhận dạng, hệ thống sẽ so sánh với cơ sở dữ liệu đã lưu trước đó để nhận ra dạng văn bản thuộc thể loại nào.

3.2. Môi trường thực nghiệm 3.2.1. Dữ liệu sử dụng

Luận văn xây dựng ứng dụng nhận dạng công văn trong các cơ quan Đảng tỉnh Quảng Bình bao gồm những chức năng sau đây:

Nhận dạng văn bản có sẵn trong máy tính với 200 văn bản lưu trữ từ trước có đuôi .PDF, .JPG.

Kiểm tra văn bản nhận dạng có chính xác hay không.

Môi trường thử nghiệm:

Phần cứng: Máy tính Core i5, Ram 4Gb Phần mềm: Ngôn ngữ lập trình java 3.2.2. Giao diện chương trình

Khi mở chương trình Hệ thống nhận dạng văn bản có giao diện chính như sau:

Hình 3. 2: Giao diện chương trình nhận dạng

Tại giao diện người dùng, chọn nút Chọn file để chọn file ảnh hoặc file PDF có trong máy tính của người dùng cần nhận dạng. Sau đó nhấn nút xử lý để tiến hành nhận dạng văn bản đã được chọn. Kết quả của phiên nhận dạng sẽ được hiển thị tại ô kết quả

Hình 3. 3: Giao diện các chức năng chính

Trong chương trình có phần xem lại lịch sử để kiểm tra xem lại các văn bản đã được nhận dạng trước đó có trùng với kết quả nhận dạng của chương trình hay không

Hình 3. 4: Giao diện chức năng kiểm tra kết quả nhận dạng 3.3. Đánh giá về kết quả

Kết quả chương trình Demo đang thực nghiệm bước đầu đã cho ra kết quả tương đối chính xác với tập dữ liệu mô phỏng, tức là nhận dạng văn bản và phân loại văn bản theo từng loại phù hợp.

3.3.1. Về cài đặt

Sử dụng thành thạo ngôn ngữ lập trình Java và xây dựng hệ thống sử dụng thuần code Java. Sử dụng bộ thư viện nhận dạng ký tự tiếng việt mã nguồn mở Tessract 4.

3.3.2. Về thực nghiệm

Hệ thống cho phép nhận dạng các dạng văn bản khác nhau chính xác gần tuyệt đối, nhờ vào phương pháp nhận dạng quang học - OCR, điều này có nghĩa là dữ liệu của tập huấn luyện ngày càng được bổ sung, nên kết quả nhận dạng được cải thiện càng rõ ràng hơn và càng chính xác. Những kết quả đạt được trong đề tài này là một cơ sở tốt để có thể xây dựng một phần mềm nhận dạng văn bản hoàn chỉnh để giải quyết vấn đề lưu trữ và xử lý những vản bản hành chính tại các cơ quan Đảng tỉnh Quảng Bình hoặc một cơ quan ban ngành khác.

Dưới đây là kết quả thực nghiệm với tập dữ liệu các văn bản tại cơ quan các cơ quan Đảng tỉnh Quảng Bình với hệ thống nhận dạng văn bản đối với 20 văn bản của một thể loại.

TT Thể loại

Nhận dạng văn bản Nhận dạng

đúng

Nhận dạng sai

Tỷ lệ đúng

1 Công văn 20 0 100%

2 Báo cáo 20 0 100%

3 Chỉ thị 19 1 95%

4 Chương trình 19 1 95%

5 Nghị quyết 20 0 100%

6 Quyết định 19 1 95%

7 Kế hoạch 20 0 100%

8 Thông báo 20 0 100%

9 Tờ trình 20 0 100%

10 Quy định 19 1 95%

11 Quy chế 20 0 100%

12 Hướng dẫn 20 0 100%

Một phần của tài liệu Ứng dụng học máy trong nhận dạng công văn các cơ quan đảng tỉnh quảng bình (Trang 45 - 50)

Tải bản đầy đủ (PDF)

(63 trang)