Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
424,21 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA - TRẦN TRUNG THÔNG ỨNG DỤNG HỌC MÁY TRONG NHẬN DẠNG CÔNG VĂN CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG BÌNH C u nn M s n K o m 8480101 T M TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đ Nẵn - Năm 2019 tn Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA N ƣời ƣớn dẫn k o TS PHẠM MINH TUẤN P ản biện PGS.TS Hu n H u Hƣn P ản biện TS Tr n Văn Cƣờn Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa học máy tính Trường Đại học Bách khoa vào ngày 25 tháng năm 2019 Có t ể tìm iểu luận văn - Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa – Đại học Đà Nẵng 1 MỞ ĐẦU Lý n đề t i Hiện nay, nhu cầu việc rút trích từ ngữ từ hình ảnh ngày phát triển, bên cạnh gia tăng nhu cầu phát triển công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay gọi tắt OCR Đây công nghệ giúp chuyển đổi hình ảnh chữ viết tay đánh máy thành ký tự mã hóa máy tính Cơng nghệ OCR tạo giải pháp kỹ thuật mới, mang tính đột phá việc xây dựng sở liệu điện tử Cùng với phát triển ứng dụng công nghệ thông tin lĩnh vực đời sống xã hội, hoạt động công tác, nhu cầu phân loại tài liệu có ký hiệu để lưu trữ, khai thác thơng tin hệ thống máy tính tốn đặt Trên thực tế, cách để sử dụng thông tin ký hiệu phân loại phải gõ lại văn bàn phím để thêm vào hệ thống máy tính hay sử dụng làm đầu vào Với mong muốn tìm hiểu ứng dụng học máy nhận dạng, lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR) đóng góp thêm vào kho ứng dụng nhận dạng hệ thống nhận dạng thiết thực, hữu ích Vì luận văn tập trung tìm hiểu kỹ thuật, công nghệ cần thiết để xây dựng hệ thống Ứn dụn n ận dạn ôn văn m tron qu n Đản tỉn Quản Bìn làm đề tài luận văn thạc sỹ Nội dung luận văn gồm phần mở đầu, chương nội dung, phần kết luận, tài liệu tham khảo Chương 1: Cơ sở lý thuyết Chương 2: Xây dựng ứng dụng nhận dạng công văn quan Đảng tỉnh Quảng Bình Chương 3: Triển khai hệ thống đánh giá kết Mụ đ n i n ứu - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh - Hệ thống OCR - Công nghệ mã nguồn mở Tesseract OCR - Tạo ứng dụng nhận dạng ký hiệu văn dựa mã nguồn mở Tesseract OCR Ý n ĩ k o v t ự tiễn ủ đề tài 3.1 Ý nghĩa khoa học - Nghiên cứu lý thuyết nhận dạng xử lý ảnh dựa mã nguồn mở Tesseract OCR hệ thống OCR 3.2 Ý nghĩa thực tiễn - Đề xuất giải pháp góp phần tăng hiệu việc quản lý văn quan Đảng tỉnh Quảng Bình Mụ ti u v n iệm vụ 4.1 Mục tiêu - Hỗ trợ cán văn thư việc lưu văn bản, quản lý văn phát hành văn đến - Tự động hóa việc lưu trữ để giúp cán văn thư dễ dàng tìm kiếm văn cần 4.2 Nhiệm vụ - Tìm hiểu tổng quan phương pháp dạy máy học - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh - Tạo ứng dụng nhận dạng ký hiệu văn rời rạc dựa mã nguồn mở Tesseract OCR 3 - Xây dựng chương trình, cài đặt, kiểm thử đánh giá B ụ ủ luận văn Cấu trúc luận văn trình bày bao gồm phần sau: MỞ ĐẦU Giới thiệu sơ lý chọn đề tài, mục đích nghiên cứu, đối tượng phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học thực tiễn đề tài CHƢƠNG CƠ SỞ Ý THUYẾT Giới thiệu tổng quan phương pháp học máy, phương pháp nhận dạng văn bản, nhận dạng ký tự quang học OCR CHƢƠNG XÂY DỰNG ỨNG DỤNG NHẬN DẠNG CÔNG VĂN TẠI CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG BÌNH Trong chương tác giả nghiên cứu thư viện mã nguồn mở tessract, đề xuất phương pháp xây dựng hệ thống nhận dạng công văn quan Đảng tỉnh Quảng Bình trình bày khối chức phương pháp nhận dạng văn theo loại quan CHƢƠNG TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ Trong chương này, tác giả xin trình bày ứng dụng học máy nhận dạng cơng văn quan Đảng tỉnh Quảng Bình xây dựng trình thực nghiệm đánh giá kết 4 C ƣơn 1- CƠ SỞ LÝ THUYẾT 1 H máy 1.1.1 Tổng quan học máy Học máy phần khoa học máy tính dần cải tiến từ nghiên cứu nhận dạng mẫu trí tuệ nhân tạo Năm 1959, Arthur Samuel định nghĩa máy học lĩnh vực nghiên cứu cung cấp cho máy tính khả học mà khơng lập trình cách rõ ràng Máy học tìm hiểu nghiên cứu xây dựng thuật tốn học hỏi đưa dự đốn liệu Thuật toán hoạt động cách xây dựng mơ hình từ ví dụ đầu vào để đưa dự đoán dựa liệu định 1.1.2 Các phương pháp học máy 1.1.2.1 Học có giám sát Học có giám sát thuật tốn dự đoán đầu (outcome) liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (data, label), tức (dữ liệu, nhãn) Học có giám sát nhóm phổ biến thuật tốn Machine Learning 1.1.2.2 Học không giám sát Học không giám sát thuật toán dự đoán nhãn liệu dựa tập liệu huấn luyện mà tất mẫu liệu chưa gán nhãn hay nói cách khác ta khơng biết câu trả lời xác cho liệu đầu Điều giống ta học mà thầy cơ, khơng cho ta biết đáp án 5 Khi đó, mục tiêu thuật tốn học khơng giám sát khơng phải tìm đầu xác mà hướng tới việc tìm cấu trúc liên hệ liệu để thực cơng việc đó, 1.1.2.3 Học bán giám sát (Semi-Supervised Learning) Là toán mà tập liệu đầu vào X hỗn hợp mẫu có nhãn khơng có nhãn, số lượng có nhãn chiếm phần nhỏ Phần lớn tốn thực tế ML thuộc nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Rất nhiều loại liệu chí cần phải có chun gia gán nhãn được, chẳng hạn ảnh y học cặp câu song ngữ Ngược lại, liệu chưa có nhãn thu thập với chi phí thấp từ internet 1.1.2.4 Học tăng cường(Reinforcement learning) Học tăng cường hay học củng cố toán giúp cho hệ thống tự động xác định hành vi dựa hồn cảnh để đạt lợi ích cao Hiện tại, học tăng cường chủ yếu áp dụng vào lý thuyết trò chơi (Game Theory) 1.1.3 Các ứng dụng học máy Học máy có ứng dụng rộng khắp khoa học/sản xuất, đặc biệt ngành cần phân tích liệu lớn Một số ứng dụng thường thấy: Xử lý ngôn ngữ tự nhiên, nhận dạng, tìm kiếm , ch n đốn y tế, tin sinh học, vật lý, chơi trò chơi 1.2 C p ƣơn p p n ận dạn 1.2.1 Mơ hình Markov ẩn (HMM – Hidden Markov Model) Mơ hình Markov n mơ hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số khơng biết trước nhiệm vụ xác định tham số n từ tham số quan sát được, dựa thừa nhận Các tham số mơ hình rút sau sử dụng để thực phân tích kế tiếp, ví dụ cho ứng dụng nhận dạng mẫu Trong mơ hình Markov điển hình, trạng thái quan sát trực tiếp người quan sát, xác suất chuyển tiếp trạng thái tham số Mô hình Markov n thêm vào đầu ra: trạng thái có xác suất phân bổ biểu đầu Vì vậy, nhìn vào dãy biểu sinh HMM không trực tiếp dãy trạng thái Đây mơ hình tốn thống kê có ứng dụng rộng rãi Tin sinh học Hình 5: Mơ hình Markov n Các chuyển tiếp trạng thái mơ hình Markov n - x — Các trạng thái mơ hình Markov - a — Các xác suất chuyển tiếp - b — Các xác suất đầu - y — Các liệu quan sát Sự tiến hóa mơ hình Markov Biểu đồ làm bật chuyển tiếp trạng thái mơ hình Markov n Nó có ích để biểu diễn rõ ràng tiến hóa mơ hình theo thời gian, với trạng thái thời điểm khác t1 t2 biểu diễn tham biến khác nhau, x(t1) x(t2) Hình 6: Biểu đồ chuyển tiếp trạng thái mơ hình Markov Trong biểu đồ này, hiểu thời gian chia cắt (x(t), y(t)) mở rộng tới thời gian trước sau cần thiết Thông thường lát cắt sớm thời gian t=0 hay t=1 Sử dụng mơ hình Markov Có ba vấn đề để giải HMM: Cung cấp cho mơ hình tham số, tính xác suất dãy đầu cụ thể Giải thuật toán tiến trước (thuật toán tham lam) Cung cấp cho mơ hình tham số, tìm dãy trạng thái ( n) có khả lớn mà sinh dãy đầu cung cấp Giải thuật toán Viterbi Cung cấp dãy đầu ra, tìm tập hợp có khả chuyển tiếp trạng thái xác suất đầu Giải thuật toán BaumWelch 1.2.2 Máy véc-tơ hỗ trợ (SVM) Máy vectơ hỗ trợ (SVM –support vector machine) khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy SVM dạng chu n nhận liệu vào phân loại chúng vào hai lớp khác Do SVM thuật tốn phân loại nhị phân Với ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng mơ hình SVM để phân loại ví dụ khác vào hai thể loại Một mơ hình SVM cách biểu diễn điểm không gian lựa chọn ranh giới hai thể loại cho khoảng cách từ ví dụ luyện tập tới ranh giới xa Các ví dụ biểu diễn khơng gian thuật tốn dự đốn thuộc hai thể loại tùy vào ví dụ nằm phía ranh giới Hình 7: Mơ hình máy véc-tơ hỗ trợ Một máy vectơ hỗ trợ xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vơ hạn chiều, sử dụng cho phân loại, hồi quy, nhiệm vụ khác Ưu điểm SVM - Cho kết nhận dạng với độ xác cao - Bài tốn huấn luyện SVM thực chất tốn quy hoạch tồn phương tập lồi, SVM ln có nghiệm tồn cục nhất, điểm khác biệt rõ SVM so với phương pháp mạng Neural, mạng Neural vốn tồn nhiều điểm cực trị địa phương Nhược điểm SVM - Hạn chế lớn SVM tốc độ phân lớp chậm, tùy thuộc vào số lượng véc tơ hỗ trợ - Giai đoạn huấn luyện SVM đòi hỏi nhớ lớn, tốn huấn luyện với số lượng mẫu lớn gặp trở ngại vấn đề lưu trữ Hiệu phân lớp SVM phụ thuộc vào hai yếu tố: giải toán quy hoạch toàn phương lựa chọn hàm nhân 1.2.3 Phương pháp tiếp cận cấu trúc Cách tiếp cận phương pháp dựa vào việc mô tả đối tượng nhờ số khái niệm biểu diễn đối tượng sở ngôn ngữ tự nhiên Để mô tả đối tượng người ta dùng số dạng nguyên thủy đoạn thẳng, cung,… Mỗi đối tượng mô tả kết hợp dạng nguyên thủy Các quy tắc kết hợp dạng nguyên thủy xây dựng giống việc nghiên cứu văn phạm ngôn ngữ, q trình định nhận dạng q trình phân tích cú pháp Phương pháp đặt vấn đề để giải toán nhận dạng chữ tổng quát Tuy vậy, nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa giải độc lập xây dụng thuật toán phổ dụng Hiện nay, nhận dạng theo cấu trúc phổ biến trích trọn đặc trung mẫu học, phân hoạch bảng ký tự dựa đặc trưng này, sau ảnh cần nhận dạng trích chọn đặc trưng, sau so sánh bảng phân hoạch để tìm ký tự có đặc trưng phù hợp 10 Các phương pháp cấu trúc áp dụng cho toán nhận dạng chữ phát triển theo hai hướng sau: 1.2.3.1 Phương pháp đồ thị (Graphical Methods) 1.2.3.2 Phương pháp ngữ pháp (Grammatical Methods) 1.2.4 Đối sánh mẫu Kỹ thuật nhận dạng chữ đơn giản dựa sở đối sánh nguyên mẫu (prototype) với để nhận dạng ký tự từ Nói chung, tốn tử đối sánh xác định mức độ giống hai véc tơ (nhóm điểm, hình dạng, độ cong ) không gian đặc trưng Các kỹ thuật đối sánh nghiên cứu theo ba hướng sau: Đối sánh trực tiếp: Một ký tự đầu vào ảnh đa cấp xám ảnh nhị phân so sánh trực tiếp với tập mẫu chu n lưu trữ Việc so sánh dựa theo độ đo tương đồng (chẳng hạn độ đo Euclide) để nhận dạng Các kỹ thuật đối sánh đơn giản việc so sánh – phức tạp định Mặc dù phương pháp đối sánh trực tiếp đơn giản có sở tốn học vững kết nhận dạng nhạy cảm với nhiễu Các mẫu biến dạng đối sánh mềm: Một phương pháp đối sánh khác sử dụng mẫu biến dạng, phép biến dạng ảnh dùng để đối sánh ảnh chưa biết với sở liệu ảnh biết Ý tưởng đối sánh mềm đối sánh cách tối ưu mẫu chưa biết với tất mẫu mà mẫu kéo giãn co lại Chỉ không gian đặc trung thành lập, véc tơ chưa biết đối sánh cách sử dụng quy hoạch động hàm biến dạng 11 Đối sánh giảm nhẹ: Đây kỹ thuật đối sánh ảnh mức độ tượng trưng, kỹ thuật sử dụng hình dáng đặc trưng ảnh ký tự Thứ nhất, vùng đối sánh nhận biết Sau đó, sở với vùng đối sánh Cơng việc đòi hỏi kỹ thuật tìm kiếm khơng guan đa chiều để tìm cực đại toàn cục số hàm Các kỹ thuật đối sánh mẫu áp dụng với nhận dạng chữ in, chữ viết tay kỹ thuật tỏ hiệu 1.2.5 Mạng nơ ron Một mạng nơ ron định nghĩa cấu trúc tính tốn bao gồm nhiều xử lý ―nơron‖ kết nối song song chằng chịt với Do chất song song nơ ron nên thực tính tốn với tốc độ cao so với kỹ thuật phân lớp khác Các kiến trúc mạng nơron phân thành hai nhóm chính: mạng truyền thẳng mạng lan truyền ngược Trong hệ thống nhận dạng chữ, mạng nơron sử dụng phổ biến mạng perceptron đa lớp thuộc nhóm mạng truyền thẳng mạng SOM (Self Origanizing Map) Kohonen thuộc nhóm mạng lan truyền ngược Mạng perceptron đa lớp đề xuất Rosenblatt nhiều tác giả sử dụng hệ thống nhận dạng Hầu hết nghiên cứu phát triển nhận dạng chữ viết tập trung vào mạng SOM SOM kết hợp trích chọn đặc trưng nhận dạng tập lớn ký tự huấn luyện Mạng chứng tỏ tương đương với thuật tốn phân cụm k-means 1.2.5.1 Đặc trưng mạng nơ ron 1.2.5.1.1 Tính phi tuyến 12 1.2.5.1.2 Tính chất tương ứng đầu vào đầu 1.2.5.1.3 Tính chất thích nghi 1.2.5.1.4 Tính chất đưa lời giải có chứng 1.2.5.1.5 Tính chất chấp nhận sai sót 1.2.5.1.6 Khả cài đặt VLSI 1.2.5.1.7 Tính chất đồng dạng phân tích thiết kế 1.2.6 Nhận dạng ký tự quang học – OCR Nhận dạng ký tự quang học loại phần mềm máy tính tạo để chuyển hình ảnh chữ viết tay chữ đánh máy (thường quét máy scanner) thành văn tài liệu OCR hình thành từ lĩnh vực nghiên cứu nhận dạng mẫu, trí tuệ nhân tạo machine vision Một số phần mềm nhận dạng chữ Việt: VnDOCR 4.0, VietOCR, ABBYY Ngày nay, hệ thống nhận dạng ký tự quang học thỏa mãn độ xác nhận dạng cao hầu hết phông chữ tiêu chu n Unicode Một số hệ thống có khả tái tạo lại định dạng tài liệu gần giống với gốc bao gồm hình ảnh, cột, bảng biểu, thành phần văn 1.3 T ƣ viện n ận dạn T ssr t 1.3.1 Chức Tesseract Tesseract thư viện mã nguồn mở để hỗ trợ xây dựng ứng dụng nhận dạng ký tự quang học phát triển từ năm 1995 1.3.2 Kiến trúc giải thuật nhận dạng chữ in Tesseract có kiến trúc điển hình từ xuống Bước đầu chức tiền xử lý, ngưỡng chọn phân ngưỡng thơng qua q trình phân tích điểm ảnh với 13 giải thuật Otsu, sau ngưỡng sử dụng để chuyển đổi ảnh màu ảnh xám đầu vào thành ảnh nhị phân Giai đoạn ảnh nhị phân đưa vào Phân tích thành phần liên thơng (Connected component analysis) để tìm hình dạng phác thảo thành phần liên thông Đây tiến trình phức tạp nhiều thời gian cần có để tách ký tự có hình Khối Tìm dòng văn từ (Find text lines and words) thực chức xác định dòng chặn chặn trên, dòng cắt gọn từ trước xác định vùng ký tự, cần nhận dạng khoảng cách chữ số 1.3.3 Huấn luyện liệu nhận dạng với Tesseract 1.3.3.1 Tạo liệu huấn luyện 1.3.3.2 Thiết lập tệp cấu hình huấn luyện 1.3.4 Huấn luyện liệu 1.4 T t ứ đ i với ệ t n n ận dạn Có nhiều phương pháp nhận dạng khác để nhận dạng văn chữ viết tay Các điều kiện khác mà nhận dạng phân loại văn không làm việc tốt bao gồm thiếu ánh sáng, mờ, nhàu nát hình ảnh độ phân giải thấp 1.5 Kết ƣơn Nội dung chương I trình bày nêu vấn đề học máy, phương pháp nhận dạng đối tượng nghiên cứu trước áp dụng để thực nghiên cứu đề tài Phương pháp đề xuất trình bày chi tiết chương II 14 C ƣơn 2- XÂY DỰNG ỨNG DỤNG NHẬN DẠNG CÔNG VĂN TRONG CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG BÌNH 2.1 Xâ dựn ệt n 2.1.1 Giới thiệu toán Trong luận văn này, xây dựng hệ thống dùng để nhận dạng văn có quan Đảng tỉnh Quảng Bình Hệ thống nhận dạng file ảnh, file pdf có sẵn hệ thống máy tính người dùng định 2.1.2 Phương pháp đề xuất Hình 1: Quy trình xử lý ứng dụng nhận dạng ký tự quang học 2.2 Qu trìn xử lý n ận dạn 2.2.1 Tiền xử lý Giai đoạn góp phần làm tăng độ xác phân lớp hệ thống nhận dạng, nhiên làm cho tốc độ nhận dạng hệ thống chậm lại Vì vậy, thuộc vào chất lượng quét ảnh vào 15 văn cụ thể để chọn một vài chức khối Nếu cần ưu tiên tốc độ xử lý chất lượng máy qt tốt bỏ qua giai đoạn Khối tiền xử lý bao gồm số chức năng: Nhị phân hóa ảnh, lọc nhiễu, chu n hóa kích thước ảnh 2.2.1.1 Nhị hóa ảnh 2.2.1.2 Lọc nhiễu 2.2.1.3 Chuẩn hóa kích thước ảnh 2.2.2 Khối tách chữ Khối có nhiệm vụ tách ký tự khỏi văn Chỉ văn tách cô lập ký tự đơn khỏi tổng thể văn bản hệ thống nhận dạng ký tự Sau phương pháp tách chữ thông dụng: 2.2.2.1 Tách chữ dùng lược đồ sáng 2.2.2.2 Tách chữ theo chiều nằm ngang thẳng đứng 2.2.3 Trích chọn đặc trưng Trích chọn đặc trưng đóng vai trò quan trong hệ thống nhận dạng Trong trường hợp đơn giản nhất, ảnh đa cấp xám ảnh nhị phân sử dụng cho việc nhận dạng Tuy nhiên, hầu hết hệ nhận dạng, để giảm độ phức tạp tăng độ xác thuật tốn phân lớp đòi hỏi đặc trưng trích chọn phải rút gọn lại nhỏ tốt phải đảm bảo thông tin ký tự Với mục tiêu này, luận văn tập trung định hướng vị trí ảnh đưa vào từ đầu để nhận dạng từ ban đầu 2.2.4 Huấn luyện nhận dạng Đây giai đoạn quan trọng nhất, giai đoạn định độ xác hệ thống nhận dạng Có nhiều phương pháp nhận dạng 16 khác áp dụng cho hệ thống nhận dạng ký tự quang học 2.2.5 Hậu xử lý Đây công đoạn cuối q trình nhận dạng Có thể hiểu hậu xử lý bước ghép nối ký tự nhận dạng thành từ dạy học trước nhằm tái lại thể loại văn đồng thời phát lỗi nhận dạng sau cách kiểm tra dựa cấu trúc huấn luyện Việc phát lỗi, sai sót nhận dạng bước góp phần đáng kể vào việc nâng cao chất lượng nhận dạng 2.3 B ụ văn qu n Đản tỉn Quản Bìn Phân tích bố cục văn bước tiền xử lý đặc biệt quan trọng việc xây dựng hệ thống phân loại văn Đây trình chia nhỏ ảnh văn thành khối nhất, có nghĩa khối chứa loại thông tin, text, ảnh, bảng… Trong nhiều trường hợp, độ xác q trình phân tích bố cục văn làm ảnh hưởng đến nhiều đến độ xác hệ thống Trong phạm vi đề tài ưu tiên cho việc tách khối văn quan Đảng tỉnh Các khối phân chia theo số chu n số văn sử dụng quan Trên thực tế có nhiều phương pháp đề xuất để phân tích bố cục ảnh văn Tuy nhiên, phạm vi luận văn, tơi quan tâm đến việc phân tích bố cục văn quan Đảng tỉnh để hệ thống nhận biết thể loại văn Sau bố cục văn quan Đảng tỉnh: 17 - Tên quan - Định danh quan Đảng - Số hiệu trích yếu văn - Ngày tháng năm - Kính gửi - Nội dung văn - Cơ quan nhận - Ký tên đóng dấu 2.4 Hệ t n văn qu n Đản tỉn Quản Bìn Tring năm 2018, quan Đảng tỉnh Quảng Bình phát hành 2148 cơng văn đi, lưu trữ 7900 văn đến với nhiều thể loại khác nên văn thư gặp khơng khó khăn cơng tác lưu trữ, phân loại tìm kiếm Có thể phân số thể loại văn sau: 2.4.1 Thể loại Nghị 2.4.2 Thể loại Cơng văn 2.4.3 Thể loại Chương trình 2.4.4 Thể loại Chỉ thị 2.4.5 Thể loại Báo cáo 2.4.6 Thể loại Kết luận 2.4.7 Thể loại Kế hoạch 2.4.8 Thể loại Quyết định 2.4.9 Thể loại Quy định 2.4.10 Thể loại Thơng báo 2.4.11 Thể loại Tờ trình 2.4.12 Thể loại Hướng dẫn 2.4.13 Thể loại Quy chế 18 C ƣơn 3- TRIỂN KHAI VÀ ĐÁNH GIÁ Trong chương 3, tác giả xin trình bày tốn ứng dụng học máy nhận dạng công văn quan Đảng tỉnh Quảng Bình Ở chương này, tác giả xây dựng trình thực nghiệm đánh giá kết 3.1 Mô tả b i to n Cho n văn thuộc thể loại khác khác cầu đặt cần phải xây dựng ứng dụng thử nghiệm sử dụng thư viện Tessract4, thư viện có chức nhận dạng ký tự từ hình ảnh dựa vào tập liệu training sẵn có nhận dạng văn thuộc thể loại văn dựa vào liệu mẫu huấn luyện theo thể loại khác Như phân tích phần trên, phạm vi đề tài này, luận văn xây dựng mơ hình nhận dạng văn thể mơ hình hoạt động theo hình 3.1: 3.1.1 Nhận văn đầu vào Thông thường, ảnh văn thu nhận nhiều dạng, chất lượng định dạng ảnh đầu vào khác từ tập tin PDF đến định dạng ảnh thông dụng khác JPG, PNG, BMP, đòi hỏi cần phải đưa định dạng ảnh chung để tiện cho việc xử lý Ở đây, chương trình đưa định dạng ảnh PNG trước lúc tiến hành tiền xử lý ảnh 3.1.2 Tiền xử lý Văn trước xử lý cần phải tiền xử lý chuyển đổi ảnh đen trắng, ảnh từ máy qt chứa độ nghiêng phải khử nghiêng Mặt khác, ngôn ngữ Java cung cấp thư viện 19 xử lý ảnh hỗ trợ nhiều lớp lọc ảnh tăng độ tương phản, trơn ảnh cải thiện chất lượng ảnh Các file ảnh sau crop theo kích thước cho trước để hình ảnh chứa vùng cần trích xuất thơng tin đặc trưng để nhận dạng văn Hình 1: Mơ hình hoạt động 20 3.1.3 Nhận dạng Để sử dụng thư viện Tesseract dự án Java, chương trình sử dụng trình hỗ trợ quản lý thư viện Maven Java nhằm tự động cập nhật đầy đủ thư viện cần thiết nhận dạng tiếng việt in Trong phần nhận dạng tác giả sử dụng công nghệ Tesseract để nhận dạng văn thể loại văn 3.2 Môi trƣờn t ự n iệm 3.2.1 Dữ liệu sử dụng Nhận dạng văn có sẵn máy tính với 200 văn lưu trữ từ trước có PDF, JPG Kiểm tra văn nhận dạng có xác hay khơng 3.2.2 Giao diện chương trình Khi mở chương trình Hệ thống nhận dạng văn có giao diện sau: Hình 2: Giao diện chương trình nhận dạng Tại giao diện người dùng, chọn nút Chọn file để chọn file ảnh file PDF có máy tính người dùng cần nhận dạng Sau nhấn nút xử lý để tiến hành nhận dạng văn chọn Kết phiên nhận dạng hiển thị kết 21 Hình 3: Giao diện chương trình nhận dạng Trong chương trình có phần xem lại lịch sử để kiểm tra xem lại văn nhận dạng trước có trùng với kết nhận dạng chương trình hay khơng Hình 4: Giao diện chức kiểm tra kết nhận dạng 3.3 Đ n i kết Kết chương trình Demo thực nghiệm bước đầu cho kết tương đối xác với tập liệu mô phỏng, tức nhận dạng văn phân loại văn theo loại phù hợp 22 3.3.1 Về cài đặt Sử dụng thành thạo ngôn ngữ lập trình Java xây dựng hệ thống sử dụng code Java Sử dụng thư viện nhận dạng ký tự tiếng việt mã nguồn mở Tessract 3.3.2 Về thực nghiệm Hệ thống cho phép nhận dạng loại văn khác xác gần tuyệt đối, nhờ vào phương pháp nhận dạng quang học OCR Những kết đạt đề tài sở tốt để xây dựng phần mềm nhận dạng văn hoàn chỉnh để giải vấn đề lưu trữ xử lý vản hành quan Đảng tỉnh Quảng Bình quan ban ngành khác Dưới kết thực nghiệm: Nhận dạng văn Thể loại TT Nhận dạng Nhận dạng sai T lệ Công văn 20 100% Báo cáo 20 100% Chỉ thị 19 95% Chương trình 19 95% Nghị 20 100% Quyết định 19 95% Kế hoạch 20 100% Thông báo 20 100% Tờ trình 20 100% 10 Quy định 19 95% 11 Quy chế 20 100% 12 Hướng dẫn 20 100% 23 KẾT LUẬN Đ l m đƣợ Bước đầu xây dựng mơ hình huấn luyện để nhận dạng văn quan Đảng tỉnh Quảng Bình, cách sử dụng phương pháp nhận dạng ký tự quang học –OCR, đặc biệt sử dụng thư viện Tessarect Xây dựng chương trình Demo Hệ thống nhận dạng văn quan Đảng tỉnh cho kết xác Kết trình phụ thuộc nhiều vào trình thu thập liệu huấn luyện phát hiện, nhận dạng Sau thời gian nghiên cứu xử lý ảnh, học máy tìm hiểu số sở lý thuyết áp dụng vào hệ thống nhận dạng công văn quan Đảng tỉnh Hƣớn p t triển Những kết đạt đề tài sở để xây dựng phần mềm nhận dạng phân loại văn hồn chỉnh dựa vào việc nhận dạng thể loại văn từ rút trích thơng tin cần thiết theo thể loại văn cụ thể để giải vấn đề lưu trữ xử lý vản hành quan ... CHƢƠNG CƠ SỞ Ý THUYẾT Giới thiệu tổng quan phương pháp học máy, phương pháp nhận dạng văn bản, nhận dạng ký tự quang học OCR CHƢƠNG XÂY DỰNG ỨNG DỤNG NHẬN DẠNG CÔNG VĂN TẠI CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG... CÔNG VĂN TRONG CÁC CƠ QUAN ĐẢNG TỈNH QUẢNG BÌNH 2.1 Xâ dựn ệt n 2.1.1 Giới thiệu toán Trong luận văn này, xây dựng hệ thống dùng để nhận dạng văn có quan Đảng tỉnh Quảng Bình Hệ thống nhận dạng file... để nhận dạng văn quan Đảng tỉnh Quảng Bình, cách sử dụng phương pháp nhận dạng ký tự quang học –OCR, đặc biệt sử dụng thư viện Tessarect Xây dựng chương trình Demo Hệ thống nhận dạng văn quan Đảng