Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
6,57 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN PHÚC HẬU XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TẠI TỈNH ĐOÀN QUẢNG NGÃI Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Ngƣời hƣớng dẫn khoa học: TS PHẠM MINH TUẤN Đà Nẵng - Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi - Những nội dung luận văn thực dƣới hƣớng dẫn trực tiếp Thầy TS Phạm Minh Tuấn - Các số liệu, kết nêu luận văn trung thực - Mọi tham khảo dùng luận văn đƣợc trích dẫn rõ ràng trung thực tên tác giả, tên công trình, thời gian, địa điểm cơng bố - Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TOM TẮT LUẬN VAN DANH MỤC CAC TỪ VIẾT TẮT DANH MỤC CAC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Mục tiêu nhiệm vụ Bố cục luận văn CHƢƠNG CÁC PHƢƠNG PHÁP NHẬN DẠNG 1.1 Học máy 1.1.1 Khái niệm 1.1.2 Các phƣơng pháp học máy 1.2 Các phƣơng pháp nhận dạng 1.2.1 Máy véc-tơ hỗ trợ (SVM) 1.2.2 Phƣơng pháp tiếp cận cấu trúc 1.2.3 Mơ hình Markov ẩn (HMM – Hidden Markov Model) 1.2.4 Đối sánh mẫu 10 1.2.5 Mạng nơ ron 11 1.2.6 Nhận dạng ký tự quang học – OCR 13 1.3 Thách thức hệ thống nhận dạng 15 1.4 Kết chƣơng 16 CHƢƠNG XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI 17 2.1 Xây dựng hệ thống 17 2.1.1 Giới thiệu toán 17 2.1.2 Phƣơng pháp đề xuất 17 2.2 Quy trình xử lý nhận dạng 18 2.2.1 Tiền xử lý 18 2.2.2 Khối tách chữ 19 2.2.3 Trích chọn đặc trƣng 20 2.2.4 Huấn luyện nhận dạng 20 2.2.5 Hậu xử lý 20 2.3 Bố cục văn thực tế Tỉnh Đoàn Quảng Ngãi 20 2.4 Tổng quan hệ thống văn Tỉnh đoàn 22 2.4.1 Thể loại Công văn 23 2.4.2 Thể loại Kế hoạch 23 2.4.3 Thể loại Báo cáo 24 2.4.4 Thể loại Chƣơng trình 24 2.4.5 Thể loại Đề án 25 2.4.6 Thể loại Giấy mời 25 2.4.7 Thể loại Hƣớng dẫn 25 2.4.8 Thể loại Kết luận 26 2.4.9 Thể loại Quyết định 26 2.4.10 Thể loại Thông báo 27 2.4.11 Thể loại Thông tri 27 CHƢƠNG TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ 28 3.1 Chức chƣơng trình 28 3.1.1 Nhận văn đầu vào 28 3.1.2 Tiền xử lý 29 3.1.3 Huấn luyện Nhận dạng 29 3.1.4 Hậu xử lý 31 3.1.5 Hiển thị lƣu trữ 32 3.2 Môi trƣờng thực nghiệm 32 3.2.1 Dữ liệu sử dụng 32 3.2.2 Giao diện chƣơng trình 33 3.3 Đánh giá kết 38 3.3.1 Về cài đặt 38 3.3.2 Về thực nghiệm 38 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC S (BẢO SAO BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN TRANG TÓM TẮT LUẬN VĂN XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TẠI TỈNH ĐOÀN QUẢNG NGÃI Học viên: Nguyễn Phúc Hậu; Chuyên ngành: Khoa học máy tính Mã số: 8480101 Khóa: K33-QNG; Trƣờng Đại học Bách khoa - ĐHĐN Tóm tắt - Trong thời đại ngày nay, với phát triển vƣợt bật công nghệ thông tin ứng dụng đời sống - kinh tế - xã hội, lƣợng liệu thu thập đƣợc ngày nhiều theo thời gian, làm xuất ngày nhiều hệ thống sở liệu có kích thƣớc lớn với nhu cầu cấp thiết muốn truy xuất liệu Từ khối liệu có sẵn quan Tỉnh đoàn Quảng Ngãi, kỹ thuật dạy máy học dùng để lƣu trữ liệu, trích xuất thơng tin hữu ích cần thiết Qua tìm hiểu chức dạy máy học, luận văn tập trung vào nghiên cứu kỹ thuật dạy máy học dựa hệ thống nhận dạng ký tự quang học OCR Hiểu đƣợc thuật toán hiệu từ nhận dạng ký tự quang học nắm đƣợc điểm cần quan tâm giải để phân loại văn quan Tỉnh đoàn Quảng Ngãi Phần mềm đƣợc xây dựng ứng dụng, thuận tiện cho ngƣời sử dụng khơng có chun mơn cơng nghệ thơng tin quan Tỉnh đồn Quảng Ngãi Từ khóa – Hệ thống phân loại, phân loại văn bản, phân loại tài liệu, nhận dạng ký tự, OCR CONSTRUCTION OF CLASSIFICATION OF DOCUMENTS SYSTEM IN QUANG NGAI PROVINCIAL GROUP Summary - Nowadays, with the rapid development of information technology and its application in the socio-economic life, the amount of collected data involving with the appearance of a lot of the large database systems with the need of data accessing is increasing day by day From the available data of Quang Ngai Provincial Youth Union, the techniques of machine learning can be used to store the data, to extract useful information By studying the functions of machine learning, this thesis focuses on the research of machine learning ktechniques based on the OCR - Optical Character Recognition system The aim of understanding the effective algorithms from the Optical Character Recognition possesses and the main points to solve is to classify documents at Quang Ngai Provincial Youth Union The software is convenient for its users who not have much knowledge of information technology at Quang Ngai Provincial Youth Union Keywords - Classification system, text classification, document classification, character recognition, OCR DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machines SV Support Vector HMM Hidden Markov Model VLSI Very-large-scale-intergrated OCR Optical Character Recognition PDA thiết bị nhập cho thiết bị hỗ trợ cá nhân ICR Intelligent Character Recognition CV Công văn CVLT Công văn liên tịch KH Kế hoạch KHPH Kế hoạch phối hợp DANH MỤC CÁC HÌNH Hình 1.1: Mơ hình máy véc-tơ hỗ trợ Hình 1.2: Mơ hình Markov ẩn Hình 1.3: Biểu đồ chuyển tiếp trạng thái mơ hình Markov Hình 2.1: Quy trình xử lý ứng dụng nhận dạng ký tự quang học 18 Hình 2.2: Ví dụ vùng văn Tỉnh đoàn Quảng Ngãi 22 Hình 2.3: Thể loại cơng văn 23 Hình 2.4: Thể loại Kế hoạch 23 Hình 2.5: Thể loại Kế hoạch phối hợp 24 Hình 2.6: Thể loại văn Báo cáo 24 Hình 2.7: Thể loại văn Chƣơng trình 24 Hình 2.8: Thể loại văn Đề án 25 Hình 2.9: Thể loại văn Giấy mời 25 Hình 2.10: Thể loại văn Hƣớng dẫn 26 Hình 2.11: Thể loại văn Kết luận 26 Hình 2.13: Thể loại văn Thông báo 27 Hình 2.14: Thể loại văn Thơng tri 27 Hình 3.1: Chức chƣơng trình 28 Hình 3.2: Văn thơ chƣa nhận dạng phân loại 29 Hình 3.3: Sơ đồ khối trình nhận dạng văn 30 Hình 3.4: Văn sau đƣợc nhận dang phân loại theo mục 32 Hình 3.5: Giao diện chƣơng trình 33 Hình 3.6: Khởi tạo mã văn quan 34 Hình 3.7: Lƣu mã đƣờng dẫn lƣu văn sau trỏ thành cơng 34 Hình 3.8: Dạy máy học mã liên quan 35 Hình 3.9: Hệ thống thơng báo tồn liên kết 36 Hình 3.10: Chức Testing – kiểm tra đơn văn 37 Hình 3.11: Chức Scanning 37 Hình 3.12: Hiển thị thiết bị Scan hệ thống máy tính 38 Hình 3.13: Tỉ lệ nhận dạng 39 MỞ ĐẦU Lý chọn đề tài - Việc phân loại tài liệu có ký hiệu để lƣu trữ, khai thác thơng tin hệ thống máy tính tốn đƣợc đặt Trên thực tế, cách để sử dụng thơng tin ký hiệu phân loại phải gõ lại văn bàn phím để thêm vào hệ thống máy tính hay sử dụng làm đầu vào Và với mong muốn tìm hiểu lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR đóng góp thêm vào kho ứng dụng nhận dạng hệ thống nhận dạng thiết thực, hữu ích - Vì luận văn tập trung tìm hiểu kỹ thuật, cơng nghệ cần thiết để xây dựng hệ thống ―Phân loại văn Tỉnh đoàn Quảng Ngãi‖ - Nội dung luận văn gồm phần mở đầu, chƣơng nội dung, phần kết luận, tài liệu tham khảo Chƣơng 1: Các phƣơng pháp nhận dạng Chƣơng 2: Xây dựng ứng dụng phân loại văn Tỉnh Đoàn Quảng Ngãi Chƣơng 3: Triển khai hệ thống đánh giá kết Mục đích nghiên cứu - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh - Hệ thống OCR - Công nghệ mã nguồn mở Tesseract OCR - Tạo ứng dụng nhận dạng ký hiệu văn dựa mã nguồn mở Tesseract OCR Ý nghĩa khoa học thực tiễn đề tài 3.1 Ý nghĩa khoa học - Nghiên cứu lý thuyết nhận dạng xử lý ảnh dựa mã nguồn mở Tesseract OCR hệ thống OCR 3.2 Ý nghĩa thực tiễn - Đề xuất giải pháp góp phần tăng hiệu việc quản lý văn quan Tỉnh đoàn Quảng Ngãi Mục tiêu nhiệm vụ 4.1 Mục tiêu - Hỗ trợ cán văn thƣ việc lƣu văn bản, quản lý văn phát hành văn đến - Tự động hóa việc lƣu trữ để giúp cán văn thƣ dễ dàng tìm kiếm văn cần 4.2 Nhiệm vụ - Tìm hiểu tổng quan phƣơng pháp dạy máy học - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh - Tạo ứng dụng nhận dạng ký hiệu văn rời rạc dựa mạng noron mã nguồn mở Tesseract OCR - Xây dựng chƣơng trình, cài đặt, kiểm thử đánh giá Bố cục luận văn Cấu trúc luận văn đƣợc trình bày bao gồm phần sau: MỞ ĐẦU: Giới thiệu sơ lý chọn đề tài, mục đích nghiên cứu, đối tƣợng phạm vi nghiên cứu, phƣơng pháp nghiên cứu, ý nghĩa khoa học thực tiễn đề tài CHƢƠNG 1: CÁC PHƢƠNG PHÁP NHẬN DẠNG Giới thiệu tổng quan phƣơng pháp nhận dạng văn đƣợc áp dụng hệ thống nhận dạng từ trƣớc đến CHƢƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI Trong chƣơng tác giả đề xuất phƣơng pháp xây dựng hệ thống phân loại văn Tỉnh Đồn Quảng Ngãi trình bày khối chức phƣơng pháp nhận dạng văn theo loại quan CHƢƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ Trong chƣơng này, tác giả xin đƣợc trình bày hệ thống nhận dạng văn quan Tỉnh Đoàn Quảng Ngãi xây dựng trình thực nghiệm đánh giá kết CHƯƠNG CÁC PHƯƠNG PHÁP NHẬN DẠNG 1.1 Học máy 1.1.1 Khái niệm Học máy [1] lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính "học" Cụ thể hơn, học máy phƣơng pháp để tạo chƣơng trình máy tính việc phân tích tập liệu Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, nhƣng khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận đƣợc xếp vào loại tốn khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý đƣợc Học máy có tính ứng dụng cao bao gồm máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trƣờng chứng khốn, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trò chơi cử động rô-bốt 1.1.2 Các phương pháp học máy 1.1.2.1 Học không giám sát Học không giám sát (Unsupervised Learning phƣơng pháp nhằm tìm mơ hình mà phù hợp với tập liệu quan sát Nó khác biệt với học có giám sát chỗ đầu tƣơng ứng cho đầu vào khơng biết trƣớc Trong học khơng có giám sát, đầu vào tập liệu đƣợc thu thập Học khơng có giám sát thƣờng đối xử với đối tƣợng đầu vào nhƣ tập biến ngẫu nhiên Sau đó, mơ hình mật độ kết hợp đƣợc xây dựng cho tập liệu Học khơng giám sát hữu ích cho việc nén liệu: bản, giải thuật nén liệu dựa vào phân bố xác suất tập đầu vào cách tƣờng minh hay khơng tƣờng minh Có nhiều thuật tốn học khơng giám sát đƣợc đời phát triển nhằm giải toán phân cụm phục vụ khai thác hiệu nguồn liệu chƣa gán nhãn nhiều đa dạng Việc lựa chọn sử dụng thuật toán tuỳ thuộc vào liệu mục đích tốn Trong thuật tốn thƣờng đƣợc sử dụng nhƣ: Kmean, HAC (Hierarchial Agglomerative Clustering), SOM (Self-Organizing Map), DBSCAN… 38 Hình 3.12 Hiển thị thiết bị Scan hệ thống máy tính Hệ thống tất nguồn máy scan mà máy tính hỗ trợ ngƣời dùng chọn cần thiết cuối nhấn Scanning 3.3 Đánh giá kết Kết chƣơng trình Demo thực nghiệm bƣớc đầu cho kết tƣơng đối xác với tập liệu mô phỏng, tức nhận dạng văn phân loại văn theo loại phù hợp 3.3.1 Về cài đặt Sử dụng thành thạo ngơn ngữ lập trình C# xây dựng hệ thống sử dụng code C#, đồng thời sử dụng API Scan TWAIN bên thứ Vinta Software mà dùng free nên có xuất hộp thoại ―About‖ nên ngƣời dùng bấm chọn ―Evaluate‖ dùng bình thƣờng 3.3.2 Về thực nghiệm Hệ thống cho phép nhận dạng dạng văn khác xác gần tuyệt đối, nhờ vào phƣơng pháp nhận dạng quang học - OCR, điều có nghĩa liệu tập huấn luyện ngày đƣợc bổ sung, nên kết nhận dạng đƣợc cải thiện rõ ràng xác Những kết đạt đƣợc đề tài sở tốt để xây dựng phần mềm phân loại văn hoàn chỉnh để giải vấn đề lƣu trữ xử lý vản hành quan Tỉnh đoàn Quảng Ngãi quan ban ngành khác triển khai toàn hệ thống hệ thống Đoàn 39 Dƣới kết thực nghiệm với tập liệu văn quan Tỉnh Đoàn Quảng Ngãi với hệ thống phân loại văn Hình 3.13: Tỉ lệ nhận dạng 40 KẾT LUẬN Đã làm đƣợc Bƣớc đầu xây dựng đƣợc mơ hình huấn luyện để nhận dạng văn quan Tỉnh Đoàn Quảng Ngãi, cách sử dụng phƣơng pháp nhận dạng ký tự quang học – OCR, đặc biệt sử dụng thƣ viện Tessarect Xây dựng đƣợc chƣơng trình Demo Hệ thống nhận dạng phân loại văn quan Tỉnh Đoàn cho kết xác Kết q trình phụ thuộc nhiều vào trình thu thập liệu huấn luyện phát hiện, nhận dạng Sau thời gian nghiên cứu xử lý ảnh, học máy tìm hiểu đƣợc số sở lý thuyết áp dụng đƣợc vào Hệ thống phân loại văn Tỉnh đoàn Quảng Ngãi Hƣớng cải thiện Những kết đạt đƣợc đề tài sở tốt để xây dựng phần mềm phân loại văn hoàn chỉnh, xử lý nhanh hơn, phân loại nhiều loại văn khác thể loại khau để giải vấn đề lƣu trữ xử lý vản hành quan Tỉnh đồn Quảng Ngãi quan ban ngành khác triển khai toàn hệ thống hệ thống Đoàn TÀI LIỆU THAM KHẢO Tiếng Anh [1] Mannila, Heikki (1996) Data mining: machine learning, statistics, and databases Int'l Conf Scientific and Statistical Database Management [2] Xiaojin Zhu (2005) Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [3] V Sindhwani, S.S Keerthi (2007) Newton Methods for Fast Solution of Semisupervised Linear SVMs Large Scale Kernel Machines, MIT Press, 2005 [4] Williams, Ronald J (1987) "A class of gradient-estimating algorithms for reinforcement learning in neural networks" Proceedings of the IEEE First International Conference on Neural Networks [5] M Tayli, A I Ai-Salamah, ―Building Bilingual Microcomputer Communications of the ACM, vol.33, no.5, pp.495-504, 1990 System‖ [6] T Pavlidis, ―Recognition of Printed Text under Realistic Conditions‖, Pattem Recognition Letters, pp 326,1993 [7] M Shridhar, A Badreldin, ―High Accuracy Syntactic Recognition Algorithm for Handwritten Numerals‖, IEEE Trans Systems Man and Cybemetics, vol.15, no.l, pp.152 - 158, 1985 [8] w H Tsai, K.S.Fu, ―Attributed Grammar- A Tool for Combining Syntactic and Statistical Approaches to Pattem Recognition‖, IEEE Trans System Man and Cybemetics, vol.10, no.12, pp 873-885, 1980 [9] A w Senior, A J Robinson, ―An Off-Line Cursive Handwriting Recognition‖, IEEE Trans Pattem Recognition and Machine Intelligence, vo 1.20, no.3, pp 309-322, 1998 [10] D Bouchaíĩra, V Govindaraju, s N Srihari, ―Postprocessing of Recognized Strings Using Nonstationary Markovian Models‖, IEEE Trans Pattem Analysis and Machine Intelligence, vol.21, no.10, pp 990-999, 1999 [11] p D Gader, B Forester, M Ganzberger, A Gillies, B Mitchell, M.Whalen, and T Yocum, ―Recognition of Handwritten Digits Using Template and Model Matching‖, Pattem Recognition, vol.24, no.5, pp.421-431, 1991 [12] D Tubbs, ―A Note on Binary Template Matching‖, Pattem Recognition, vol.22, no.4, pp.359 - 365,1989 [13] A K Jain, D Zongker, ―Representation and Recognition of Handwritten Digits Using Deíbrmable Templates‖, IEEE Trans Pattem Analysis and Machine Intelligence, vol.19, no 12, pp 1386-1391, 1997 [14] J Hu, T Pavlidis, ―A Hierarchical Approach to Eíĩĩcient Curvilinear Object Searching‖, Computer Vision and Image Understanding, vol.63(2), pp 208- 220,1996 [15] c c Tappert, ―Cursive Script Recognition by Elastic Matching‖, IBM Joumal of Research and Development, vol.26, no.6, pp.765-771, 1982 [16] Keith E Price, ―Relaxation Matching Techniques Comparison‖, IEEETrans Pattem Analysis and Machine Intelligence, vol.7, no.5, pp 617-623, 1985 [17] Sergios Theodoridis and Konstantinos Koutroumbas, ―Pattem Recognition‖, Academic Press, 2006 [18] Robert A Dunne, ―A Statistical Approach to Neural Networks for Pattem‖, N Y.: John Wiley & Sons, 2007 [19] H D Block, B w Knight, F Rosenblatt, ―Analysis of A Four Layer Serious Coupled Perceptron‖, II Rev Modem Physics, vol.34, pp.135-152, 1962 [20] T Kohonen, ―Self Organizing Maps‖, Springer Series in Iníbrmation Sciences, vol.30, Berlin, 1995 Tiếng Việt [21] Bùi Quang Chiến, "Ứng dụng mạng neural nhận dạng ký tự", Trƣờng Đại học Dân lập Hải Phòng, tr 10 -11 Trang web [22] https://vi.wikipedia.org/wiki/Máy_vectơ_hỗ_trợ [23] https://vi.wikipedia.org/wiki/Mơ_hình_Markov_ẩn [24] https://vi.wikipedia.org/wiki/Nhận_dạng_ký_tự_quang_học ... để xây dựng hệ thống ? ?Phân loại văn Tỉnh đoàn Quảng Ngãi? ?? 2.1 Xây dựng hệ thống 2.1.1 Giới thiệu toán Trong luận văn này, xây dựng hệ thống dùng để phân loại văn có sẵn quan Tỉnh Đồn Quảng Ngãi. .. 1.3 Thách thức hệ thống nhận dạng 15 1.4 Kết chƣơng 16 CHƢƠNG XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI 17 2.1 Xây dựng hệ thống ... dấu Hình 2.2: Ví dụ vùng văn Tỉnh đoàn Quảng Ngãi 2.4 Tổng quan hệ thống văn Tỉnh đoàn Tỉnh đoàn Quảng Ngãi giống nhƣ sở ban ngành khác tỉnh, hàng năm quan Tỉnh đoàn phát hành với số lƣợng gần