Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
5,58 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ HIỀN THẮM XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CƠNG VĂN TẠI ỦY BAN NHÂN DÂN XÃ HỊA PHÚ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng-Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ HIỀN THẮM XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CƠNG VĂN TẠI ỦY BAN NHÂN DÂN XÃ HỊA PHÚ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS.VÕ TRUNG HÙNG Đà Nẵng-Năm 2017 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tôi.Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tác giả luận văn Huỳnh Thị Hiền Thắm ii PHÂN LOẠI VĂN BẢN VỚI PHƯƠNG PHÁP MẠNG NERUAL KẾT HỢP PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH Học viên: Huỳnh Thị Hiền Thắm Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Trường Đại học Bách khoa-ĐHĐN Khóa: 31 Tóm tắt - Bài tốn phân loại văn bản, thực chất, xem toán phân lớp Phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện Nhiều kỹ thuật máy học khai phá liệu áp dụng vào toán phân loại văn bản, chẳng hạn: phương pháp định dựa vào Bayes ngây thơ (Naive Bayes), định (decision tree), k–láng giềng gần (KNN), mạng nơron (neural network),… Phương pháp mạng nerual kết hợp phương pháp định chuyển đổi định thành mạng neural Nhiệm vụ phân loại văn phương pháp xây dựng mạng lưới cách trực tiếp lập đồ nút định quy định cho đơn vị neural nén lại mạng cách loại bỏ đơn vị kết nối không quan trọng không cần thiết Từ khóa – Cây định, phân loại văn bản, mạng Nơ-ron CLASSIFICATION CATEGORY WITH NEURAL NETWORK METHODS COMPLETED BY DECISION METHODOLOGY Abstract - Text document classification, basically, can be considered as a classification problem Automatic text document classification is to assign a label to a new document based onthe similarity of the document with labeled documents in the training set Many machinelearning and data mining methods have been applied in text document classification suchas: Naive Bayes, decision tree, k – Nearest neighbor, neural network,… The nerual networking method combines the decision tree method of converting decision trees into neural networks The textual task of this method is to build networks by directly mapping decision nodes or rules to neural units and compressing networks by removing units and connections Not important and unnecessary Key words - Decision tree, text document calssification, Nerual Network iii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC iii DANH MỤC CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nhiệm vụ Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Bố cục đề tài Tổng quan tài liệu tham khảo Chương - CƠ SỞ LÝ THUYẾT 1.1 Phân loại văn 1.1.1 Khái niệm văn 1.1.2 Phân loại văn 1.1.3 Mơ hình tổng qt 1.2 So sánh đặc điểm tiếng Anh tiếng Việt 1.2.1 Đặc điểm tiếng Anh tiếng Việt 1.2.2 Nhận xét 1.3 Các phương pháp phân loại văn 1.3.1 Phương pháp Naïve Bayes 1.3.2 Phương pháp k Nearest Neighbor 1.3.3 Phương pháp Support Vector Machine 1.3.4 Phương pháp Linear Least Square Fit 1.3.5 Phương pháp Centroid – based vector 10 1.3.6 Nhận xét 10 1.4 Các phương pháp tách từ tiếng Việt 11 1.4.1 Phương pháp Conditional Random Field 11 1.4.2 Phương pháp Transformation – based Learning 15 1.4.3 Phương pháp Weighted Finite-State Transducer 15 1.4.4 Nhận xét 16 Chương - ĐỀ XUẤT GIẢI PHÁP 17 2.1 Giới thiệu toán 17 2.2 Mơ hình đề xuất 19 2.3.1 Phương pháp tách từ tiếng Việt 20 2.3.2 Loại bỏ từ dừng 22 iv 2.3.3 Mơ hình biểu diễn văn 23 2.4 Phương pháp định 28 2.4.1 Cây định 28 2.4.2 Thuật toán phân lớp định C4.5 32 2.4.3 Chuyển đổi từ định sang luật 35 2.5 Phương pháp mạng Neural 35 2.5.1 Giới thiệu mạng nơron 35 2.5.2 Luật học mạng nơron 38 2.5.3 Thuật toán lan truyền ngược (back-propagation) 39 2.6 Phương pháp mạng Nerual khởi tạo với định 41 2.6.1 Thuật toán xây dựng định 41 2.6.2 Đào tạo mạng Nerual đa lớp 42 2.6.3 Mạng Nerual khởi tạo với định 43 Chương - XÂY DỰNG ỨNG DỤNG VÀ THỰC NGHIỆM 45 3.1 Mơ hình đề xuất 45 3.1.1 Quá trình tiền xử lý 45 3.1.2 Biểu diễn văn 47 3.2 Ứng dụng phương pháp mạng nerual kết hợp định phân lớp văn tiếng Việt 51 3.2.1 Huấn luyện 51 3.2.2 Phân loại 52 3.3 Xây dựng chương trình thử nghiệm 53 3.3.1 Yêu cầu toán 53 3.3.2 Danh sách chức 53 3.3.3 Giao diện chương trình 53 3.3.4 Kết thử nghiệm 55 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) v DANH MỤC CÁC CHỮ VIẾT TẮT Tiếng Việt VB VB1 VB2 Văn Văn Văn Tiếng Anh ANN IDF kNN LLSF MLP NB Nnet SVM TBL TF WFTS Artificial Neural Network Inverse Document Frequency k Nearest Neighbor Linear Least Square Fit Multilayer Perceptron Naïve Bayes Nerual Network Support Vector Machine Transformation – Based Learning Term Frequency Weighted Finite-State Transducer vi DANH MỤC CÁC BẢNG Số hiệu bảng 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 3.1 3.2 3.3 3.4 3.5 3.6 Tên bảng Một số từ dừng văn tiếng Việt Biểu diễn văn theo mơ hình Logic Biểu diễn văn theo mơ hình khơng gian vector Biểu diễn văn theo không gian vector Boolean Bảng Trainning Data Bảng Testing Data Kết phân lớp định Huấn luyện với thuộc tính phân lớp buys computer Danh sách chức chương trình thử nghiệm chủ đề số lượng mẫu dùng tập thử nghiệm Kết thử nghiệm công văn Đồn niên Kết thử nghiệm cơng văn Tư pháp Kết thử nghiệm công văn Đảng Kết thử nghiệm cơng văn Cơng đồn Trang 22 23 25 26 29 30 31 34 53 55 55 56 56 56 vii DANH MỤC CÁC HÌNH VẼ Số hiệu hình 1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5 3.1 3.2 3.3 3.4 Tên hình Giai đoạn huấn luyện Giai đoạn phân lớp Đồ thị vô hướng mô tả CRF Mô hình đề xuất Cây định Mơ hình nơron nhân tạo Mơ hình nơron nhân tạo với giá trị bias Sơ đồ khối mô tả luật học giám sát Mơ hình đề xuất Giao diện chương trình Giao diện form huấn luyện Giao diện form phân loại Trang 4 12 19 29 36 37 39 45 54 54 55 MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại bùng nổ Công nghệ thông tin nay, phương thức sử dụng giấy tờ cơng việc dần số hố chuyển sang dạng cơng văn lưu trữ máy tính Bởi nhiều tính ưu việt tài liệu số như: cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trao đổi đặc biệt qua Internet, dễ dàng sửa đổi… nên ngày nay, số lượng cơng văn số tăng lên cách chóng mặt Cùng với gia tăng số lượng công văn, nhu cầu tìm kiếm cơng văn tăng theo Với số lượng cơng văn đồ sộ việc có cơng cụ phân loại công văn nhu cầu thực cần thiết Hằng năm, Ủy ban nhân dân xã Hòa Phú tiếp nhận chuyển số lượng lớn loại công văn, tra cứu, sử dụng lại nhiều thời gian, cơng sức Chính vậy, để hỗ trợ văn thư có cơng cụ quản lý cơng văn cách thuận tiện, xác, tiết kiệm thời gian ứng dụng công nghệ thông tin vào công tác quản lý Văn thư – Lưu trữ, thực đề tài: "Xây dựng ứng dụng phân loại công văn Ủy ban nhân dân xã Hòa Phú” Mục tiêu nhiệm vụ 2.1 Mục tiêu Mục tiêu đề tài xây dựng ứng dụng tự động phân loại công văn theo phận Ủy ban nhân dân xã Hòa Phú Ứng dụng giúp Văn thư chuyển số lượng lớn cơng văn đến phận để kịp thời giải công việc chưa đọc văn giúp lập hồ sơ công việc theo phận vào cuối năm, giúp tiết kiệm thời gian, nhằm tin học hóa phận Văn thư 2.2 Nhiệm vụ Để hoàn thành mục tiêu trên, nhiệm vụ nghiên cứu đề tài gồm: - Nghiên cứu phương pháp phân loại văn tiếng Anh - Nghiên cứu phương pháp phân loại văn tiếng Việt - Xây dựng ứng dụng phân loại công văn dựa phương pháp mạng neural kết hợp phương pháp định Thử nghiệm chương trình đánh giá kết Đối tượng phạm vi nghiên cứu 3.1 Đối tượng Đối tượng nghiên cứu luận văn gồm: - Hệ thống công văn Ủy ban nhân dân xã Hòa Phú - Các phương pháp phân loại văn tiếng Anh - Các phương pháp phân loại văn tiếng Việt - Phân loại văn tiếng Anh sử dụng phương pháp mạng neural kết hợp phương pháp định 55 Giao diện form phân loại Hình 3.4 Giao diện form phân loại 3.3.4 Kết thử nghiệm Phần trình bày kết thực nghiệm đánh giá rút từ kết Tập văn thử nghiệm gồm 400 văn huấn luyện, 160 văn kiểm tra thuộc nhóm cơng văn: cơng văn Đồn niên, cơng văn Tư pháp, cơng văn Đảng, cơng văn Cơng đồn Chương trình ứng dụng sau huấn luyện, ta thực thử nghiệm với tập văn kiểm tra để nhận dạng cho văn Bảng 3.2.4 Chủ đề số lượng mẫu dùng tập thử nghiệm Tên công văn Số văn huấn luyện Số văn bảnkiểm tra 100 40 Đoàn niên 100 40 Tư pháp 100 40 Đảng 100 40 Cơng đồn 400 160 Tổng cộng Kết thử nghiệm sau: Kết thử nghiệm cơng văn Đồn niên đạt tỷ lệ 35/40 đạt 87,5%, cụ thể: Bảng 3.3 Kết thử nghiệm cơng văn Đồn niên Nội dung Số lượng tập tin Số tập tin huấn luyện 100 Số tập tin kiểm tra 40 Số tập tin phân loại 35 Số tập tin phân loại sai 56 Kết thử nghiệm công văn Tư pháp đạt tỷ lệ 36/40 đạt 90%, cụ thể: Bảng 3.4 Kết thử nghiệm công văn Tư pháp Nội dung Số lượng tập tin Số tập tin huấn luyện 100 Số tập tin kiểm tra 40 Số tập tin phân loại 36 Số tập tin phân loại sai Kết thử nghiệm công văn Đảng đạt tỷ lệ 35/40 đạt 87,5%, cụ thể: Bảng 3.5 Kết thử nghiệm công văn Đảng Nội dung Số lượng tập tin Số tập tin huấn luyện 100 Số tập tin kiểm tra 40 Số tập tin phân loại 35 Số tập tin phân loại sai Kết thử nghiệm công văn Công đoàn đạt tỷ lệ 34/40 đạt 85%, cụ thể: Bảng 3.6 Kết thử nghiệm cơng văn Cơng đồn Nội dung Số lượng tập tin Số tập tin huấn luyện 100 Số tập tin kiểm tra 40 Số tập tin phân loại 34 Số tập tin phân loại sai Kết phân loại loại công văn đạt tỷ lệ 80 – 90% Kết thực nghiệm chưa cao hồn tồn chấp nhận Tuy nhiên, phương pháp điểm hạn chế, hạn chế phụ thuộc nhiều vào trình trích chọn đặc trưng, từ vựng xây dựng thủ công nên tránh khỏi cảm nhận thiếu tính khách quan Nhược điểm cải thiện cách xây dựng từ vựng cẩn thận, phong phú xác 57 KẾT LUẬN Trong đề tài này, tác giả thực nghiên cứu phân loại văn bản, nghiên cứu phương pháp phân loại văn Đề tài tập trung vào việc nghiên cứu phương pháp sử dụng mạng nerual kết hợp định, tác giả áp dụng xây dựng chương trình ứng dụng phân loại cơng văn với bốn loại cơng văn là: cơng văn Đồn niên, công văn Tư pháp, công văn Đảng, công văn Công đồn Chương trình bước đầu đạt số kết khả quan, tồn số vấn đề cần khắc phục: - Dữ liệu bốn loại cơng văn có giao thoa liệu nên nhập nhằng phân loại - Chương trình nhận dạng phân loại cho văn định dạng file text TXT, chưa nhận dạng phân loại cho văn có định dạng khác - Các tập liệu huấn luyện hạn chế, độ xác chương trình cịn chưacao Hướng phát triển luận văn: - Xây dựng nhiều tập liệu huấn luyện để tăng độ xác cho việc phân loại văn - Nhận dạng phân loại văn có định dạng khác - Xây dựng chương trình mở rộng để phân loại công văn theo nhiều chủ đề TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Nương Quỳnh, Xây dựng ứng dụng phân loại công văn, Luận văn thạc sỹ Khoa học máy tính, người hướng dẫn PGS.TS Võ Trung Hùng, Đại học Đà Nẵng [2] Hồ Thị Ngọc, Nghiên cứu kỹ thuật học bán giám sát, Luận văn thạc sỹ Khoa học máy tính, người hướng dẫn PGS.TS Võ Trung Hùng, Đại học Đà Nẵng [3] Huỳnh Tân Trung, Hệ thống nhận dạng phân loại văn bản, Luận văn thạc sĩ Công nghệ thông tin, người hướng dẫn TS Trần Thái Sơn, Đại học quốc gia thành phố Hồ Chí Minh [4] Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự nhiên Tp Hồ Chí Minh [5] Trần Cao Đệ Phạm Nguyên Khang, Phân loại văn với máy học Vector hỗ trợ định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ [6] Nguyễn Thị Thanh Tâm, Tiếp cận khai phá liệu văn thử nghiệm ứng dụng phương pháp Naive Bayes bóc lột thư giác tự động, Luận văn thạc sỹ Truyền liệu mạng máy tính, người hướng dẫn Đại tá, PGS.TS Nguyễn Bá Tường, Học viện công nghệ bưu viễn thơng Tiếng nước ngồi: [7] Nerijus REMEIKIS, Ignas SKUČAS, Vida MELNINKAITÉ, Text Categorization Using Neural Networks Initialized with Decision Trees, INFORMATICA, 2004, Vol 15, No 4, 551–564 [8] Dang Duc Pham, Giang Binh Tran, Son Bao Pham, A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags, Faculty of Information Technology, College of Technology,Vietnam National University, Hanoi [9] Charu C Aggarwal, ChengXiang Zhai, Chapter A SURVEY OF TEXT CLASSIFICATION ALGORITHMS [10] Dinh Dien, Hoang Kiem, Nguyen Van Toan, 2001,Vietnamese Word Segmentation, pp.749-756,The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan [11] Taeho Jo, NTC (Neural Text Categorizer): Neural Network for Text Categorization, School of Information Technology & Engineering, Ottawa University, Ontario, Canada [12] Thorten Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In European Conference on Machine Learning (ECML), 1998 [13] Le An Ha, A method for word segmentation in Vietnamese, Procedding ofCorpus Linguistics 2003, Lancaster, UK [14] Đinh Quang Thắng, Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Cẩm Tú, Mathias Rossignol, Vũ Xuân Lương, Word segmentation of Vietnamese texts: a comparison of approaches [15] Jason D.M Rennie, Improving Multi-class Text Classification with NaïveBayes, 2001 [16] Miguel E Ruiz, Padmini Srinivasan, Automatic Text Categorization usingNeural Netwworks, Advances in Classification Research, Volume VIII [17] Lior Rokach, Oded Maimon, Chapter DECISION TREES [18] Li Baoli,Yu Shiwen, and Lu Qin, An Improved k-Nearest NeighborAlgorithm for Text Categorization [19] Yiming Yang and Xin Liu, A re-examination of text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrievar (SIGIR’99) [20] Wang Yu, Wang Zhengguo (2007), A fast knns algorithm for text categorization”, Proceedings of the Sixth International Conference on Machine Learning and Cybernetics, Hong Kong, pp 3436-3441 ... cứu luận văn gồm: - Hệ thống công văn Ủy ban nhân dân xã Hòa Phú - Các phương pháp phân loại văn tiếng Anh - Các phương pháp phân loại văn tiếng Việt - Phân loại văn tiếng Anh sử dụng phương pháp... bản, phương pháp phân loại văn tiếng Anh, phương pháp phân loại văn tiếng Việt 1.1 Phân loại văn 1.1.1 Khái niệm văn Theo nghĩa rộng, văn hiểu vật mang tin ghi ký hiệu hay ngôn ngữ, nghĩa phương. .. 1.3 Các phương pháp phân loại văn “Việc phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện”.[19] Từ trước đến nay, phân loại văn tiếng