Nghiên cứu các phương pháp phân lớp văn bản và ứng dụng xây dựng phần mềm phân loại văn bản hành chính tại sở thông tin và truyền thông đà nẵng

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ TRUNG NHỰT NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN VÀ ỨNG DỤNG XÂY DỰNG PHẦN MỀM PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TẠI SỞ THƠNG TIN VÀ TRUYỀN THÔNG THÀNH PHỐ ĐÀ NẴNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG, NĂM 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ TRUNG NHỰT NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN VÀ ỨNG DỤNG XÂY DỰNG PHẦN MỀM PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TẠI SỞ THƠNG TIN VÀ TRUYỀN THƠNG THÀNH PHỐ ĐÀ NẴNG Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ Hướng dẫn khoa học: PGS.TS HUỲNH CÔNG PHÁP ĐÀ NẴNG, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu tìm hiểu riêng tơi Các thông tin số liệu sử dụng luận văn trung thực, có nguồn gốc rõ ràng, có sở lý thiết tham khảo Các luận điểm, liệu luận văn tơi tự tìm hiểu, phân tích, tổng hợp cách trung thực, khách quan phù hợp với thực tiễn Việt Nam Tác giả luận văn Lê Trung Nhựt NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN VÀ ỨNG DỤNG XÂY DỰNG PHẦN MỀM PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TẠI SỞ THÔNG TIN VÀ TRUYỀN THÔNG THÀNH PHỐ ĐÀ NẴNG Học viên: Lê Trung Nhựt Mã số: 60.48.01 Khóa: 31 Chuyên ngành: Khoa học máy tính Trường Đại học Bách khoa-ĐHĐN Tóm tắt - Bài tốn phân loại văn bản, thực chất, xem tốn phân lớp Phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện Nhiều kỹ thuật máy học khai phá liệu áp dụng vào toán phân loại văn bản, chẳng hạn: phương pháp định dựa vào Bayes ngây thơ (Naive Bayes), định (decision tree), k–láng giềng gần (KNN), mạng nơron (neural network),… Luận văn tập trung nghiên cứu phương pháp phân loại văn tiếng Việt hiệu Bước đầu thử nghiệm văn hành sở Thơng tin Truyền thông thành phố Đà Nẵng cho kết có độ xác cao so với yêu cầu Từ khóa – Khai phá văn bản, Phân loại văn bản, SVM, RESEARCH ON THE METHODS OF CLARIFYING DOCUMENTS, AND THE APPLICATION FOR CONSTRUCTION OF CLARIFICATION SOFTWARE OF ADMINISTRATIVE DOCUMENTS AT DEPARTMENT OF INFORMATION AND COMMUNICATION OF ĐA NANG CITY Abstract - Text document classification, basically, can be considered as a classification problem Automatic text document classification is to assign a label to a new document based on the similarity of the document with labeled documents in the training set Many machine learning and data mining methods have been applied in text document classification such as: Naive Bayes, decision tree, k – Nearest neighbor, neural network,…The thesis focuses on different approaches to Vietnamese text classification problem and methods that help improve the quality of the classification result These approaches and methods have been implemented and tested against documents gathered from Da Nang Department of Information and Communications, giving promissing result with high accuracy Key words – Text mining, Text classification/Categorization, SVM MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Bố cục đề tài Tổng quan tài liệu nghiên cứu CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 1.1.1 Tổng quan toán phân lớp liệu 1.1.2 Tổng quan trình phân lớp liệu 1.2 TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN 1.2.1 Khái niệm 1.2.2 Thực trạng vấn đề 1.2.3 Tổng quan phương pháp phân lớp văn 1.2.4 Ứng dụng việc phân lớp văn 1.2.5 Quá trình phân lớp văn 1.2.6 Đánh giá máy phân lớp văn 10 1.2.7 Những yếu tố ảnh hưởng đến trình phân lớp 11 1.3 PHÁT BIỂU VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢN 12 1.3.1 Mơ hình tổng qt 12 1.3.2 Giai đoạn huấn luyện 13 1.3.3 Giai đoạn phân lớp 14 1.4 TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC 15 1.4.1 Tổng quan giới 15 1.4.2 Tổng quan nước 16 1.4.3 Giới thiệu cơng trình nghiên cứu liên quan 17 1.5 KẾT LUẬN CHƯƠNG 22 CHƯƠNG ĐỀ XUẤT CÁC PHƯƠNG PHÁP ÁP DỤNG 23 2.1 PHÁT BIỂU BÀI TOÁN 23 2.2 PHÂN TÍCH YÊU CẦU ĐỀ TÀI 24 2.3 MƠ HÌNH ĐỀ XUẤT 25 2.4 TIỀN XỬ LÝ VĂN BẢN 25 2.4.1 Tách từ tiếng việt 26 2.4.2 Một số phương pháp tách từ 27 2.4.3 So sánh phương pháp tách từ tiếng Việt 30 2.4.4 Loại bỏ từ dừng 31 2.5 CHUYỂN ĐỔI VĂN BẢN TỪ DẠNG NGÔN NGỮ TỰ NHIÊN SANG MƠ HÌNH KHƠNG GIAN VECTOR 31 2.5.1 Binary vector 32 2.4.2 TF-IDF vector 33 2.4.3 Độ tương đồng vector 34 2.5 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN BẰNG HỌC MÁY 35 2.5.1 Thuật toán Support Vector Machine (SVM) 35 2.5.2 Thuật toán K-Nearest Neighbor (kNN) 38 2.5.3 Thuật toán Naϊve Bayers (NB) 39 2.5.4 Đề xuất áp dụng 41 2.6 KẾT LUẬN CHƯƠNG 41 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 43 3.1 PHÁT TRIỂN MOUDLE CHƯƠNG TRÌNH 43 3.1.1 Tiền xữ lý văn 43 3.1.2 Vector hóa liệu 44 3.2 ỨNG DỤNG SVM VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT TẠI SỞ THƠNG TIN VÀ TRUYỀN THÔNG ĐÀ NẴNG 45 3.3 XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 48 3.3.1 Yêu cầu toán 48 3.3.2 Danh sách chức 48 3.3.3 Giao diện chương trình 49 3.3.4 Kết thử nghiệm 50 3.4 ĐÁNH GIÁ 52 3.5 KẾT LUẬN CHƯƠNG 52 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) DANH MỤC CÁC CHỮ VIẾT TẮT CRFs IDF kNN LDA LRMM NB SVD TBL TF WFST : Conditional Random Fields : Inverse Document Frequency : K-Nearest Neighbor : Latent Drichlet Allocation : Left Right Maximum Matching : Naϊve Bayers : Singular Value Decomposition : Transformation-Based Learning : Term Frequency : Weighted finite-state Transducer DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Kết phân loại theo phương pháp vector hỗ trợ 19 định Trần Cao Đệ Phạm Nguyên Khang 1.2 Kết phân loại văn theo phương pháp Naïve Bayes 20 Trần Thị Thu Thảo Vũ Thị Chinh 1.3 Kết phân loại email Spam Matlad Shahar 22 Yifrah Guy Lev 3.1 Danh sách chức cần có chương trình thử nghiệm 48 3.2 chủ đề số lượng mẫu dùng tập thử nghiệm 50 3.3 Bảng kết kiểm chứng phân lớp máy học S3VM 50 3.4 Bảng kết kiểm chứng phân lớp K-Nearest Neighbor 51 3.5 Bảng kết kiểm chứng phân lớp Naϊve Bayers 51 3.6 So sánh hiệu phân loại văn S3VM với kNN NB 51 DANH MỤC CÁC HÌNH Số hiệu Tên hình hình Trang 1.1 Mơ hình tổng quan toán phân lớp 1.2 Bài toán phân lớp văn 1.3 Sơ đồ biểu diễn trình phân lớp liệu văn 10 1.4 Mơ hình tổng qt 13 1.5 Mơ hình giai đoạn huấn luyện 13 1.6 Chi tiết giai đoạn huấn luyện 14 1.7 Mơ hình giai đoạn phân lớp 14 1.7 Mơ hình chi tiết giai đoạn phân lớp 15 1.8 Phân loại văn 18 1.9 Phân loại văn 19 2.1 Mơ hình đề xuất 25 2.2 Mơ hình tách từ tiếng Việt 27 2.3 Minh họa hình học thuật tốn SVM 36 3.1 Giao diện form Huấn luyện 49 3.2 Giao diện chương trình 49 51 Kết thử nghiệm sau: Bảng 3.3 Bảng kết kiểm chứng phân lớp máy học S3VM Máy học S3VM Tên lớp Precision Recall F1 Công nghệ thơng tin 1.000 0.777 0.875 Bưu viễn thơng 1.000 0.888 0.941 An ninh thông tin 0.846 1.000 0.916 Báo chí xuất 0.909 1.000 0.952 Trung Bình 0.921 Bảng 3.4 Bảng kết kiểm chứng phân lớp K-Nearest Neighbor Tên lớp Máy học K-Nearest Neighbor Precision Recall F1 Công nghệ thông tin 1.000 0.778 0.875 Bưu viễn thơng 1.000 0.889 0.941 An ninh thơng tin 0.769 1.000 1.000 Báo chí xuất 0.942 1.000 0.800 Trung Bình 0.904 Bảng 3.5 Bảng kết kiểm chứng phân lớp Naϊve Bayers Máy học Naϊve Bayers Tên lớp Precision Recall F1 Công nghệ thông tin 1.000 0.556 0.7143 Bưu viễn thơng 0.800 0.889 0.8421 An ninh thơng tin 0.840 1.000 0.916 Báo chí xuất 0.991 1.000 0.952 Trung Bình 0.856 52 3.4 ĐÁNH GIÁ Bảng 3.6 So sánh hiệu phân loại văn S3VM với kNN NB Máy học Naϊve Bayers Máy học S3VM Tên lớp Precision Recall F1 Precision Recall F1 Máy học KNN Precision Recall F1 CNTT 1.000 0.777 0.875 1.000 0.556 0.714 1.000 0.778 0.875 BCVT 1.000 0.888 0.941 0.800 0.889 0.842 1.000 0.889 0.941 ANTT 0.846 1.000 0.916 0.840 1.000 0.916 0.769 1.000 1.000 BCXT 0.909 1.000 0.952 0.991 1.000 0.952 0.942 1.000 0.800 Trung bình 0.921 0.856 0.904 Thời gian 0.43s 0.0028s 0.007s Việc tiến hành thực nghiệm tập liệu huấn luyện 400 liệu cho phân lớp cho kết tốt độ đo F1 trung bình 90% Dựa kết bảng 3.6 so sánh hiệu phân loại văn với giải thuật S3VM, K-Nearest Neighbor, Naϊve Bayers từ số liệu thấy dù độ chênh lệch không cao phương pháp phân loại S3VM tốt hai phương pháp lại Tuy nhiên, phương pháp điểm hạn chế Phụ thuộc nhiều vào q trình trích chọn đặc trưng, từ vựng xây dựng thủ công nên khơng thể tránh khỏi cảm nhận thiếu tính khách quan Nhược điểm cải thiện cách xây dựng từ vựng cẩn thận, phong phú xác 3.5 KẾT LUẬN CHƯƠNG Chương trình bày áp dụng thuật tốn việc phân loại văn sở Thông tin Truyền thơng thành phố Đà Nẵng, xây dựng chương trình thử nghiệm đơn giản dựa ngơn ngữ lập trình python Sau tiến hành chạy thử nghiệm với số liệu đầu vào Về chương trình phân loại văn thực hồn thành chức đặt giúp người sử dụng xây dựng phân loại cho loại văn tiếng Việt Tự động phân loại văn dựa mơ hình xây dựng Tuy nhiên việc thu thập ban đầu mức thử nghiệm Trong thời gian tới học viên tiếp tục nghiên cứu số phương pháp cải tiến để áp dụng vào tốn Bổ sung số tính hồn thiện chương trình để nâng cao hiệu việc phân loại, đồng thời xây dựng kho liệu đủ lớn nhằm mục đích phân loại văn cách xác 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Đánh giá kết thực đề tài Qua nghiên cứu thực hiện, luận văn đạt kết sau: Luận văn trình bày khái quát toán phân loại văn bản, khái quát số phương pháp phân loại văn Naive Bayes, k Nearest Neighbor, Support Vector Machine , khái quát số kỹ thuật toán phân loại Trong luận văn trọng nghiên cứu phân loại văn sử dụng phương pháp Support Vector Machine Xây dựng module tách từ Loại bỏ từ dừng Khảo sát tài liệu thuộc chuyên ngành để tìm hiểu đặc trưng riêng Xây dựng form huấn luyện cho phép người dùng huấn luyện văn Thực việc chạy thử nghiệm dựa thuật toán S3VM, k Nearest Neighbor, Naive Bayes Sau đưa nhận xét đánh giá phương pháp Tuy giải mục tiêu đề ra, luận văn đánh giá phân loại văn dựa liệu có sẵn sở lý thuyết chưa thực xây dựng ứng dụng hồn thiện để đánh giá xác ưu, nhược điểm hướng tiếp cận Chương trình thử nghiệm cịn đơn giản, dừng lại mức thực thuật toán liệu đầu vào file văn truyền thống có định dạng đơn giản (*.txt), chưa hỗ trợ việc đọc trực tiếp từ file word, PDF, , Tập liệu cịn hạn chế độ xác chương trình cịn chưa cao, tính chương trình cịn thơ chưa chưa hợp lý khoa học Chương trình áp dụng cho nhóm chủ đề xác định trước, chưa mở rộng cho chủ đề Hướng phát triển Luận văn giải toán phân loại văn dựa tảng lý thuyết ứng dụng sẵn có Để mở rộng tính thực tế cho luận văn cần tiếp tục xây dựng ứng dụng cụ thể áp dụng giải pháp lựa chọn, ứng dụng cho việc xây dựng hệ thống phân loại tự động văn cụ thể sau - Xây dựng thêm module chuyển đổi văn từ định dạng word định dạng pdf sang dạng text để thực phân loại - Nghiên cứu xây dựng phân tích ngữ nghĩa tiếng Việt để tăng mức độ xác cho việc tách từ rút trích từ đặc trưng nhằm tăng độ xác việc phân loại - Tiếp tục huấn luyện thêm liệu để từ đặc trưng chuyên ngành xác 54 - Xây dựng liệu huấn luyện nhiều để có độ xác cao - Chương trình ứng dụng phân loại cho loại văn bản, nhiên công việc ngày đơn vị nhận gửi nhiều chủ đề văn Hướng nghiên cứu xây dựng chương trình mở rộng để phân loại văn theo nhiều chủ đề tăng cường tính tiện dụng cho chương trình - Nghiên cứu áp dụng số giải thuật tính tốn độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mô hình phân loại văn tiếng Việt - Xây dựng triển khai hệ thống hỏi đáp tiếng Việt cho người sử dụng DANH MỤC TÀI LIỆU THAM KHẢO Tiếng việt: [1]Đỗ Bích Diệp, Phân loại văn dựa mơ hình đồ thị, Luận văn cao học, Trường Đại học Tổng hợp New South Wales – Australia, 2004 [2]Nguyễn Ngọc Bình, Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt, Kỷ yếu hội thảo ICT.rda’04, Hà nội, 2004 [3]Nguyễn Duy Hải, Nguyễn Linh Giang, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Các cơng trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thơng, Tạp chí Bưu Viễn thơng, số 1, trang 61-67, tháng 7-1999 [4]Huỳnh Quyết Thắng, Đinh Thị Phương Thu, Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vector, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội, 2005 [5]Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, “Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý, giải thuật, thử nghiệm đánh giá kết quả”, Tạp chí Khoa học cơng nghệ, 2005 [6]Hồng Kiếm, Đỗ Phúc, Phân loại văn dựa cụm từ phổ biến, kỷ yếu hội nghị khoa học lần 2, Trường Đại Học Khoa Học Tự Nhiên, 2007 [7]Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên, 2006 [8]Trần Cao Đệ, Phạm Nguyên Khang, “Phân loại văn với máy học vector hỗ trợ định”, 2012 [9]Trần Thị Thu Thảo, Vũ Thị Chinh, “Xây dựng hệ thống phân loại tài liệu tiếng Việt”, Khoa CNTT, trường Đại học Lạc Hồng, 2011 [10] Hà Quang Thụy, Giáo trình khai phá liệu Web, NXB Giáo dục, Hà Nội, 2009 [11]Ủy ban Khoa học Xã hội Việt Nam, Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà Nội, 1983 [12]Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương, Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phịng, 2016 [13]Lê Hồng Dương, Ngơ Quốc Vinh, Nghiên cứu thuật tốn phân lớp sử dụng trình học máy bán giám sát, ứng dụng việc phân lớp trang web, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng, 2016 [14]Trần Thị Thu Thảo, Vũ Thị Chinh, Xây dựng hệ thống phân loại tài liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai, 2016 Tiếng anh: [15]Yang and Xin Liu, A re-examination of text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 [16]Joachims, Text Categorization with Support Vector Machines, Learning with Many Relevant Features, In European Conference on Machine Learning (ECML), 1998 [17]Y Yang and G.Chute, An example-based mapping method for text categorization and retrieval, ACM Transaction on Information Systems(TOIS), 12(3):252 277,1994 [18]H.Nguyen et al, Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese, 2005 [19]Shahar Yifrah, Guy Lev “Spam Email Filtering”, 2013 [20] Dinh Dien, Hoang Kiem, Nguyen Van Toan, “Vietnamese Word Segmentation”, The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp 749-756, 2001 [21] Eric Brill, “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging”, Computational Linguistics, 1995 [22] T Joachims, “A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization”, Proceedings of International Conference on Machine Learning, San Mateo, CA,1997 [23] K Bennett, A Demiriz, “Semi - Supervised Support Vector Machines”, Advances in Neural information processing systems, 12, p.368-374, 1998 [24] T Joachims, “Text Categorization with Support Vector Machine: Learning with Many Relevant Feautures”, Cornell Computer, 1997 ... HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ TRUNG NHỰT NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN VÀ ỨNG DỤNG XÂY DỰNG PHẦN MỀM PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TẠI SỞ THƠNG TIN VÀ TRUYỀN THÔNG THÀNH... Tác giả luận văn Lê Trung Nhựt NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN VÀ ỨNG DỤNG XÂY DỰNG PHẦN MỀM PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TẠI SỞ THƠNG TIN VÀ TRUYỀN THƠNG THÀNH PHỐ ĐÀ NẴNG Học viên:... tài liệu, văn - Ứng dụng phương pháp để xây dựng chương trình phân loại văn tiếng Việt bước đầu thử nghiệm văn thuộc sở Thông tin Truyền thông thành phố Đà Nẵng Đối tượng phạm vi nghiên cứu 3.1

Định dạng
Số trang	75
Dung lượng	5,1 MB