Với sự phát triển vượt bậc của Internet trong thời đại này thì việc tìm kiếm văn bản rất dễ dàng tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này tác giả đã đề xuất mô hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chóng hơn Mô hình phân loại văn bản đề xuất sử dụng lý thuyết Naïve Bayes phương pháp phân loại dựa vào xác suất Bên cạnh đó tác giả sử dụng Latent Semantic Analysis để tối ưu hóa giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất Với sự phát triển vượt bậc của Internet trong thời đại này thì việc tìm kiếm văn bản rất dễ dàng tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này tác giả đã đề xuất mô hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chóng hơn Mô hình phân loại văn bản đề xuất sử dụng lý thuyết Naïve Bayes phương pháp phân loại dựa vào xác suất Bên cạnh đó tác giả sử dụng Latent Semantic Analysis để tối ưu hóa giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất Với sự phát triển vượt bậc của Internet trong thời đại này thì việc tìm kiếm văn bản rất dễ dàng tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này tác giả đã đề xuất mô hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chóng hơn Mô hình phân loại văn bản đề xuất sử dụng lý thuyết Naïve Bayes phương pháp phân loại dựa vào xác suất Bên cạnh đó tác giả sử dụng Latent Semantic Analysis để tối ưu hóa giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất Với sự phát triển vượt bậc của Internet trong thời đại này thì việc tìm kiếm văn bản rất dễ dàng tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này tác giả đã đề xuất mô hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chóng hơn Mô hình phân loại văn bản đề xuất sử dụng lý thuyết Naïve Bayes phương pháp phân loại dựa vào xác suất Bên cạnh đó tác giả sử dụng Latent Semantic Analysis để tối ưu hóa giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất Với sự phát triển vượt bậc của Internet trong thời đại này thì việc tìm kiếm văn bản rất dễ dàng tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này tác giả đã đề xuất mô hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chóng hơn Mô hình phân loại văn bản đề xuất sử dụng lý thuyết Naïve Bayes phương pháp phân loại dựa vào xác suất Bên cạnh đó tác giả sử dụng Latent Semantic Analysis để tối ưu hóa giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHẠM VŨ NHẬT HUY NGHIÊN CỨU ỨNG DỤNG MẠNG BAYES XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đặng Hoài Phương Đà Nẵng – Năm 2017 LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên Phạm Vũ Nhật Huy MỤC LỤC DANH MỤC CÁC BẢNG - BIỂU LỜI MỞ ĐẦU Chương TỔNG QUAN CÁC MƠ HÌNH, PHƯƠNG PHÁP VÀ HỆ THỐNG PHÂN LOẠI VĂN BẢN 1.1 TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 1.2 CÁC MƠ HÌNH VÀ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 1.2.1 Xử lý văn 1.2.2 Phương pháp phân loại văn 1.2.2.1 Phương pháp K-Nearest Neighbor (KNN) 1.2.2.2 Phương pháp Linear Least Square Fit (LLSF) 11 1.2.2.3 Phương pháp định (Decision tree) 11 1.2.2.4 Support Vector Machines (SVM) 12 1.2.2.5 Neural Network (NNet) 13 1.2.2.6 Centroid - Based Vector 15 1.3 KẾT LUẬN CHƯƠNG 18 Chương HỆ THỐNG PHÂN LOẠI VĂN BẢN 19 2.1 XÂY DỰNG MƠ HÌNH PHÂN LOẠI VĂN BẢN 19 2.2 CÁC GIAI ĐOẠN TRONG HỆ THỐNG 22 2.2.1 Tiền xử lý văn 22 2.2.2 Tách từ 22 2.2.3 Phương pháp phân loại văn sử dụng thuật tốn Nạve Bayes 24 2.2.3.1 Lý thuyết xác suất Bayes 25 2.2.3.2 Phân loại văn dựa Naïve Bayes 29 2.2.4 Phương pháp giảm kích thước tập văn huấn luyện 32 2.2.4.1 Phương pháp Latent Semantic Analysis: 32 2.2.4.2 Kỹ thuật SVD - LSA áp dụng tối ưu hóa tập văn huấn luyện: 33 2.3 KẾT LUẬN CHƯƠNG 38 Chương THIẾT KẾ VÀ TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG 39 3.1 PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN 39 3.2 THIẾT KẾ HỆ THỐNG PHÂN LOẠI VĂN BẢN 40 3.2.1 Biểu đồ use-case 40 3.2.2 Biểu đồ 41 3.2.3 Thiết kế sở liệu hệ thống 41 3.2.4 Môi trường công cụ phát triển hệ thống 43 3.2.5 Các chức chương trình 44 3.3 TRIỂN KHAI THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 48 3.3.1 Xây dựng liệu văn huấn luyện 48 3.3.2 Triển khai hệ thống 49 3.3.3 Kết thực nghiệm 50 3.4 KẾT LUẬN CHƯƠNG 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 DANH MỤC TÀI LIỆU THAM KHẢO NGHIÊN CỨU ỨNG DỤNG MẠNG BAYES XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN Học viên: Phạm Vũ Nhật Huy Chuyên ngành: Khoa khọc máy tính Mã số: 60.48.01.01 Khóa: K31 - Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Với phát triển vượt bậc Internet thời đại này, việc tìm kiếm văn dễ dàng; nhiên vấn đề đặt tìm kiếm văn phù hợp với mục đích người dùng lượng sở liệu văn lớn Trong luận văn này, tác giả đề xuất mơ hình phân loại văn nhằm giúp cho việc tìm kiếm dễ dàng nhanh chóng Mơ hình phân loại văn đề xuất sử dụng lý thuyết Naïve Bayes - phương pháp phân loại dựa vào xác suất Bên cạnh đó, tác giả sử dụng Latent Semantic Analysis để tối ưu hóa, giảm kích thước tập văn huấn luyện Xây dựng hệ thống tự động phân loại văn sở mơ hình đề xuất Từ khóa – phân loại văn bản, phân tích ngữ nghĩa tiềm ẩn, mạng Bayes, phân tích tập huấn luyện, xử lý ngôn ngữ tự nhiên RESEARCH BAYESIAN NETWORK STRUCTURE AND APPLIED TO DOCUMENT CLASSIFICATION SYSTEM Abstract - Nowadays the internet has increasingly developed, and searching documents by Internet is very easy But, the problem is how to find suitable documents for needs of the user while the databases on the Internet is very large and separate to many different specialties In this thesis, the author has proposed a documents classification model to make the process of searching is easier and faster The proposed model uses the Naïve Bayes theory - a popular classification technique based on probability In addition, the author uses Latent Semantic Analysis to optimize and reduce the size of the training text Beside that, the author build a document classification system based on the proposed model Keywords – document classification, Latent semantic analysis, Bayes network, analysis training data, natural language processing DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt PLVB Tiếng Anh Tiếng Việt Phân loại văn LSA Latent semantic analysis SVD LLSF Singular Value Decomposition Phân tích giá trị đơn Linear Least Square Fit Bình phương tối thiểu KNN K-Nearest Neighbor K láng giềng gần (phân loại văn bản) SVM Support vector Machine Máy véc-tơ hỗ trợ NNet Neural Network Mạng Nơ-ron NB Nạve Bayes Phân tích ngữ nghĩa tiềm ẩn DANH MỤC CÁC BẢNG BIỂU Số hiệu Tên bảng Trang 1.1 Bảng ví dụ phương pháp KNN 10 1.2 Bảng so sánh ưu, nhược điểm phương pháp 16 PLVB 2.1 Ví dụ điển hình thuật tốn Nạve Bayes 26 2.2 Xác suất giai đoạn Huấn luyện 28 2.3 Bảng liệu tập huấn luyện 30 3.1 Thông tin chủ đề 42 3.2 Thông tin từ tách 42 3.3 Thơng tin từ khóa cho chủ đề huấn luyện 43 3.4 Thông tin văn huấn luyện 43 3.5 Thông tin phân loại 43 3.6 Bảng thông tin liệu văn huấn luyện 49 3.7 Bảng kết phân loại văn tay 49 3.8 Bảng so sánh kết phân loại văn người 50 máy DANH MỤC CÁC HÌNH ẢNH Số hiệu Tên bảng Trang 1.1 Bài toán phân loại văn 1.2 Hình minh họa SVM 13 1.3 Kiến trúc mơ đun (Modular Architecture) 14 2.1 Mơ hình PLVB sở thuật tốn Nạve Bayes 20 LSA 2.2 Quy trình tách từ cơng cụ vnTokenizer 23 2.3 Mô tả công thức kỹ thuật SVD 33 2.4 Mô tả công thức kỹ thuật SVD áp dụng thực tế 37 3.1 Màn hình Xử Lý Tập Huấn Luyện 45 3.2 Màn hình chức Phân Loại Văn Bản 46 3.3 Màn hình Kết Quả Phân Loại Văn Bản 47 3.4 Màn hình Quản Lý 48 DANH MỤC CÁC SƠ ĐỒ Số hiệu Tên sơ đồ Trang 2.1 Sơ đồ hoạt động LSA 35 3.1 Sơ đồ chức hệ thống phân loại văn 39 3.2 Use-case Xử lý tập huấn luyện 40 3.3 Use-case Phân loại văn 40 3.4 Use-case Quản lý chủ đề 40 3.5 Use-case Quản lý văn huấn luyện 41 3.6 Biểu đồ xử lý phân loại văn 41 3.4 Sơ đồ mối quan hệ Bảng liệu 42 LỜI MỞ ĐẦU Lý chọn đề tài: Ngày người không ngừng chia sẻ liệu thông tin tất đề tài sống, điều làm cho số lượng tập tin văn xuất mạng Internet ngày nhiều hơn, dẫn đến khó khăn việc tìm kiếm liệu văn Vấn đề đặt hệ thống truy cập thông tin phải làm việc xử lý lượng liệu ban đầu nhiều mà lượng truy cập lớn Vì việc phân loại văn việc làm cấp thiết nhằm giúp cho việc truy cập liệu cách nhanh chóng Với lượng sở liệu lớn so sánh văn một, việc tạo thời gian dư thừa để tổ chức tìm kiếm liệu khả quan Do việc phân loại văn theo nhóm liệu vấn đề quan trọng trọng lĩnh vực xử lý ngôn ngữ Trong luận văn này, tác giả tập trung nghiên cứu ứng dụng mạng Bayes Latent Semantic Analysis để áp dụng xây dựng hệ thống tự động phân loại văn Mơ hình phân loại văn đề xuất sử dụng lý thuyết Naïve Bayes - phương pháp phân loại dựa vào xác suất nhằm tăng tốc độ phân loại Latent Semantic Analysis để tối ưu hóa, giảm kích thước tập văn huấn luyện giảm độ lớn tập huấn luyện Vì lý trên, tác giả đề xuất chọn đề tài luận văn cao học: “Nghiên cứu ứng dụng mạng Bayes xây dựng hệ thống tự động phân loại văn bản” Mục đích ý nghĩa đề tài: a Mục đích - Nghiên cứu, phân tích mơ hình, phương pháp phân loại văn bản; - Nghiên cứu ứng dụng mạng Bayes để xây dựng mơ hình phân loại văn sử dụng Latent Semantic Analysis để tối ưu hóa kích thước tập văn huấn luyện; 51 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt được: Phân loại văn tốn khó vấn đề phân loại văn cần phải thực xử lý ngôn ngữ, mà ngôn ngữ tự nhiên khó để mơ tả cách cụ thể chi tiết (không phong phú từ vựng, cú pháp mà còn phức tạp ngữ nghĩa) Kết đạt phương pháp chấp nhận phân loại văn tiếng Việt Nhờ tính đơn giản, thơng số tính tốn không cần lớn phương pháp khác, khả linh hoạt thay đổi thông tin huấn luyện, thời gian phân loại phù hợp yêu cầu Luận văn đạt số kết sau: - Trình bày phương pháp phân loại văn tiếng Việt sử dụng thuật tốn Nạve Bayes áp dụng phương pháp LSA để giảm số chiều đặc trưng tập văn huấn luyện nhằm nâng cao hiệu suất phân loại văn bản; - Hiện thực hóa hệ thống phân loại văn tự động góp phần giảm thiểu tiêu tốn thời gian công sức việc phân loại văn bản, giúp cho trình tìm kiếm văn nhanh chóng, thuận tiện Hạn chế: Với kết thử nghiệm ban đầu, hệ thống phân loại văn bước đầu hoạt động hiệu quả, góp phần thực phân loại văn tự động, giúp tiết kiệm thời gian công sức đọc văn cách thủ công Tuy nhiên hệ thống còn tồn số nhược điểm cần khắc phục nhằm cải thiện độ xác tốc độ phân loại văn: - Phụ thuộc vào tập văn huấn luyện nên tập văn huấn luyện khơng đầy đủ, khơng xác, dẫn đến việc phân loại văn khơng xác; 52 - Hệ thống chủ yếu xây dựng chức bản, việc áp dụng vào thực tiễn cần xây dựng thêm nhiều chức hỗ trợ cho việc phân loại trích xuất văn Hướng phát triển: Để khắc phục hạn chế nêu trên, hướng phát triển hệ thống là: - Áp dụng xử lý đa luồng nhằm nâng cao hiệu hệ thống; - Tiếp tục nghiên cứu phát triển tính xác mơ hình đề xuất DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Anh: [1] S.L Ting, W.H Ip, Albert H.C Tsang, Is Naïve Bayes a Good Classifier for Document Classification ?, 2011; [2] Ludovic Denoyer & Patrick Gallinari, Bayesian Network Model For SemiStructured Document Classification, 2004; [3] Vito D’Orazio, Steven T Landis, Glenn Palmer, Philip Schrodt, Applications of Automated Document Classification Using Support Vector Machines, 2014; [4] Ioan Pop, An approach of the Naive Bayes classifier for the document classification, 2006; [5] Yong Wang, J Hodges, Bo Tang, Classification of Web documents using a naive Bayes method, 2003; [6] Jong-Yeol Yoo1 & Dongmin Yang, Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier, 2015; [7] Sebastian Raschka, Naive Bayes and Text Classification, 2014; [8] Daniela Xhemali, Christopher J Hinde Roger G Stone, Naïve Bayes vs Decision Tree vs Neural Networks in the Classification of Training Web Pages, 2009; [9] Li Baoli, Yu Shiwen, Lu Qin, An Improved k-Nearest Neighbor Algorithm for Text Categorization, 2012; [10] Larry M Manevitz & Malik Yousef, One-Class SVMs for Document Classification, 2001; [11] Tong Zhang and Frank J Oles, Text Categorization Based on Regularized Linear Classifiacation Methods, 2001; [12] Yiming Yang & Christopher G Chute, A linear least squares fit mapping method for information retrieval from natural language texts, 1992; [13] Eui-Hong (Sam) Han and George Karypis, Centroid-Based Document Classification:Analysis & Experimental Results, 2000; [14] Alex Thomo, Latent Semantic Analysis (Tutorial) Tiếng Việt: [15] Trần Cao Đệ Phạm Nguyên Khang, Phân loại văn với máy học véc-tơ hỗ trợ định, 2012; [16] Lê Thanh Trà, Nghiên cứu phương pháp phân loại văn ứng dụng vào phân loại thư điện tử, 2013; [17] Trần Hoàng Hiệp, Nghiên cứu giải thuật Naїve Bayes toán phân loại văn bản, 2013; [18] Nguyễn Trần Thiên Thanh, Tìm hiểu hướng tiếp cận toán Phân loại văn xây dựng phân mềm phân loại tin tức báo điện tử, 2005 [19] Phạm Hữu Lê Quốc Phục, Nghiên cứu ứng dụng mạng nơ-ron nhân tạo giải lớp toán dự đoán phân loạ”, 2010; [20] Trần Ngọc Phúc, Phân Loại Nội Dung Tài Liệu Web, 2012; [21] Đỗ Thanh Nghị & Trần Cao Đệ, Kết hợp ngữ nghĩa với mô hình túi từ để cải tiến giải thuật k láng giềng phân lớp văn ngắn, 2014; [22] Nguyễn Thị Thanh Tâm, Tiếp cận khai phá liệu văn thử nghiệm ứng dụng phương pháp Naïve Bayes lọc thư rác tự động\, 2010; [23] Trương Ngọc Sơn, Nhận dạng tập từ hạn chế Tiếng Việt môi trường nhiễu, 2009 [24] Trịnh Quốc Sơn, Nghiên Cứu Phân Loại Văn Bản Tiếng Việt Website: [25] https://ongxuanhong.wordpress.com/2015/07/28/scikit-learn-k-nearestneighbors/; [26] http://old.viasm.edu.vn/wp-content/uploads/2015/08/SML-VIASMAugust7print-1.pdf; [27] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer ... dụng mạng Bayes xây dựng hệ thống tự động phân loại văn bản? ?? Mục đích ý nghĩa đề tài: a Mục đích - Nghiên cứu, phân tích mơ hình, phương pháp phân loại văn bản; - Nghiên cứu ứng dụng mạng Bayes. .. trung nghiên cứu ứng dụng mạng Bayes Latent Semantic Analysis để áp dụng xây dựng hệ thống tự động phân loại văn Mơ hình phân loại văn đề xuất sử dụng lý thuyết Naïve Bayes - phương pháp phân loại. .. Việt áp dụng thuật tốn Nạve Bayes để phân loại văn tiếng Việt khắc phục hạn chế còn tồn 19 Chương HỆ THỐNG PHÂN LOẠI VĂN BẢN 2.1 XÂY DỰNG MƠ HÌNH PHÂN LOẠI VĂN BẢN Phân loại văn cơng việc phân