Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN HOÀNG HIỆP NGHIÊN CỨU GIẢI THUẬT NẠVE BAYES TRONG BÀI TỐN PHÂN LOẠI VĂN BẢN Chuyên ngành Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TS Nguyễn Thanh Thuỷ Hà Nội 2012 MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT III DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ IV LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 SỰ CẦN THIẾT CỦA VIỆC PHÂN LOẠI VĂN BẢN 1.1.1 Phân loại văn với ứng dụng 1.1.2 Nội dung văn thành phần chủ chốt để xác định văn 1.2 BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.2.1 Định nghĩa 1.2.2 Phát biểu toán 1.2.3 Phân loại 1.3 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.3.1 Sự cần thiết xây dựng hệ thống có khả tự “học” 1.3.2 Khai phá liệu, lớp hệ thống tự “học” 1.3.3 Phương pháp gần để giải toán phân loại văn 10 CHƯƠNG GIẢI THUẬT NẠVE BAYES VỚI BÀI TỐN PHÂN LOẠI VĂN BẢN 16 2.1 PHÂN BỐ MULTINOMIAL 16 2.2 CÔNG THỨC XÁC SUẤT BAYES 17 2.2.1 Phát biểu định lý 17 2.2.2 Các dạng khác định lý Bayes 17 2.2.3 Định lý Bayes với hàm mật độ xác suất 18 2.3 PHƯƠNG PHÁP NAIVE BAYES GIẢI BÀI TOÁN PHÂN LOẠI VĂN BẢN 18 2.4 MỘT SỐ HEURISTIC PHÁT TRIỂN CHO MULTINOMIAL NAIVE BAYES 20 2.4.1 Thực số cải thiện để nâng cao hiệu thuật toán 21 2.4.2 Sơ đồ cho giải thuật cho giải thuật TWCNB: 27 CHƯƠNG GIẢI THUẬT SVM TRONG BÀI TOÁN PHÂN LOẠI VĂN BẢN .28 3.1 PHÂN TÁCH TUYẾN TÍNH KHƠNG GIAN DỮ LIỆU 28 3.2 LÝ THUYẾT VỀ TỐI ƯU PHI TUYẾN 29 3.2.1 Điều kiện Karush-Kuhn-Tucker (KKT) 30 i 3.2.2 Lý thuyết đối ngẫu (Duality) 32 3.2.3 Giải toán đối ngẫu phương pháp giảm đạo hàm 34 3.3 GIẢI THUẬT SVM (SUPPORT VECTOR MACHINE) 35 3.3.1 Giai đoạn huấn luyện SVM 35 3.3.2 Giai đoạn nhận dạng 38 3.4 SVM VỚI CÁC TẬP MẪU KHƠNG PHÂN TÁCH TUYẾN TÍNH 39 3.4.1 Gần tuyến tính, sử dụng lề mềm – Soft margin 39 3.4.2 Phi tuyến – Sử dụng hàm nhân 41 3.4.3 SVM cho vấn đề nhận dạng đa lớp 45 3.5 KỸ THUẬT THỰC HIỆN SVM 47 3.5.1 Gom cụm (Chunking) 49 3.5.2 Phân rã (Decomposition) 50 3.5.3 Cực tiểu (Sequential Minimal Optimization - SMO) 51 3.5.4 Đánh giá giải thuật SMO 53 CHƯƠNG KẾT QUẢ THỬ NGHIỆM 54 4.1 Các liệu sử dụng trình thử nghiệm 54 4.1.1 Bộ liệu 20 newsgroups 54 4.1.2 Bộ liệu WebKB 55 4.1.3 Bộ liệu Reuters-21578 57 4.2 Cài đặt 02 giải thuật 59 4.2.1 Cài đặt cho giải thuật TWCNB 59 4.2.2 Cài đặt cho giải thuật SVM 59 4.3 Đánh giá kết thử nghiệm 60 4.3.1 Phương pháp đánh giá kết thử nghiệm 60 4.3.2 Kết thực đánh giá 61 KẾT LUẬN VÀ KIẾN NGHỊ 62 TÀI LIỆU THAM KHẢO 63 ii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT KÝ TỰ VIẾT TẮT TC IR ML SVM KKT WCNB MNB CNB TWCNB Ý NGHĨA Text Classification, Text Categorization – phân loại văn Information Retriveal Machine Learning Support Vector Machine Điều kiện Karush-Kuhn-Tucker Weight-normalized Complement Naive Bayes Multinomial Naive Bayes Complement Naive Bayes Transformed Weignt-normalized Complement Naive Bayes iii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Các viết trang web xếp theo mục Hình Tháp mơ tả trình đúc rút tri thức từ liệu Hình Phân bố xác xuất văn với xuất từ 24 Hình Phân bố d = 25 Hình Phân bố xác xuất suất với số lần xuất từ độ dài văn khác 26 Hình Lát cắt phân loại tạo siêu phẳng không gian phân loại biểu diễn thông qua vector w b 29 Hình Hàm f(x) đạt cực đại x0 S 29 Hình Ý nghĩa hình học điều kiện KKT 31 Hình Lựa chọn đường thẳng cho d lớn 37 Hình 10 Tập mẫu gần phân tách tuyến tính (khơng thể phân tách tuyến tính được) 39 Hình 11 Phân tách phi tuyến chuyển đổi khơng gian để trở tuyến tính 42 Hình 12 Thể không gian cũ không gian 42 Hình 13 Phân hoạch phi tuyến có nhiễu 44 Hình 14 Chuyển thành siêu phẳng với hàm Gaussian RBF 45 Hình 15 One-vs-rest với lớp 46 Hình 16 Các phân loại với SVM (1,4) 47 Hình 17 One-vs-one với lớp 47 Hình 18 Quá trình gom cụm để xây dựng siêu phẳng 50 Hình 19 Các trường hợp xảy với u1 u2 52 Hình 20 Các trường hợp đạt cực trị hàm 53 Hình 21 Cây thư mục liệu WebKb 56 iv Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC LỜI MỞ ĐẦU Sự phát triển khoa học công nghệ, đặc biệt mạng truyền thông, không đáp ứng nhu cầu thông tin hàng ngày, mà tạo dịch vụ trợ giúp cho người Việc người dùng mạng truyền thông đổi thông tin qua tin nhắn, email, diễn đàn (forum), … ngày trở nên phổ biến Cùng với phát triển dịch vụ gửi thông tin qua dịch vụ, ngày xuất tin nhắn, thư rác với loại nội dung khác đa phần gây phiền nhiễu cho người dùng phải nhận thông tin Để hỗ trợ người sử dụng tự động phân loại tin nhắn, email vậy, có nhiều phần mềm dịch vụ hỗ trợ, chương trình thường sử dụng từ khoá, blacklist để phân loại, cách làm có hiệu quả, khơng triệt để Vì cần đưa giải pháp phân loại tin nhắn, email dựa nội dung văn Chính lý trên, luận văn tập trung tìm hiểu toán phân loại văn (Text Categorization) Với Luận văn này, em tập trung nghiên cứu sâu vào toán với 02 phương pháp để thực phân loại văn Nạve Bayes, Support Vector Machine (SVM) Thực phân loại tập liệu mẫu, đánh giá kết thu Các nội dung thực trình nghiên cứu: ● Nghiên cứu giải thuật SVM nói chung áp dụng cho toán phân loại văn nói riêng ● Tìm hiểu cải tiến giải thuật Naïve Bayes, cho kết phân loại tốt gần với giải thuật SVM Phương pháp thực hiện: ● Xây dựng chương trình mơ giải thuật ● Thực kiểm nghiệm liệu mẫu Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC CHƯƠNG TỔNG QUAN VỀ BÀI TỐN PHÂN LOẠI VĂN BẢN 1.1 SỰ CẦN THIẾT CỦA VIỆC PHÂN LOẠI VĂN BẢN 1.1.1 Phân loại văn với ứng dụng Quá trình phân loại văn nhằm mục đích xác định văn (document) cho trước thuộc lớp ngữ nghĩa xác định trước Với mục đích ấy, việc phân loại văn áp dụng nhiều sống tại, ứng dụng cụ thể xếp lại tập văn bản, thành nhóm để thuận lợi cho việc tra cứu, tìm kiếm Đơn giản vào thư viện, người đọc xác định nhanh chóng sách muốn tìm dựa vào phân loại sách thư viện Một trang web tin tức với viết xếp theo nội dung giúp người đọc thuận tiện cho chuyên mục thích, giúp họ nhanh chóng tìm đến báo với nội dung mong muốn Hình Các viết trang web xếp theo mục Việc thực phân loại mục đích cịn giúp người làm việc nhiều với hệ thống email, tin nhắn phân loại thơng tin nhận thành nhóm cách tự động từ dễ dàng tìm thơng tin quan trọng Những mail gửi đến phân loại thành mail Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC ưa thích nhất, ưa thích hơn, ưa thích thư làm phiền Hơn nữa, ứng dụng sử dụng tương đối nhiều phân loại văn Đó thực phân loạinhững email, tin nhắn nhận email spam, tin nhắn rác Email spam email với nội dung xấu, khơng lành mạnh, email lừa đảo, hay đơn giản email quảng cáo sản phẩm gây phiền nhiễu cho người dùng Với nội dung tương tự tin nhắn rác gửi qua đường SMS đến người dùng gây phiền nhiễu khơng kém, phân loại nhờ áp dụng việc phân loại văn 1.1.2 Nội dung văn thành phần chủ chốt để xác định văn Khi tiếp xúc với văn bản, để xác định sơ lược nội dung thời gian ngắn, thường tìm hiểu tiêu đề văn Cách làm tỏ hiệu với người, việc giúp phân loại văn cách nhanh chóng mà không cần thiết phải đọc hết nội dung văn Trong trường hợp đoạn văn tiêu đề trích dẫn, sử dụng ý văn thơng qua câu chốt, thường nằm đầu hay cuối đoạn văn Nhưng cách phương pháp phân tích tự động máy tính cách làm trở nên hiệu khơng xác, câu tiêu đề văn tóm tắt sơ lược theo ý hiểu người, để phân tích kỹ, xác nội dung địi hỏi phải có lượng tri thức lớn Ví dụ báo với tiêu đề “10 phòng VIP ‘khủng’ giới”, tiêu đề phổ biến, thường gặp báo mạng, tiêu đề đưa từ ‘VIP’, ‘khủng’ từ có ý nghĩa đặc biệt, địi hỏi chương trình phân tích tự động phải có tri thức riêng xác định ngữ nghĩa Tương tự, với câu chốt văn bản, để xác định xác câu chốt văn đòi hỏi lượng tri thức riêng Bên cạnh đó, phân tích phục vụ cho tốn phân loại văn với mục đích phân loại SPAM email (email rác) gặp nhiều trường hợp phần tiêu đề văn nội dung văn bản, mà mang nghĩa hoàn toàn khác, nhằm đánh lừa người dùng email, hay chương trình phân loại Từ ta thấy rõ ràng rằng, để xây dựng hệ thống phân loại văn cách tự động, phải tác động từ phía người, cần dựa việc phân tích nội dung tồn văn bản, việc phân tích làm tăng độ xác q trình phân loại văn tăng cường tri thức hệ thống phân loại, hỗ trợ cho phân loại say Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC 1.2 BÀI TỐN PHÂN LOẠI VĂN BẢN 1.2.1 Định nghĩa Phân loại văn (Text Classification, hay cịn có tên khác Text Categorization Topic spotting viết tắt TC) hệ thộng tự động phân loại gán cho văn tên lớp (Categorization, Class, Topic) định nghĩa từ trước Xây dựng hệ thống phân loại văn kết hợp hệ thống trích rút thống tin (Information Retriveal – viết tắt IR) hệ thống học máy (Machine Learning – viết tắt ML) 1.2.2 Phát biểu toán Để tiện q trình thực trình bày thuật tốn phương pháp giải toán, phần luận văn đưa cách phát biểu toán Phân loại văn thực tế xây dựng hàm phân loại  sau: Trong đó: ● D(Documents) tập hợp văn cần phân loại, (với n số lượng văn bản) ● C (Categories) tập hợp lớp chứa văn ● không gian kết hợp văn di với lớp văn cj viết Hàm thực hiện: Một số điều cần lưu ý với toán: ● Việc phân loại văn thực dựa nội dung văn (text only), mà không dựa thông tin thêm tên văn metadata để thực phân loại ● Việc phân loại văn thực tế vấn đề có tính chủ quan Với văn có kiến khác phân loại vào Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC lớp Vì vậy, việc xây dựng hệ thống phân loại xây dựng hệ thống học có giám sát (Supervised Learning) lĩnh vực học máy hay nói văn phân loại dựa lượng văn phân loại sẵn 1.2.3 Phân loại Với văn bất kỳ, phân loại vào lớp, văn gán nhãn (label) Việc thực phân loại đơn nhãn (single-label tức văn thuộc vào lớp đó) đa nhãn (multi-label tức văn di thuộc vào nhiều lớp khác nhau) Với tốn TC đơn nhãn ta đưa khẳng định văn có lớp cj cho có tham số: Vì ta viết lại hàm  trở thành hàm Bài toán TC nhị phân (binary TC) toán đơn nhãn đặc biệt, văn phân loại thuộc lớp c hay không Vì ta viết lại hàm  trở thành: Đối với tốn TC đa nhãn coi tập hợp |C| toán TC nhị phân hàm thực phân loại có thuộc lớp ci hay khơng: 1.3 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Khả xây dựng máy có khả “học” từ kinh nghiệm đề tài tranh luận nhà khoa học Nhờ xuất máy tính điện tử, việc xây dựng cỗ máy có khả “học” hỗ trợ nhiều đem lại nhiều kết Những kết thể thiết kế máy thể cấp độ khả “học”, định nghĩa rõ ràng danh giới việc thể làm rõ Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC Dựa điều kiện suy được: ◦ Nếu : ◦ Nếu ◦ Nếu ui = C: (mẫu support vector) (mẫu support vector) (mẫu lỗi) Do xi mà ứng với ui mà thoả mãn điều kiện KKT thoả mãn điều kiện Và ngược lại vi phạm điều kiện vi phạm điều kiện KKT Do với vector ut, tất thành phần thoả điều kiện theo ngưỡng xem điều kiện dừng ● Khi khoảng cách đối ngẫu toán gốc toán đối ngẫu nhỏ ngưỡng (theo chương giá trị toán gốc giá trị toán đối ngẫu điểm cực trị nên khoảng đối ngẫu 0) Trở lại phương pháp giảm đạo hàm, đứng phương diện tính tốn việc tính đạo hàm F(u) gặp phải số khó khăn sau: Đạo hàm riêng phần theo chiều i là: Việc tính tốn hết tất chiều (có l chiều vậy) đòi hỏi phải tốn nhiều phép tính nhớ (có l giá trị ) Để giải vấn đề trên, nhà nghiên cứu đề xuất phương án hueristic để bước lặp cần cập nhật số chiều vector u mà thay đổi giá trị tất l chiều Đó phương pháp gom cụm, phân rã, cực tiểu 3.5.1 Gom cụm (Chunking) Phương pháp sử dụng tính thưa mẫu support vector Mặc dầu tập mẫu ban đầu có số lượng lớn (l lớn), nhiên số lượng support vector lại không nhiều Các vector ứng với ui = bỏ mà không làm ảnh hướng đến kết tốn Đó sở phương pháp gom cụm Đầu tiên, chọn l liệu mẫu số lượng nhỏ m mẫu (m 0, F(u2) hàm bậc hai lồi cực đại đạt L H (tức hay ) c) Điều kiện dừng tất thành phần u thỏa mãn điều kiện KKT theo ngưỡng 3.5.4 Đánh giá giải thuật SMO ● Tại bước, cần tính số giá trị hàm Nhân (2l - hàm) nên không tốn nhớ so với việc phải lưu giữ |x| giá trị hàm nhân ● Việc tính tốn để cập nhật ui uj không cần phải áp dụng phương pháp giải tốn QP truyền thống địi hỏi nhiều vòng lặp Những lý giúp tăng tốc cho kỹ thuật SMO Năm 2000 Keerthi đưa số cải tiến nhỏ để tăng tốc độ hội tụ cho kỹ thuật Trang 53 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC CHƯƠNG KẾT QUẢ THỬ NGHIỆM Trong phần luận văn trình bày cài đặt 02 giải thuật nêu Transformed Weignt-normalized Complement Naive Bayes giải thuật SVM kết chạy giải thuật liệu chuẩn 4.1 Các liệu sử dụng trình thử nghiệm Để thực thử nghiệm giải thuật nêu, em sử dụng liệu chuẩn phục vụ cho toán phân lớp văn bản: 20 newsgroups, WebKB, Reuters21578, liệu hay sử dụng báo, luận phân loại văn 4.1.1 Bộ liệu 20 newsgroups Bộ liệu 20 Newsgroups tập hợp khoảng 20,000 văn bán nhóm tin tức, chia gần cho 20 nhóm tin từ khác Bộ liệu tập hợp Ken Lang, phục vụ cho việc nghiên cứu viết báo Newsweeder: Learning to filter netnews, không đề cập cách rõ ràng báo Bộ liệu ngày phổ biến cho việc làm thí nghiệm nghiên cứu ứng dụng văn lĩnh vực học máy nói chung tốn phân loại văn bản, gom cụm văn nói riêng a) Cách tổ chức liệu Bộ liệu tổ chức thành 20 nhóm tin tức khác Một vài nhóm tin tức có nghĩa liên quan gần với nhau, ví dụ: comp.sys.ibm.pc.hardware / comp.sys.mac.hardware), lại có nhóm tin tức lại khơng liên quan đến nhóm tin tức cịn lại như: misc.forsale / soc.religion.christian Bảng thể danh sách 20 nhóm tin tức tập liệu phân tách độ liên quan với nhóm tin: comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x misc.forsale rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey sci.crypt sci.electronics sci.med sci.space talk.politics.misc talk.politics.guns talk.politics.mideast talk.religion.misc alt.atheism soc.religion.christian Trang 54 Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC b) Đóng gói liệu lựa chọn phiên Bộ liệu down từ trang web http://people.csail.mit.edu/~jrennie/20News-groups/ để dạng file nén (.tar.gz) Để bung file nén dùng nhiều phần mềm giải nén có 7-zip, WinRAR,… Sau giải nén liệu thể dạng thư mục, thư mục nhóm tin tức, với file liệu file text thể nội dung tin cụ thể nhóm tin Bộ liệu cung cấp 03 phiên (đều có link download trang nêu trên): ● 20news-19997.tar.gz: Đây liệu sở chưa tinh chỉnh ● 20news-bydate.tar.gz: Bộ liệu sau chỉnh sửa với file liệu nhóm tin xếp theo ngày, liệu trùng lặp, loại bỏ bớt chút liệu headers thừa (bao gồm 18846 tin) Với cấu trúc tác rõ thành 60% liệu cho training, 40% liệu lại cho testing ● 20news-18828.tar.gz: Bộ liệu sau chỉnh sửa với việc loại bỏ liệu trùng lặp, cá trường liệu thừa giữ lại trường “From” trường liệu “Subject” (bao gồm 18828 tin) Với việc thực kiểm nghiệm, em lựa chọn phiên thứ ba (20news18828.tar.gz) đảm bảo việc tránh trùng lặp nhất, cho phép liệu training test thay đổi không bị ảnh hưởng vào liệu sẵn có 4.1.2 Bộ liệu WebKB Bộ liệu bao gồm thông tin trang web (WWW-pages) tổng hợp từ mơn khoa học máy tính nhiều trường đại học khác Mĩ tháng 01 năm 1997 Toàn liệu thu thập nhằm phục vụ cho dự án World Wide Knowledge Base (Web-Kb) nhóm nghiên cứu liệu văn CMU (CMU text learning group) thực Trang 55 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC a) Cách tổ chức liệu Hình 21 Cây thư mục liệu WebKb Tổng cộng với 8,282 trang tin phân loại tay thành nhóm tin sau: ● Student: bao gồm 1641 trang tin ● Faculty: bao gồm 1124 trang tin ● Staff: bao gồm 137 trang tin ● Department: bao gồm 182 trang tin ● Course: bao gồm 930 trang tin ● Project: bao gồm 504 trang tin ● Other: bao gồm 3764 trang tin Nhóm tin Other tập hợp tin xem khơng có đặc tính nội dung liên quan đến 06 nhóm tin cịn lại (ví dụ, giảng viên khoa cụ thể thường đưa thông tin cho người thông qua trang cá nhân – home page, sơ yếu lý lịch, báo khoa học công bố, vài hướng tập trung nghiên cứu; có trang thơng tin cá nhân đưa vào nhóm tin faculty Các thơng tin sơ yếu lý lịch, báo khoa học công bố, vài hướng tập trung nghiên cứu đưa vào nhóm tin other) Với nhóm tin (lớp liệu) chia thành nhóm trường sau: ● Cornell: tổng cộng gồm 867 tin ● Texas: tổng cộng gồm 827 tin ● Washington: tổng cộng gồm 1205 tin ● Wisconsin: tổng cộng gồm 1263 tin Còn lại 4,120 tin lấy từ trường đại học khác (được lưu thư mục misc) Trang 56 Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC b) Đóng gói liệu Bộ liệu cung cấp trang web: http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/webkbdata.gtar.gz Dưới định dạng file nén (đi file gtar.gz), bung nén từ chương trình phổ biến Các file văn tổ chức thành thư mục, thư mục đại diện cho nhóm tin (lớp văn bản) Trong thư mục, chia tiếp thành thư mục con, thư mục đại diện cho liệu trường (04 trường đại học nêu trên, thư mục đại diện cho trường lại) Tại thư mục chứa liệu trang web Các tên trang web đường dẫn URL trang web thay ký tự ‘/’ ký tự ‘^’ Chú ý rằng: ● Các trang web bắt đầu MIME-header ● Một vài trang không chứa thông tin văn bản, nội dung phục vụ cho việc phân loại, mà chứa thông tin chuyển tiếp thông tin hướng dẫn đến trang khác Và trang phân bố không nhóm tin khác Một số lưu ý: Do liệu lấy từ trường đại học khác nhau, trường có phong cách khác cho dễ dàng nhận diện liệu thuộc lớp văn Vì để đảm bảo cho kết việc phân loại tập trung vào nội dung văn bản, người lập liệu đề xuất không sử dụng liệu trường đại học vào trình test training, sử dụng liệu 01 trường làm liệu test, 04 liệu 03 trường misc để thực training Thực quay vịng coi four-fold cross validation 4.1.3 Bộ liệu Reuters-21578 Bộ liệu tập hợp tin hãng tin Reuters năm 1987 Các tin tập hợp đánh nhãn theo tập khác tác giả thuộc Reuters Carnegie Group, Inc Đến năm 1990, liệu hoàn thành để phục vụ cho việc nghiên phịng thí nghiệm Information Retrieval Laboratory khoa Computer and Information Science Department trường đại học University of Massachusetts at Amherst Định dạng văn xây dựng mối liên hệ văn tập liệu hoàn thành David D Lewis Stephen Harding [10] Trang 57 Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC Sau đó, liệu chuẩn hố hồn thiện, David D Lewis Peter Shoemaker năm 1991-1992 Và phiên đưa lên mạng với phiên "Reuters-22173, Distribution 1.0" vào tháng năm 1993 đến năm 1996 Sau đến tháng năm 1996, liệu biên tập lại tổng hợp kỹ thấy lợi ích cho việc nghiên cứu tốn văn nói chung, với đóng góp nhiều nhà nghiên cứu Phiên đưa lên sau dùng phổ biến việc nghiên cứu toán liên quan đến văn bản, liệu đổi tên thành Reuters-21578: a) Cách tổ chức liệu Bộ liệu có nhiều cách lựa chọn phân loại khác nhau, tuỳ vào tập lớp văn mà tập liệu phần thành số lượng lớp sau: Tên tập lớp Exchanges ORG People Places Topics Số lượng lớp 39 56 267 175 135 Số lượng lớp mà lớp có số văn > 32 32 114 147 120 Số lượng lớp mà lớp có số văn > 20 15 60 57 b) Đóng gói liệu Bộ liệu cung cấp trang web: http://www.daviddlewis.com/resources/testcollections/reuters21578/ http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html Dưới định dạng file nén (đuôi file gtar.gz), bung nén từ chương trình phổ biến Một số lưu ý: Với liệu phân theo nhiều tập lớp kể trên, để tiện phân loại, trình thử nghiệm em sử dụng phân theo lớp topic, sử dụng phép chia tương tự với phép chia tập test tập traning Chidanand Apte Fred Damerau Sholom M Weiss gọi tắt Apte94 [1] Trang 58 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC 4.2 Cài đặt 02 giải thuật 4.2.1 Cài đặt cho giải thuật TWCNB Với giải thuật TWCNB, để thực xây dựng huấn luyện phân loại tập liệu, chương trình cài đặt theo sơ đồ nêu chương 2:    Cho j Cho TWCNB ( tập văn với dij số lượng từ i văn vector nhãn class o o o o o o o Với văn cần phân loại ti số lượng từ i o Class văn t phân loại theo cơng thức sau: Trong tham số làm trơn hệ thống để mặc định Ngồi q trình làm đồng giá trọng số từ thực hay không thực nhờ tham số 4.2.2 Cài đặt cho giải thuật SVM Giải thuật SVM sử dụng thông qua việc gọi hàm thủ tục dựng sẵn cho SVM thư viện LibSVM tác giả Chih-Chung Chang Chih-Jen Lin thực tổng hợp Các giải thuật LibSVM bao gồm: ● C-SVC ● nu-SVC ● one-class SVM ● epsilon-SVR ● nu-SVR Trang 59 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC Với giải thuật cài đặt hệ thống cung cấp 04 hàm Nhân bản: ● Linear: K(xi, xj) = xiT.xj ● Polynominal: K(xi, xj) = ( xiT.xj + r)d, >0 ● Radial basic function (RBF): K(xi, xj) = exp(● Sigmoid: K(xi, xj) = tanh( Với tham số thay đổi gọi hàm .xiT.xj + ), >0 r) , r d tham số chung cho hàm Nhân 4.3 Đánh giá kết thử nghiệm 4.3.1 Phương pháp đánh giá kết thử nghiệm Để đánh giá kết phân loại, tùy thuộc vào liệu với cấu trúc khác em thực phương pháp đánh giá riêng a) Bộ liệu 20 newsgroups Sử dụng giải thuật phân loại MNB TWCNB, SVM để thực đánh giá Với cấu trúc liệu, chưa có phân tách tập liệu train test, em thực chạy với phân chia tập liệu đầu vào theo tỉ lệ 70% liệu training 30% liệu phục vụ cho trình test Quá trình thực lựa chọn phân chia thực Random thực chạy 03 lần cho giải thuật lấy kết phân loại trung bình b) Bộ liệu WebKB Bộ liệu thực phân loại qua giải thuật phân loại MNB, TWCNB, SVM Cấu thúc liệu ghi rõ trên, thực 04 lần chạy lần sử dụng liệu 01 trường làm kết phần liệu lại làm liệu training Kết thu kết trung bình 04 lần chạy c) Bộ liệu Reuters-21578 Đây liệu lớn chuẩn với số lượng phân lớp lớn Theo cách phân loại nêu phần mô tả liệu sử dụng, em thực chạy 90 lần, lần thực chạy phân loại cho 01 phân lớp (có thuộc phân lớp hay khơng) Q trình chạy 03 giải thuật Kết để thực đánh giá cho giải thuật trung bình 90 lần thực Trang 60 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC 4.3.2 Kết thực đánh giá Kết trình thực chạy thử nghiệm cho bảng sau: Giải thuật NB 20 newsgroups WebKB Reuters-21578 86,13% 80,24% 93,42% Giải thuật Giải thuật SVM TWCNB 87,16% 90,34% 82,64% 91,57% 98,95% 99,31% Kết thu kết thơng kê trung bình phần trăm phân loại của phân loại, tập liệu tương ứng: ● Kết cho thấy việc thực phân loại phân loại tương đối tốt, liệu đầu vào qua nhiều tinh chỉnh tham số lựa chọn cho giải thuật phù hợp với việc phân loại văn bẳn ● Giải thuật TWCNB giải thuật tốt thời gian xây dựng tinh toán cho việc phân loại nhanh (cỡ lần) so với giải thuật SVM kết phân loại phân loại tỏ hiệu ● Bộ liệu Reuters thực với kết phân loại cao, toán giải liệu thực tế toán phân loại lớp (90 toán phân loại lớp) Trang 61 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC KẾT LUẬN VÀ KIẾN NGHỊ Qua trình thực kiểm nghiệm giải thuật phân loại, liệu văn bản, ta rút đánh giá tốt giải thuật TWCNB Giải thuật đơn giản cài đặt, thời gian tính tốn nhanh, phù hợp với yêu cầu phân loại ứng dụng thực tế mà khơng u cầu độ xác cao Kết phân loại giải thuật gần với kết phân loại SVM, thời gian tính tốn tham số để tinh chỉnh nhiều Với kết đó, ứng dụng phân loại tin nhắn điện thoại phân loại thư rác sử dụng giải thuật TWCNB Bởi lẽ, nhu cầu thực ứng dụng phân loại ngày xuất nhiều thiết bị di động, với yêu cầu khắt khe sử dụng tài nguyên CPU, RAM (bộ nhớ trong) lượng điện thiết bị chạy pin có hạn Để áp dụng vào ứng dụng Việt Nam, cần thiết phải xây dựng liệu phân loại văn Tiếng Việt, chuẩn hóa liệu, chưa có liệu Bên cạnh đó, Tiếng Việt cịn có đặc trưng đa phần từ Tiếng Việt đa âm, có từ đơn, từ ghép Vì tách token trình bày luận văn cho kết phân loại không cao Để khắc phục điều này, đề xuât hướng tìm hiểu thêm sau ● Tách từ theo cụm từ cú pháp: cụm từ tách cụm từ có nghĩa, tách từ cấu phúc cú pháp câu ● Tách từ theo cụm từ xác xuất: từ đơn có xác xuất liền lớn, cụm từ khơng thiết phải có nghĩa, cần có xác xuất cạnh lớn Do khối lượng lớn thời gian có hạn, luận văn chưa tiếp tục tìm hiểu thêm hướng đưa Cũng việc xây dựng liệu cho việc phân loại văn Tiếng Việt khó khơng thể thực Đề tài tìm hiểu thêm nghiên cứu thêm tương lai gần để đưa kết gần với ứng dụng đời sống Trang 62 Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC TÀI LIỆU THAM KHẢO C Apte, F Damerau, and S.M Weiss (1994), Automated Learning of Decision Rules for Text Categorization Frakes, W.B., Stemming algorithms Information Retrieval: Data Structures and Algorithms, eds W.B Frakes & R Baeza-Yates, Prentice Hall: Englewood Cliffs, US, pp 131–160, 1992 Caropreso, M.F., Matwin, S & Sebastiani, F (2001), A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization Text Databases and Document Management: Theory and Practice, ed A.G Chin, Idea Group Publishing: Hershey, US, pp 78–102 Fabrizio Sebastiani Text Categorization Zobel, J & Moffat, A (1998), Exploring the similarity space SIGIR Forum, 32(1),pp 18–34 Salton, G & Buckley, C (1988), Term-weighting approaches in automatic text retrieval Information Processing and Management, 24(5), pp 513–523, Jason D M Rennie jrennie@mit.edu Lawrence Shih kai@mit.edu Jaime Teevan teevan@mit.edu David R Karger karger@mit.edu (ICML-2003) Tackling the poor assumptions of Naive Bayes Text Classifiers Nello Cristianini and John Shawe-Taylor (2000), An Introduction to Support Vector Machines and Other Nhân-based Learning Methods Edgar E Osuna, Robert Freund, Fererico Girosi (1997) Support Vector Machine: Training and Application AI Laboratory, MIT 10 David D Lewis (2004), Reuters-21578 text categorization test collection Distribution 1.0 Trang 63 ... trình phân loại văn tăng cường tri thức hệ thống phân loại, hỗ trợ cho phân loại say Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB tốn TC 1.2 BÀI TỐN PHÂN LOẠI VĂN BẢN 1.2.1 Định nghĩa Phân loại. .. mơ giải thuật ● Thực kiểm nghiệm liệu mẫu Trang Luận văn tốt nghiệp Nghiên cứu giải thuật NB toán TC CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢN 1.1 SỰ CẦN THIẾT CỦA VIỆC PHÂN LOẠI VĂN BẢN... thực trình nghiên cứu: ● Nghiên cứu giải thuật SVM nói chung áp dụng cho toán phân loại văn nói riêng ● Tìm hiểu cải tiến giải thuật Naïve Bayes, cho kết phân loại tốt gần với giải thuật SVM Phương

Định dạng
Số trang	68
Dung lượng	38,92 MB