Luận văn này nghiên cứu phân loại văn bản tiếng Việt với kỹ thuật phân tích giá trị đơn (Singular Value Decomposition SVD) kết hợp với máy học vectơ hỗ trợ (Support Vector Machine SVM). SVD là một kỹ thuật xấp xỉ ma trận đƣợc áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên và đã trở thành nền tảng của kỹ thuật phân tích ngữ nghĩa tiềm ẩn. Trong bài toán phân loại văn bản SVD không những xấp xỉ ma trận đặc trưng về số chiều nhỏ hơn mà nó còn làm tăng độ liên kết ngữ nghĩa giữa các tài liệu và loại bỏ nhiễu. Trong khi đó, SVM là một giải thuật máy học đƣợc đánh giá là rất phù hợp cho bài toán phân loại văn bản vì nó có thể xử lý dữ liệu với số chiều lớn, tự động điều chỉnh tham số trong quá trình học và phù hợp với dữ liệu có thể tách tuyến tính. Các thực nghiệm cho thấy rằng, việc kết hợp SVD và SVM để phân loại văn bản đạt kết quả tốt hơn so với chỉ áp dụng SVM thuần túy.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CẦN THƠ PHẠM HOÀNG SƠN NGHIÊN CỨU PHÂN LOẠI VĂN BẢN VỚI KỸ THUẬT PHÂN TÍCH GIÁ TRỊ ĐƠN KẾT HỢP VỚI MÁY HỌC VECTƠ HỖ TRỢ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cần Thơ – 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CẦN THƠ PHẠM HOÀNG SƠN NGHIÊN CỨU PHÂN LOẠI VĂN BẢN VỚI KỸ THUẬT PHÂN TÍCH GIÁ TRỊ ĐƠN KẾT HỢP VỚI MÁY HỌC VECTƠ HỖ TRỢ Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học TS TRẦN CAO ĐỆ Cần Thơ – 2012 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chƣa đƣợc công bố công trình luận văn trƣớc Cần Thơ, ngày tháng năm 2012 Ngƣời cam đoan PHẠM HOÀNG SƠN iii LỜI CẢM ƠN Trƣớc tiên, xin chân thành cảm ơn Thầy TS Trần Cao Đệ tận tình dạy hƣớng dẫn trình học tập trƣờng thực luận văn Tôi xin cảm ơn quý thầy, cô khoa Công nghệ thông tin truyền thông trƣờng Đại học Cần Thơ tận tình giảng dạy thời gian học tập khoa Cuối cùng, xin cảm ơn gia đình, bạn bè đồng nghiệp giúp đỡ suốt thời gian học hoàn thành luận văn Cần Thơ, ngày tháng năm 2012 Tác giả Phạm Hoàng Sơn iv MỤC LỤC Trang bìa i Trang phụ bìa ii Lời cam đoan iii Lời cảm ơn iv Mục lục .v Danh mục ký hiệu, từ viết tắt vii Danh sách bảng viii Danh sách hình ix Tóm tắt x CHƢƠNG MỞ ĐẦU .1 1.1 ĐẶT VẤN ĐỀ .1 1.2 MỤC TIÊU NGHIÊN CỨU 1.3 PHẠM VI VÀ GIỚI HẠN CỦA ĐỀ TÀI NGHIÊN CỨU 1.4 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 1.5 CẤU TRÚC LUẬN VĂN CHƢƠNG PHÂN LOẠI VĂN BẢN .5 2.1 GIỚI THIỆU BÀI TOÁN PHÂN LOẠI VĂN BẢN 2.2 MÔ HÌNH PHÂN LOẠI VĂN BẢN 2.2.1 Giai đoạn tiền xử lí 2.2.2 Huấn luyện máy học .6 2.2.3 Phân loại văn .7 2.3 TIỀN XỬ LÍ VĂN BẢN .8 2.3.1 Chuẩn hóa văn 2.3.2 Tách từ 2.3.2.1 Vai trò tách từ 2.3.2.2 Đặc điểm tiếng Việt 2.3.2.3 Một số phƣơng pháp tách từ tiếng Việt .9 2.3.2.4 Phƣơng pháp khớp tối đa 10 2.3.2.5 Phƣơng pháp MMSEG 10 v 2.3.3 Biểu diễn văn 12 2.3.3.1 Trọng số logic .13 2.3.3.2 Tần suất từ 13 2.3.3.3 Trọng số TFIDF 13 2.3.4 Trích chọn đặc trƣng 13 2.3.4.1 Ngƣỡng tần suất tài liệu 14 2.3.4.2 Phƣơng pháp đo độ lợi thông tin 14 2.3.4.3 Phƣơng pháp lƣợng tin tƣơng hỗ 15 2.4 CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN 15 2.4.1 Phƣơng pháp định 15 2.4.2 Phƣơng pháp k láng giềng gần .17 2.4.3 Phƣơng pháp Bayes thơ ngây .18 2.4.4 Phƣơng pháp máy học vectơ hỗ trợ .19 2.5 KẾT LUẬN CHƢƠNG 22 CHƢƠNG PHÂN TÍCH GIÁ TRỊ ĐƠN .24 3.1 GIỚI THIỆU .24 3.2 CƠ SỞ LÝ THUYẾT 24 3.2.1 Ý tƣởng kỹ thuật SVD 24 3.2.2 Tính SVD đầy đủ ma trận 27 3.2.2.1 Các khái niệm liên quan 27 3.2.2.2 Tính SVD đầy đủ ma trận .29 3.2.3 Tính SVD rút trích 33 3.3 ỨNG DỤNG SVD VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN .34 3.4 KẾT LUẬN CHƢƠNG 37 CHƢƠNG MÁY HỌC VECTƠ HỖ TRỢ 38 4.1 GIỚI THIỆU .38 4.2 GIẢI THUẬT MÁY HỌC VECTƠ HỖ TRỢ 38 4.2.1 Giải thuật SVM cho liệu tách rời tuyến tính .38 4.2.2 Giải thuật SVM cho liệu không tách rời tuyến tính 40 vi 4.3 ÁP DỤNG SVM VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN 44 4.4 KẾT LUẬN CHƢƠNG 45 CHƢƠNG PHÂN LOẠI VĂN BẢN VỚI KỸ THUẬT PHÂN TÍCH GIÁ TRỊ ĐƠN KẾT HỢP VỚI MÁY HỌC VECTƠ HỖ TRỢ 46 5.1 MÔ HÌNH PHÂN LOẠI 46 5.2 TIỀN XỬ LÍ 48 5.2.1 Chuẩn hóa văn 48 5.2.2 Áp dụng phƣơng pháp tách từ MMSEG 49 5.2.3 Áp dụng phần mềm vnTokenizer để tách từ 52 5.2.4 Loại stopword từ có tần suất tài liệu thấp 52 5.2.5 Mô hình hóa văn 53 5.3 ÁP DỤNG SVD RÚT TRÍCH ĐẶC TRƢNG 55 5.4 HUẤN LUYỆN MÁY HỌC SVM 56 5.5 KẾT LUẬN CHƢƠNG 57 CHƢƠNG THỰC NGHIỆM .58 6.1 TẬP DỮ LIỆU MẪU 58 6.2 PHƢƠNG PHÁP ĐÁNH GIÁ 59 6.3 KẾT QUẢ THỰC NGHIỆM 60 CHƢƠNG KẾT LUẬN 74 TÀI LIỆU THAM KHẢO .76 PHỤ LỤC .78 vii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Từ Tiếng Anh Tiếng Việt DF Document Frequency Ngƣỡng tần suất tài liệu IDF Inverse document frequency Tần suất tài liệu ngƣợc IG Informational Gain Độ lợi thông tin KNN K - Nearest Neighbor K –láng giềng gần MI Mutual Infomation Độ đo tƣơng hỗ MMSEG Maximum Matching Segmentation Phân đoạn so khớp cực đại SVD Singular Value Decomposition Phân tích giá trị đơn SVM Support Vector Machine Máy học vector hỗ trợ TF Term Frequenct Tần suất từ TF_IDF Term frequency_Inverse document frequency Tần suất từ_Tần suất tài liệu ngƣợc viii DANH SÁCH BẢNG Bảng 2.1 5.1 5.2 5.3 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 Tiêu đề Các điểm khác biệt tiếng Việt tiếng Anh [4] Danh sách chuẩn hóa dấu tiếng Việt[6] Thống kê độ dài từ từ điển[4] Ma trận trọng số từ - tài liệu Chủ đề số lƣợng tài liệu/chủ đề Ma trận kiểm chứng (confusion) dự đoán 50 phần tử thuộc lớp a, b, c Ma trận confusion 2x2, hay bảng contingency[5] Các tham số huấn luyện SVM Ma trận kiểm chứng (confusion matrix) kiểm tra chéo 10-folds tập liệu huấn luyện độ xác (sử dụng phƣơng pháp tách từ MMSEG) Ma trận kiểm chứng (confusion matrix) kiểm tra chéo 10-folds tập liệu huấn luyện độ xác (sử dụng phƣơng pháp tách từ theo phần mềm vnTokenizer) Tham số huấn luyện SVM Ma trận kiểm chứng (confusion matrix) kiểm tra chéo 10-folds tập liệu huấn luyện độ xác (sử dụng phƣơng pháp tách từ MMSEG, rút trích SVD) Ma trận kiểm chứng (confusion matrix) kiểm tra chéo 10-folds tập liệu huấn luyện độ xác (sử dụng phƣơng pháp tách từ vnTokenizer, rút trích SVD) Tổng hợp kết kiểm tra tập liệu huấn luyện Ma trận kiểm chứng tập liệu kiểm tra độ xác (sử dụng phƣơng pháp tách từ MMSEG, không áp dụng SVD) Ma trận kiểm chứng tập liệu kiểm tra độ xác (tách từ phần mềm vnTokenizer, không áp dụng SVD) Ma trận kiểm chứng tập liệu kiểm tra độ xác (sử dụng phƣơng pháp tách từ MMESG, áp dụng rút trích SVD) Ma trận kiểm chứng tập liệu kiểm tra độ xác (tách từ phần mềm vnTokenizer, áp dụng rút trích SVD) Tổng hợp kết kiểm tra tập liệu độc lập Trang 48 49 54 58 59 60 61 62 63 64 65 66 67 69 70 71 72 73 ix DANH SÁCH HÌNH Hình 2.1 2.2 2.3 2.4 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 4.4 4.5 5.1 5.2 Tiêu đề Sơ đồ giai đoạn tiền xử lí Sơ đồ giai đoạn huấn luyện Sơ đồ giai đoạn phân lớp Siêu phẳng với lề cực đại R2 Quay mũi tên có kích thƣớc cố định để mô tả hình tròn Quay mũi tên có chiều dài biến thiên để mô tả hình ellip Mô tả trình giảm chiều Các vectơ “left” “right” Minh họa SVD đƣợc rút trích Vấn đề phân lớp tuyến tính Siêu phẳng với lề cực đại R2 Dữ liệu không tách rời tuyến tính Vấn đề phân lớp phi tuyến Phân lớp tuyến tính không gian trung gian Sơ đồ giai đoạn phân lớp SVM [1] Sơ đồ giai đoạn phân loại văn [1] Trang 7 20 25 26 27 32 33 38 39 40 43 43 46 47 x Từ kết ta nhận thấy tập liệu không sử dụng SVD kết phân loại sử phương pháp tách từ phần mềm vnTokenizer đạt tốt (3.4%) so với phương pháp tách từ MMSEG Khi áp dụng SVD để rút gọn ma trận đặc trưng 200x3400 kết phân loại đạt cao (kể phương pháp tách từ) so với không áp dụng SVD Theo phương pháp tách từ MMSEG tăng 2.58%, theo phần mềm vnTokenizer tăng 0.77% Và kết sử dụng phương pháp tách từ phần mềm vnTokenizer đạt cao 1.58% so với phương pháp tách từ MMSEG, nhiên chênh lệch không rõ rệt không áp dụng SVD Điều cho thấy vai trò quan trọng SVD giai đoạn trích chọn đặc trưng Ngoài việc rút gọn ma trận đặc trưng, SVD chọn lọc lại đặc trưng trội văn để sử dụng trình phân loại, làm cho trình học máy học nhanh đạt hiệu xuất phân loại cao 68 - Dùng chương trình Demo để huấn luyện phân loại 1700 tài liệu kiểm tra o Sử dụng phương pháp tách từ MMSEG, không áp dụng SVD với tham số huấn luyện SVM bảng (6.4) ta thu kết bảng (6.11) Bảng 6.11 Ma trận kiểm chứng tập liệu kiểm tra độ xác (sử dụng phƣơng pháp tách từ MMSEG, không áp dụng SVD) mã chủ đề 10 11 12 13 14 15 16 17 10 11 12 13 14 15 16 17 81 0 0 0 0 0 84 0 0 0 4 84 0 2 0 0 0 86 0 0 0 10 14 82 6 13 9 0 0 97 0 0 0 0 0 0 85 1 0 0 0 0 0 85 1 0 1 0 0 0 74 0 0 0 0 0 0 89 0 0 0 0 0 1 83 0 0 0 0 0 0 0 0 92 0 0 0 0 88 0 0 0 0 80 0 0 0 0 1 0 88 0 0 0 0 0 0 81 0 0 0 0 0 0 94 tổng số mẫu 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 1700 độ xác 81 84 84 86 82 97 85 85 74 89 83 92 88 80 88 81 94 85.47 69 o Tách từ phần mềm vnTokenizer, không áp dụng SVD với tham số huấn luyện SVM bảng (6.4) ta thu kết bảng (6.12) Bảng 6.12 Ma trận kiểm chứng tập liệu kiểm tra độ xác (tách từ phần mềm vnTokenizer, không áp dụng SVD) mã chủ đề 10 11 12 13 14 15 16 17 10 11 12 13 14 15 16 17 89 0 0 0 0 0 0 0 88 0 0 0 0 0 0 0 92 0 0 0 0 0 0 87 1 0 0 0 90 13 6 0 0 97 0 0 0 0 0 2 0 89 0 0 1 0 1 0 90 0 1 0 0 0 82 0 0 0 0 0 0 90 0 0 0 1 1 91 0 0 0 0 0 0 0 93 0 1 0 0 0 2 93 3 0 0 0 0 84 0 0 0 0 0 0 88 0 0 0 1 0 0 0 90 0 0 0 0 0 0 93 tổng số mẫu 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 1700 độ xác 89 88 92 87 90 97 89 90 82 90 91 93 93 84 88 90 93 89.76 70 o Sử dụng phương pháp tách từ MMSEG, áp dụng rút trích SVD với tham số huấn luyện SVM bảng (6.7) ta thu kết bảng (6.13) Bảng 6.13 Ma trận kiểm chứng tập liệu kiểm tra độ xác (sử dụng phƣơng pháp tách từ MMESG, áp dụng rút trích SVD) mã chủ đề 10 11 12 13 14 15 16 17 10 11 12 13 14 15 16 17 88 0 0 0 0 0 0 90 1 1 90 3 1 0 0 0 1 85 0 0 2 0 0 0 85 0 0 0 0 0 0 99 0 0 0 0 0 0 1 91 0 0 0 1 95 1 1 0 0 85 0 0 0 0 0 88 0 0 0 1 1 84 0 0 0 0 0 0 0 92 10 0 0 0 0 97 0 0 0 0 76 0 0 0 0 93 0 0 0 0 0 1 87 0 0 0 0 0 0 95 tổng số mẫu 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 1700 độ xác 88 90 90 85 85 99 91 95 85 88 84 92 97 76 93 87 95 89.41 71 o Tách từ phần mềm vnTokenizer, áp dụng rút trích SVD với tham số huấn luyện SVM bảng (6.7) ta thu kết bảng (6.14) Bảng 6.14 Ma trận kiểm chứng tập liệu kiểm tra độ xác (tách từ phần mềm vnTokenizer, áp dụng rút trích SVD) mã chủ đề 10 11 12 13 14 15 16 17 10 11 12 13 14 15 16 17 89 0 0 0 0 0 0 0 88 0 0 0 0 93 0 0 1 0 86 0 0 0 0 0 90 12 0 0 0 99 0 0 0 0 0 0 1 89 0 0 0 0 0 0 95 0 0 0 0 84 0 0 0 0 0 0 0 89 0 0 2 0 0 87 0 0 0 0 0 0 0 91 10 0 1 0 0 0 99 0 0 0 0 82 0 0 0 0 1 0 0 90 1 0 0 0 0 0 0 91 0 0 0 0 0 0 92 tổng số mẫu 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 1700 độ xác 89 88 93 86 90 99 89 95 84 89 87 91 99 82 90 91 92 90.24 72 Bảng 6.15 Tổng hợp kết kiểm tra tập liệu độc lập Tên chủ đề Mã chủ đề Vi tính Kinh doanh Pháp luật Giáo dục Sức khỏe Thể thao Khoa học Du lịch Gia đình Ẩm thực 10 Thế giới 11 Âm nhạc 12 Thời trang 13 Điện ảnh 14 Mỹ thuật 15 oto-xemay 16 Làm đẹp 17 Hiệu trung bình Không áp dụng SVD Tách từ Tách từ MMSEG vnTokenizer 81 89 84 88 84 92 86 87 82 90 97 97 85 89 85 90 74 82 89 90 83 91 92 93 88 93 80 84 88 88 81 90 94 93 85.47 89.76 Áp dụng SVD (k=200) Tách từ Tách từ MMSEG vnTokenizer 88 89 90 88 90 93 85 86 85 90 99 99 91 89 95 95 85 84 88 89 84 87 92 91 97 99 76 82 93 90 87 91 95 92 89.41 90.24 Từ bảng ta thấy việc kiểm chứng dùng tập tài liệu độc lập với tài liệu dùng để xây dựng máy học SVM cho kết không sai khác nhiều với kiểm chứng 10-fold tập liệu học Điều cho thấy hiệu máy học ổn định, học vẹt Nói cách khác, đặc trưng rút gọn sau phân tích SVD tốt đáng 73 CHƢƠNG KẾT LUẬN Luận văn trình bày khái quát bước để giải toán phân loại văn lĩnh vực khai phá liệu Tại bước luận văn nghiên cứu kỹ thuật, phương pháp phù hợp để áp dụng vào toán phân loại văn Tiếng Việt Từ kết nghiên cứu phân tích giá trị đơn máy học vectơ hỗ trợ, luận văn đưa mô hình phân loại văn tiếng Việt với kỹ thuật phân tích giá trị đơn kết hợp với máy học vectơ hỗ trợ Theo mô hình phân loại văn trải qua giai đoạn máy học phân loại Để tiến hành giai đoạn luận văn tập trung nghiên cứu vấn đề: - - Tiền xử lí: bước tìm hiểu áp dụng phương pháp như: tách từ mô hình MMESG, áp dụng phần mềm vnTokenizer; tính trọng số từ theo TFIDF; mô hình hóa văn theo không gian vectơ Rút trích SVD: bước tìm hiểu kỹ thuật phân tích giá trị đơn để áp dụng vào toán phân loại văn nhằm rút gọn đặc trưng Huấn luyện phân loại: bước tập trung nghiên cứu giải thuật máy học vectơ hỗ trợ phù hợp giải thuật cho toán phân loại văn bản, từ xây dựng phân loại Luận văn giới thiệu cụ thể cách tiếp cận toán phân loại văn với kỹ thuật phân tích giá trị đơn kết hợp với máy học vectơ hỗ trợ Luận văn tiến hành thực nghiệm tập liệu gồm 17 chủ đề với 5100 tài liệu Kết đạt từ mô hình kết hợp SVD SVM cao so với việc sử dụng SVM túy Cụ thể sử dụng 1700 tài liệu kiểm tra độc lập có kết sau: - Sử dụng phương pháp tách từ MMSEG: hiệu trung bình đạt 89.41, cao 3.94% so với sử dụng SVM túy Sử dụng phần mềm vnTokenizer: hiệu đạt trung bình 90.24, cao 0.48% so với sử dụng SVM túy Nếu so sánh với phương pháp kiểm chứng 10-folds tập liệu học phần mềm weka kết tương đương Từ cho thấy kết đạt từ mô hình ổn định, học vẹt Nói cách khác, đặc trưng rút gọn sau phân tích giá trị đơn tốt đáng Ngoài sử dụng kỹ thuật phân tích giá trị đơn rút trích ma trận đặc trưng làm cho trình học phân loại SVM xử lí nhanh số chiều ma trận đặc trưng rút gọn đáng kể 74 Như vậy, cách tận dụng ưu điểm kỹ thuật phân tích giá trị đơn máy học vectơ hỗ trợ, phân loại đề xuất cho kết khả quan sử dụng thực tế Đề tài số hạn chế sau: - - - Trong giai đoạn chuẩn bị liệu, việc thu thập tài liệu để huấn luyện chủ yếu từ trang báo điện tử, tài liệu không phân loại chuẩn Do tài liệu thuộc nhiều chủ đề khác Điều ảnh hưởng nhiều đến kết xây dựng phân loại Thời gian tiền xử lí tương đối chậm Nguyên nhân thực rút trích SVD trình học (hay chiếu không gian k chiều giai đoạn phân loại) Vì với số lượng văn lớn (3400 tài liệu huấn luyện) ma trận đặc trưng tạo lớn Việc phân tích giá trị đơn rút gọn số chiều nhiều thời gian Tuy nhiên giai đoạn huấn luyện phân loại thời gian nhanh số lượng văn đưa vào phân loại thường Các tham số huấn luyện SVM chọn cách kiểm thử nhiều giá trị nên chưa chọn giá trị tối ưu Hướng phát triển đề tài: - - Tiếp tục chuẩn hóa tập liệu huấn luyện để tạo phân loại đạt hiệu tốt Số lượng chủ đề tương đối nhiều, chủ đề có nội dung gần Do cần xếp lựa chọn chủ đề để tài liệu chủ đề không làm ảnh hưởng nhiều đến chủ đề khác Tìm giải pháp để rút ngắn thời gian rút trích SVD trình tiền xử lí Nghiên cứu cách chọn tham số huyến luyện SVM tối ưu để xây dựng phân loại SVM đạt hiệu cao 75 TÀI LIỆU THAM KHẢO Tiếng Việt Trần Cao Đệ (2011), Phân loại văn với kỹ thuật SVD-SVM, Khoa Công nghệ thông tin Truyền thông, Đại học Cần Thơ, Cần Thơ Trần Cao Đệ (2012), Phân loại văn với máy học vecto hỗ trợ định, Khoa Công nghệ thông tin Truyền thông, Đại học Cần Thơ, Cần Thơ Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2005), Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM, Công nghệ thông tin, Hà Nội Nguyễn Thanh Hùng (2006), Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet, Đại học Quốc gia TP HCM, TP HCM Đỗ Thanh Nghị, Lê Thanh Vân (2012), Giáo trình hệ tri thức khai thác liệu, Nxb Đại học Cần Thơ, Cần Thơ Nguyễn Tấn Phát (2011), Phân loại văn định, Luận văn thạc sỹ Khoa Công nghệ thông tin Truyền thông, Đại học Cần Thơ, Cần Thơ Nguyễn Hồng Phi, Nguyễn Hoàng Tú Anh, Trần Kim Chi (2009), Mô hình biểu diễn văn thành đồ thị, Tạp chí phát triển KH&CN, Tập 12, số 07-2009 Đỗ Phúc (2006), Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2-2006 Tiếng Anh Berry M W., Drmac Z., Jessup E R (1999), “Matrices, Vector Space and Information Retrieval”, Society for Industrial and Applied Mathematics, 41(2), pp 335-362 10 Garcia E (2006), SVD and LSI Tutorial, Mi Islita.com 11 Khan A., Baharudin B., Lee L H., Khan K (2010) “A Review of Machine Learning Algorithms for Text-Documents Classification” Journal of Advances in Information Technology, 1(1), pp 4-20 12 Letsche T A (1997), Large-Scale Information Retrieval Using Latent Semantic Indexing, The University of Tennessee, Knoxville 13 Lê Phương Hồng, Nguyễn Thị Minh Huyền, Roussanaly A., Hồ Tường Vinh (2008), A Hybrid A pproach to Word Segmentation of Vietnamese Texts, Springer-Verlag Berlin Heidelberg, Berlin, pp 240-249 76 14 Nguyen Giang-Son, Gao X., Andreae P (2009), Text Categorization for Vietnamese Documents, School of Engineering and Computer Science Victoria University of Wellington, New Zealand 15 Ozsoy M G., Alpaslan F N., Cicekli I (2011), “Text summarization using Latent Semantic Analysis”, Journal of Information Science, 37(4), pp 405–417 16 Rosario B (2000), Latent Semantic Indexing: An overview INFOSYS 240 17 Tsai C (1996), MMSEG A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm Unpublished manuscript, University of Illinois at Urbana-Champaign, USA 18 Trần Cao Đệ, Trần Cao Trị (2011), Copy Detection Using Latent Semantic Similarity, College of Information and Communication Technology, Cantho, Vietnam 19 V.Vapnik The Nature of Statistical Learning Theory – 2nd ed Springer, NewYork, 2000 Website 20 Thư viện GeneralMatrix http://www.codeproject.com/Articles/5835/DotNetMatrix-Simple-MatrixLibrary-for-NET 21 Thư viện Libsvm http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 22 Thư viện MMSEG http://technology.chtsai.org/mmseg/ Phần mềm 23 Phần mềm weka http://www.cs.waikato.ac.nz/ml/weka/ 24 Phần mềm vnTonkenizer http://www.loria.fr/~lehong/tools/vnTokenizer.php 77 PHỤ LỤC DANH SÁCH STOPWORD TIẾNG VIỆT đồng thời dù đủ dù dù dựa ngày ngày sau từ từ đầu tức khắc trò vào tới tới chị thị cho cho biết chi dùng để ai chà dà anh ba ba lần bạn cho hay cho cho phép cho cho tất mày chủ yếu chưa được biết chọn đặt dường gán cho gần gần gặp phải giống gọi gồm gồm có góp phần hai hầu hết nghe thấy nghe tiếng nghĩ nghĩa ngoài trừ người ta nhận biết nhận nhận rằng rất chi mực riêng rơi vào rón rốt tốt trái trái với trên trở lại trở nên trở trời đất trời trong lúc lúc tháng trường hợp áà a lô a men 78 với bao gồm bao gồm bất bất chấp bắt bảy chầy chừ chúng chúng mày chúng hay hay hay hay không định sẵn sàng sáng ngày trừ trước trước hay làm hết loạt luật mực nhất cho sao trước trước trước trước lúc có sinh tới trước mắt trước chúng tao chút có cô cô có chừng cỡ chừng có có hồ có có lẽ mà có mặt có nghĩa có nhà có nhiều có phải có số họ hóa hoàn toàn hồi lâu hồi hôm qua hơn hết kể kể từ khác khi khoảng khoảng chừng tâm tề thiết nhiều nhiều lần nhiều loại nhiều từ nhìn chung nhìn thấy nhìn thấy nhờ có không sau sau sáu sau sau sau sẽ xảy số số số so với sự có liên quan vào tại trước tiên từ tự từ từ ngày từ sau tức tức khắc tức tức tức thời tưởng chừng 79 lâu bị xảy lâu nay nhiêu coi coi bên coi bên cạnh bên có bên bên bên phải bên trái bên bên bị lại cụ thể việc của bạn mày cực không cung lúc vậy biết bỏ lỡ bỏ qua không thể tám tuỳ theo không không không không ngờ tuỳ thuộc vào tuồng những mà tầm quan trọng tao lự ứừ không khuây khoả là lại lại làm làm cho làm làm nên làm rõ nhược nói cách khác nói chung lên nói nói tất tay với thà thái vả vài vẫn vạn làm theo lẫn lẫn lộn nữa chí tháng sau thành vân vân vào khoảng vào lúc lấy vào ngày lấy làm lẽ lệ thuộc vào lên ạt bên thảo vậy mà nên lên tới 80 bỏ bỏ xó bốn đâu dưng không nhiên thảy thể cách khác cách cái cần cắt cha với cuối cuối đã dùng hết qua đặc biệt dẫn đến đáng kể đằng sau đằng trước đánh giá lại đạt đặt đạt tới liên quan đến liên tiếp liên tục lọ lựa lúc lúc hay không ô thật thay cho thay thế vậy về mặt phía sau tay lúc lúc lúc lúc trước luôn lượt lý mà mà không mà mặc kệ mãi mang đến mặt khác mày mi lại ở trước ôi ối ối ôi trời ối trời phải thêm vào theo theo theo sau thí dụ thì phải veo véo von ví chưng ví dụ ví dụ ví ví miễn mở mỗi tháng một cách phải phải có phải hư phân biệt với tháo thời gian tới với với vừa vừa vừa qua vứa 81 hẳn chán ngấy chẳng chẳng hạn chất cho chị có có để dễ bị để biết để không để lại đến đi đôi kèm khỏi lại dĩ nhiên qua theo vào điều đó chín chính anh lần lần lúc mạch nửa phần số vài mười năm năm ngoái năm tới nào nè nên ngay hôm qua ngày phỏng phụ thuộc phụ thuộc vào qúa chừng độ đỗi quả làquả tang mức sá thật thể tình thứ hai thứ thứ nhì thứ tự thực chất thực thuộc thuộc tiếp đến tiếp tiếp tục tìm tìm thấy tính vừa vượt qua xảy xem xuất xuống ý trời xá tớ tỏ 82 [...]... diễn văn bản và các phương pháp phân loại văn bản 3 Chương 3: Phân tích giá trị đơn Phần này trình bày cơ sở lý thuyết về kỹ thuật phân tích giá trị đơn và việc áp dụng kỹ thuật này vào bài toán phân loại văn bản Chương 4: Máy học vector hỗ trợ Phần này trình bày cơ sở lý thuyết về máy học vector hỗ trợ và việc áp dụng máy học vector hỗ trợ vào bài toán phân loại văn bản Chương 5: Phân loại văn bản. .. nhằm làm giảm số chiều và loại bỏ nhiễu là một bước quan trọng, làm cho SVM đạt hiệu quả tốt hơn Tiếp theo chương 3, chương 4 và chương 5 sẽ trình bày chi tiết về kỹ thuật phân tích giá trị đơn, máy học vector hỗ trợ và phân loại văn bản với kỹ thuật phân tích giá trị đơn kết hợp với máy học vector hỗ trợ 23 CHƢƠNG 3 PHÂN TÍCH GIÁ TRỊ ĐƠN 3.1 GIỚI THIỆU Kỹ thuật phân tích giá trị đơn (Singular Value Decomposition... điểm và hạn chế của phương pháp phân loại văn bản với máy học vector hỗ trợ có kết hợp kỹ thuật phân tích giá trị đơn, định hướng nghiên cứu và hướng phát triển của luận văn 4 CHƢƠNG 2 PHÂN LOẠI VĂN BẢN 2.1 GIỚI THIỆU BÀI TOÁN PHÂN LOẠI VĂN BẢN Phân loại văn bản có thể xem là bài toán phân lớp dữ liệu, đó là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với. .. 5: Phân loại văn bản bằng kỹ thuật phân tích giá trị đơn kết hợp với máy học vector hỗ trợ Phần này trình bày nghiên cứu mô hình phân loại văn bản với máy học vector hỗ trợ kết hợp với phân tích giá trị đơn trong giai đoạn tiền xử lí Chương 6: Thực nghiệm và kết quả nghiên cứu Phần này trình bày một số kết quả thí nghiệm phân loại văn bản dựa trên bộ phân loại SVM kết hợp với SVD So sánh, nhận xét... hiện nay thì việc tự động phân loại một văn bản vào một chủ đề nào đó để dễ dàng tìm kiếm và sử dụng là một việc cần thiết Trên thế giới bài toán phân loại văn bản được nhiều cá nhân và tổ chức quan tâm nghiên cứu Đã có nhiều kỹ thuật máy học và khai phá dữ liệu áp dụng cho bài toán phân loại văn bản Theo tổng hợp về các kỹ thuật máy học áp dụng cho bài toán phân loại văn bản được nghiên cứu bởi nhóm... liệu mẫu Sử dụng các hàm nhân và các tham số tương ứng để tạo bộ phân lớp tốt nhất Giai đoạn 3: Phân loại hay phân lớp văn bản Là giai đoạn dự đoán lớp của những tài liệu mới (chưa biết chủ đề) dựa vào bộ phân lớp đã xây dựng 1.3 PHẠM VI VÀ GIỚI HẠN CỦA ĐỀ TÀI NGHIÊN CỨU Đề tài này tập trung nghiên cứu phân loại văn bản với máy học vectơ hỗ trợ Kỹ thuật phân tích giá trị đơn sẽ được nghiên cứu để áp... cho T Có hai loại bài toán phân loại văn bản thường gặp[6] - Đơn nhãn: là chính xác một phân loại được gán cho một văn bản, còn được gọi là phân loại nhị phân - Đa nhãn: nhiều phân loại có thể được gán cho một văn bản, hay còn gọi là vấn đề phân loại đa lớp Bộ phân loại văn bản thường được xây dựng dựa vào các giải thuật máy học có giám sát Một số giải thuật máy học được sử dụng rộng rãi như: cây quyết... kết hợp kỹ thuật phân tích giá trị đơn sẽ làm cho bộ phân loại SVM đạt hiệu quả tốt hơn 1.2 MỤC TIÊU NGHIÊN CỨU Đề tài này nghiên cứu phân loại văn bản theo phương pháp máy học vector hỗ trợ (SVM) Kỹ thuật phân tích giá trị đơn (SVD) sẽ được áp dụng để phân tách lấy các thành phần chính của các đặc trưng nhằm rút gọn số đặc trưng và loại bỏ nhiễu Quá trình phân loại văn được chia thành ba giai đoạn:... thuật phân tích giá trị đơn( Singular Value Decomposition - SVD) kết hợp với máy học vector hỗ trợ (Support Vector Machine - SVM) Bởi vì SVD là kỹ thuật phân tích ma trận có khả năng rút gọn ma trận đặc trưng, loại bỏ các thuộc tính nhiễu rất tốt Đây là kỹ thuật đã được áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên và là nền tảng của kỹ thuật ngữ nghĩa tiềm ẩn Do đó với việc kết hợp kỹ thuật phân tích giá. .. dụng trong bài toán phân loại văn bản [3][11][14] Gần đây kỹ thuật phân tích giá trị đơn (SVD) được đề xuất và áp dụng để làm giảm số chiều của ma trận đặc trưng một cách hiệu quả Đây là nền tảng của kỹ thuật phân tích ngữ nghĩa tiềm ẩn (LSI – Latent Semantic Indexing) Kỹ thuật này đã được áp dụng vào các bài toán xử lí văn bản khác nhau như lập chỉ mục và truy vấn [12], tóm tắt văn bản [15], phát hiện