BẢN TÓM TẮT LUẬN VĂN THẠC SỸ KHOA HỌC Đề tài: PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINE NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: Sinh viên: Người hướng dẫn khoa học: LƯƠNG THỊ MINH HỒNG TS NGUYỄN LINH GIANG ^2] Mục tiêu luận văn tìm hiểu lĩnh vực khai phá văn bản, tập trung nghiên cứu lý thuyết thử nghiệm liệu có sẵn ứng dụng phân loại văn phương pháp Support Vector Machines (SVM) Trong phần lý thuyết, tác giả giới thiệu tổng quan khai phá văn bản, dạng toán lĩnh vực khai phá văn hai phần đầu chương 1, đề cập tới khai phá tri thức CSDL Trong hai phần cuối chương 1, tác giả trình bày cụ thể lý thuyết toán phân loại văn bước thực để phân loại văn Chương thể nội dung lý thuyết phương pháp SVM, cách thực SVM với trường hợp phân tách tuyến tính khơng tuyến tích; chương giới thiệu số hàm kernel sử dụng đồng thời nêu vấn đề thực phân tách liệu phương pháp SVM luận văn làm thể để tìm siêu phẳng tối ưu Phần phân loại văn sử dụng phương pháp SVM lý SVM đánh giá cao phân loại văn trình bày Chương Trong phần thực nghiệm, tác giả lựa chọn Oracle 10g phiên môi trường thử nghiệm Oracle Text công cụ để thực Yếu tố để tác giả lựa chọn Oracle Text để thực thử nghiệm liệu huấn luyện kiểm thử CSDL bên ngồi CSDL, phi cấu trúc có cấu trúc Dữ liệu thử nghiệm lựa chọn thử nghiệm liệu Reuters-21578 theo cách phân chia Apte, gồm 90 phân loại phân loại săn có 9603 tài liệu huấn luyện 3299 tài liệu kiểm thử Tại chương 4, tác giả tập trung tìm hiểu trình bày mơ hình hoạt động để thực phân loại văn phương pháp SVM Oracle dựa tính dễ sử dụng, linh hoạt đảm bảo tính xác cao, phần cuối cùng, Chương 5, kết lần thử nghiệm với cách lựa chọn tham số thực khác Cuối chương đánh giá cách thực SVM Oracle Luận văn Thạc sỹ Support Vector Machine ^3] Từ khoá: khai phá văn bản, phân loại văn bản, SVM, Oracle Text, CSDL Luận văn Thạc sỹ Support Vector Machine ABTRACT of MASTER OF ENGINEERING THESIS TEXT CLASSIFICATION WITH SUPPORT VECTOR MACHINE BRANCH OF LEANING: INFORMATION TECHNOLOGY CODE: Student: LUONG THI MINH HONG Director: PhD NGUYEN LINH GIANG ^2] The main target in this thesis is to learn about field of Text Mining, special research theory and some test on available data set about applications of text classification with Support Vector Machines (SVM) In theory section, author introduce oveview of Text Mining and some information about KDD, some kind of Text mining task in Chapter In the last Chapter provides a detailed introduction to Text Categorization and ten basic steps in Text Categorization process Chapter contain theory of SVM and mention SVM for linear probem, and how to with Non-linearly separable case List some kernel functions and method to find out Optimal Separating Hyperplane were provided in Chapter Chapter provide a prentation about Text Categorization with In this section, reasons that SVM work well for Text Categorization also were presented In experimental section, author choose Oracle Text in Oracle 10g Release installation to experiment Determining factors to choose Oracle, SVM is fully integrated within the Oracle database framework and apart from classification with structured data, Oracle support document classication (non-structured) with SVM, moreover documents were either in database or files in directory or URLs in WWW Data set , which is chosen for experiment, Reuters-21578 collection Apte split It includes 12,902 documents for 90 classes, with a fixed splitting between test-set and learning data (3,299 vs 9,603) Chapter describes Oracle’s implementation of SVM where the primary focus lies on ease of use and scalability while maintaining high performance accuracy Three testing results is present in Chapter In this part, author avalute testing results with confusion matrix and compare classification results in a table and point out some advantages and disvatage when classify documents with SVM in Oracle Luận văn Thạc sỹ Support Vector Machine ^3] Từ khoá: Text mining, Text classification/Categorization, SVM, Oracle Text, Database Luận văn Thạc sỹ Support Vector Machine BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINE NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: LƯƠNG THỊ MINH HỒNG Người hướng dẫn khoa học: TS NGUYỄN LINH GIANG HÀ NỘI 2006 ^ ] MỤC LỤC Danh mục ký hiệu, từ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị Mở đầu PHẦN I - CƠ SỞ LÝ THUYẾT 12 CHƯƠNG TÔNG QUAN VỀ KHAI PHÁ VĂN BẢN 13 1.1 Một số khái niệm 13 1.2 Khai phá liệu văn – Text Mining 15 1.3 Phân loại văn 19 1.4 Quy trình phân loại văn 20 1.4.1 Lưu trữ tài liệu 20 1.4.2 Định dạng văn 21 1.4.3 Cấu trúc hoá tài liệu 22 1.4.4 Tách liệu 22 1.4.5 Giảm chiều 23 1.4.6 Mơ hình hố không gian vector 25 1.4.7 Giải thuật học máy 26 1.4.8 Thiết lập cấu hình học máy 26 1.4.9 Học tăng cường 26 1.4.10 Hành vi giả thuyết 27 CHƯƠNG SUPPORT VECTOR MACHINE 28 2.1 Động 28 2.1.1 Học máy 28 Luận văn Thạc sỹ Support Vector Machine ^ ] 2.1.2 Lý thuyết học thống kê 30 2.2 Nguyên lý tối thiểu hoá rủi ro cấu trúc 33 2.3 Máy học vector hỗ trợ - SVM 35 2.3.1 SVM với vấn đề tuyến tính 37 2.3.2 Trường hợp phân tách khơng tuyến tính 39 2.4 Một số phương pháp Kernel 41 2.4.1 Polynomial - Phép toán đa thức 43 2.4.2 Gaussian RBF (Radial Basis Function) 44 2.4.3 RBF mở rộng (Exponential Radial Basis Function) 44 2.4.4 Perceptron đa tầng (multi-Label Perceptron –MLP) 44 2.5 Một số vấn đề SVM 45 2.5.1 Các hàm thiệt hại cho SVM 45 2.5.2 Các vấn đề đa lớp 45 2.5.3 Các vấn đề phân loại đa lớp – đa nhãn 46 2.5.4 Tối ưu hoá siêu phẳng phân tách 46 CHƯƠNG 3: PHÂN LOẠI VĂN BẢN VỚI SVM 56 3.1 Thực phân loại văn với SVM 56 3.2 Ưu điểm sử dụng SVM phân loại văn 58 PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG PHƯƠNG PHÁP SVM 59 CHƯƠNG PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT 60 4.1 Khai phá văn với Oracle 60 4.2 Phân loại văn Oracle Text 62 4.2.1 Các ứng dụng phân loại Oracle Text 63 Luận văn Thạc sỹ Support Vector Machine ^ ] 4.2.2 Phân loại với SVM 65 4.2.3 Phương pháp đánh giá 80 CHƯƠNG TIẾN HÀNH THỬ NGHIỆM 82 5.1 Chuẩn bị liệu 82 5.2 Kiểm thử với Oracle 10g 83 5.2.1 Thử nghiệm lần 83 5.2.2 Thử nghiệm lần 87 5.2.3 Thử nghiệm lần 88 5.2.4 Kết lần thử nghiệm 89 KẾT LUẬN 92 TÀI LIỆU THAM KHẢO 95 Phụ lục 97 TÓM TẮT LUẬN VĂN 99 Luận văn Thạc sỹ Support Vector Machine ... phân loại văn 58 PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG PHƯƠNG PHÁP SVM 59 CHƯƠNG PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT 60 4.1 Khai phá văn với Oracle 60 4.2 Phân. .. cách thực SVM Oracle Luận văn Thạc sỹ Support Vector Machine ^3] Từ khoá: khai phá văn bản, phân loại văn bản, SVM, Oracle Text, CSDL Luận văn Thạc sỹ Support Vector Machine ABTRACT of MASTER... đồng thời nêu vấn đề thực phân tách liệu phương pháp SVM luận văn làm thể để tìm siêu phẳng tối ưu Phần phân loại văn sử dụng phương pháp SVM lý SVM đánh giá cao phân loại văn trình bày Chương Trong