Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 99 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
99
Dung lượng
1,44 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINE NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: LƯƠNG THỊ MINH HỒNG Người hướng dẫn khoa học: TS NGUYỄN LINH GIANG HÀ NỘI 2006 ^ ] MỤC LỤC Danh mục ký hiệu, từ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị Mở đầu PHẦN I - CƠ SỞ LÝ THUYẾT 12 CHƯƠNG TÔNG QUAN VỀ KHAI PHÁ VĂN BẢN 13 1.1 Một số khái niệm 13 1.2 Khai phá liệu văn – Text Mining 15 1.3 Phân loại văn 19 1.4 Quy trình phân loại văn 20 1.4.1 Lưu trữ tài liệu 20 1.4.2 Định dạng văn 21 1.4.3 Cấu trúc hoá tài liệu 22 1.4.4 Tách liệu 22 1.4.5 Giảm chiều 23 1.4.6 Mơ hình hố khơng gian vector 25 1.4.7 Giải thuật học máy 26 1.4.8 Thiết lập cấu hình học máy 26 1.4.9 Học tăng cường 26 1.4.10 Hành vi giả thuyết 27 CHƯƠNG SUPPORT VECTOR MACHINE 28 2.1 Động 28 2.1.1 Học máy 28 Luận văn Thạc sỹ Support Vector Machine ^ ] 2.1.2 Lý thuyết học thống kê 30 2.2 Nguyên lý tối thiểu hoá rủi ro cấu trúc 33 2.3 Máy học vector hỗ trợ - SVM 35 2.3.1 SVM với vấn đề tuyến tính 37 2.3.2 Trường hợp phân tách không tuyến tính 39 2.4 Một số phương pháp Kernel 41 2.4.1 Polynomial - Phép toán đa thức 43 2.4.2 Gaussian RBF (Radial Basis Function) 44 2.4.3 RBF mở rộng (Exponential Radial Basis Function) 44 2.4.4 Perceptron đa tầng (multi-Label Perceptron –MLP) 44 2.5 Một số vấn đề SVM 45 2.5.1 Các hàm thiệt hại cho SVM 45 2.5.2 Các vấn đề đa lớp 45 2.5.3 Các vấn đề phân loại đa lớp – đa nhãn 46 2.5.4 Tối ưu hoá siêu phẳng phân tách 46 CHƯƠNG 3: PHÂN LOẠI VĂN BẢN VỚI SVM 56 3.1 Thực phân loại văn với SVM 56 3.2 Ưu điểm sử dụng SVM phân loại văn 58 PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG PHƯƠNG PHÁP SVM 59 CHƯƠNG PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT 60 4.1 Khai phá văn với Oracle 60 4.2 Phân loại văn Oracle Text 62 4.2.1 Các ứng dụng phân loại Oracle Text 63 Luận văn Thạc sỹ Support Vector Machine ^ ] 4.2.2 Phân loại với SVM 65 4.2.3 Phương pháp đánh giá 80 CHƯƠNG TIẾN HÀNH THỬ NGHIỆM 82 5.1 Chuẩn bị liệu 82 5.2 Kiểm thử với Oracle 10g 83 5.2.1 Thử nghiệm lần 83 5.2.2 Thử nghiệm lần 87 5.2.3 Thử nghiệm lần 88 5.2.4 Kết lần thử nghiệm 89 KẾT LUẬN 92 TÀI LIỆU THAM KHẢO 95 Phụ lục 97 TÓM TẮT LUẬN VĂN 99 Luận văn Thạc sỹ Support Vector Machine ^ ] Danh mục ký hiệu, từ viết tắt Từ Tiếng Anh Tiếng Việt CSDL Database Cơ sở liệu DF Document Frequency Tần xuất tài liệu ERM Empirical Risk Minimization Tối thiểu hoá rủi ro theo kinh nghiệm IG Information Gain KDD Knowledge Discovery in Database Khai phá tri thức CSDL KNN K Neighbourhood Nearest K láng giêng gần ODM Oracle Data Mining Khai phá liệu Oracle SVM Support Vector Machine Máy học vector hỗ trợ SRM Structural Risk Minimization Tối thiểu hoá rủi ro cấu trúc VC Vapnik-Chervonenkis Chiều VC Luận văn Thạc sỹ Thu nhận thông tin Support Vector Machine ^ ] Danh mục bảng Bảng 1.1 Bảng ngẫu nhiên cho phân loại cj thuật ngữ fk 24 Bảng 4.1 Bảng thuộc tính SVM_CLASSIFIER 79 Bảng 5.1 Bảng liệu thử nghiệm phân loại 82 Bảng 5.2 Bảng kết thử nghiệm lần 89 Bảng 5.3 Bảng kết thử nghiệm lần 90 Bảng 5.4 Bảng kết thử nghiệm lần 90 Bảng 5.5 Bảng tổng hợp kết thử nghiệm qua lần 90 Luận văn Thạc sỹ Support Vector Machine ^ ] Danh mục hình vẽ, đồ thị Hình 1.1 Các bước tiến trình KDD 14 Hình 1.2 Hoạt động phân loại tập tài liệu 19 Hình 2.1 Mơ hình hố lỗi 30 Hình 2.2 Mơ tả VC Dimension 32 Hình 2.3 Mơ tả phương trình 2.7 34 Hình 2.4 Siêu phẳng phân tách tối ưu siêu phẳng phân tách liệu với margin lớn 37 Hình 2.5 Sử dụng hàm ánh xạ Φ vào không gian đặc trưng F tìm thấy cách sử dụng siêu phẳng tuyến tính (bên phải) 42 Hình 2.6 Siêu phẳng phân tách tối ưu phân tách với lề cực đại 47 Hình 2.7 Khơng gian đặc trưng SV ánh xạ không gian nguồn vào khơng gian đặc trưng nhiều chiều sau xây dựng siêu phẳng tối ưu không gian đặc trưng 54 Hình 4.1 Cấu trúc cuả ứng dụng phân loại văn 63 Hình 4.2 Mơ hình phân loại tổng quan Oracle 72 Hình 4.3 Quy trình đánh số văn 75 Luận văn Thạc sỹ Support Vector Machine ^ ] Mở đầu Phân loại văn tiến trình xếp tài liệu văn vào nhiều phân loại lớp tài liệu tương tự xác định trước Sự khác kết của phân loại từ lựa chọn tập đặc trưng tới kết hợp tài liệu cho với phân loại cho trước Chủ trương nhận dạng phân loại văn xếp tài liệu văn vào phân loại tài liệu với yêu cầu cao để thu nhận nhanh tài liệu cung cấp lĩnh vực người dùng khảo sát sâu tài liệu tương tự Trước đây, hệ thống thu nhận thông tin sử dụng biểu đồ phân loại truyền thống hầu hết giải thuật phân nhóm sử dụng mơ hình khơng gian vector để hình thức hố nhóm tài liệu Gần hơn, nhà nghiên cứu thực sử dụng kỹ thuật học máy để kết hợp tự động tài liệu với phân loại cách sử dụng tập huấn luyện để thông qua phân loại tới tập đặc trưng tập tài liệu đặc biệt Quy trình học máy khởi tạo một kiểm tra tài liệu mẫu để định tập đặc trưng tối thiểu mà sinh kết phân loại mong muốn Giai đoạn huấn luyện kiểm sốt khơng kiểm sốt Trong hai trường hợp tập phân loại định nghĩa quyền ưu tiên, khơng giống phân nhóm mà định nghĩa phân loại dựa đặc trưng tài liệu thực Các kỹ thuật học không kiểm soát sử dụng đặc trưng tài liệu huấn luyện giải thuật định phân loại tài liệu thuộc vào Các kỹ thuật học có kiểm sốt sử dụng tập tài liệu huấn luyện mà kết hợp phân loại để định tập đặc trưng tài liệu tạo kết mong muốn Các kỹ thuật học máy, thành công, cung cấp ưu với tập tài liệu động thông qua qua mơ hình khơng gian vector chuẩn, hướng Luận văn Thạc sỹ Support Vector Machine ^ ] dẫn tài liệu tập tài liệu không yêu cầu xây dựng lại ma trận vector tài liệu Với số lượng thông tin ngày tăng sinh giao dịch thương mại nhà nghiên cứu có nhu cầu cho giải thuật xác nhanh để phân tích liệu Các cải tiến kỹ thuật CSDL, thực tính tốn trí tuệ nhân tạo xây dựng để phát triển phân tích liệu thông minh Dữ liệu giới thực thường đặc tính hố cách có số lớn ví dụ, ví dụ hàng tỷ giao dịch thẻ tín dụng ,…Quan hệ biến dự đốn ký hiệu vật lý khái niệm đích,… thường khơng tuyến tính Một kỹ thuật gần phát triển để thu nhận vấn đề SVM SVM phát triển công cụ thô để phân loại hồi quy lĩnh vực phức tạp đa dạng Các CSDL thương mại đại phát triển làm tăng khả phân tích Kỹ thuật khai phá văn trở nên chủ yếu để phân tích khối lượng lớn liệu Các kỹ thuật khai phá tài liệu đưa kết xác cao tổng q hố cho tập liệu Tuy nhiên, kết thu có chất lượng cao yêu cầu mức độ chuyên nghiệp người dùng SVM giải thuật khai phá văn mạnh giải vấn đề mà không cần phương pháp thống kê truyền thống Tuy nhiên, số giới hạn độ phức tạp phương pháp luận, khả linh hoạt, cài đặt sản phẩm SVM có chất lượng thấp Luận văn mô tả cách thực SVM nhằm vào tính dễ sử dụng khả linh hoạt trì tính xác cao SVM hợp vào CSDL Oracle dễ dàng khai phá văn CSDL với việc hỗ trợ liệu CSDL CSDL thực phân loại với liệu gồm nhiều phân loại tài liệu thuộc nhiều phân loại khác Luận văn Thạc sỹ Support Vector Machine ^ 10 ] Với liệu thông tin CSDL ngày lớn với yêu cầu thực tế ứng dụng phân loại văn đa lớp đa nhãn nên luận văn tác giả tập trung nghiên cứu vấn đề phân loại văn phương pháp SVM thử nghiệm với liệu gồm nhiều phân loại khác bên CSDL Trong phần thực nghiệm, thử nghiệm với văn đưa vào CSDL Oracle, đồng thời thực thử nghiệm giải thuật SVM hợp Oracle với phiên Oracle 10g Release Nội dung luận văn chia thành phần Phần 1: Cơ sở lý thuyết vấn đề nêu Phần tổ chức với chương Chương giới thiệu tổng quan Khai phá văn Chương tác giả trình bày trình hình thành SVM, nội dung giải thuật SVM số vấn đề phân loại với SVM Chương trình bày khái niệm phân loại văn lý SVM lại lựa chọn cho phân loại văn Phần 2: mô tả phương pháp luận khai phá văn với Oracle, phương pháp để thực phân loại văn Oracle với giải thuật SVM Phần tổ chức thành chương Chương trình bày phương pháp luận khai phá văn Oracle Chương báo cáo số kết thử nghiệm liệu văn với giải thuật SVM CSDL Oracle 10g Ngoài ra, phần cuối là: Kết luận định hướng nghiên cứu phát triển luận văn Luận văn Thạc sỹ Support Vector Machine ^ 85 ] Bước 4: Thiết lập kiểu tham chiếu tới giải thuật SVM thay đổi tham số thực tương ứng Việc thiết lập sử dụng thủ tục huấn luyện Oracle hỗ trợ EXEC CTX_DDL.CREATE_PREFERENCE( ‘Reuter_5_Classifier’, 'SVM_CLASSIFIER'); EXEC CTX_DDL.SET_ATTRIBUTE ('Reuter_5_Classifier', 'MAX_FEATURES','100'); Bước 5: Tạo bảng để lưu nguyên tắc (rule) phân loại Bảng sinh trình huấn luyện CREATE TABLE Result_5_Table ( Cat_ID NUMBER, Type NUMBER(3) NOT NULL, Rule BLOB); Bước 6: Tiến hành huấn luyện liệu với bảng chuẩn bị liệu tham số thiết lập EXEC CTX_CLS.TRAIN ( 'Reuter_5_Index', 'ID', 'Category_Training', 'Doc_ID', 'Cat_ID', 'Result_5_Table', 'Reuter_5_Classifier'); Bước 7: Tạo số CTXRULE bảng lưu nguyên tắc phân loại sinh trình phân loại Luận văn Thạc sỹ Support Vector Machine ^ 86 ] EXEC CTX_DDL.CREATE_PREFERENCE( 'Reuter_5_Filter', 'NULL_FILTER'); CREATE INDEX Restabx_Docs ON Result_5_Table(Rule) INDEXTYPE IS CTXSYS.CTXRULE PARAMETER ('FILTER Reuter_5_Filter CLASSIFIER Reuter_5_Classifier'); Bước 8: Thực kiểm thử liệu với bảng nguyên tắc sinh sau trình huấn luyện - Tạo bảng đưa nội dung tài liệu khơng giống để chuẩn bị kiểm thử mơ hình huấn luyện CREATE TABLE Testing_5 AS SELECT TO_NUMBER(Doc_ID) Doc_ID, Docs FROM Test_Top5 a WHERE ID = (SELECT ID FROM Test_Top5 b WHERE b.Doc_ID = a.Doc_ID and rownum=1); Kết bảng Testing_5 có 2310 tài liệu khác để kiểm thử - Thực thử nghiệm phân loại ứng với nguyên tắc theo phân loại huấn luyện cách sử dụng toán tử MATCHES CREATE TABLE Test_5 AS SELECT Result_5_Table.Cat_ID, MATCH_SCORE(1) Score, Testing_5.Doc_ID FROM Result_5_Table, Testing_5 WHERE Luận văn Thạc sỹ Support Vector Machine ^ 87 ] MATCHES(Result_5_Rable.Rule, Testing_5.Docs,1) > 0; kết bảng Test_5 có 8461 dịng, với tài liệu cần phân loại có thể có nhiều phân loại khác Việc tài liệu có nhiều phân loại khác tính điểm tương tự tài liệu kiểm với nguyên tắc phân loại, tác giả lấy tất cần có điểm lớn có nghĩa có tương ứng đặc trưng - Để loại bớt phân loại thừa, số phân loại tài liệu tác giả lấy tài liệu có điểm cao CREATE TABLE Highest_Score AS SELECT DISTINCT a.Doc_ID, a.Cat_ID, a.Score FROM Test_5 a, (SELECT Doc_ID, MAX(Score) Score FROM Test_5 GROUP BY Doc_ID ) b WHERE a.Doc_ID = b.Doc_ID and a.Score =b.Score; kết bảng Highest_Score có 2313 dịng tài liệu tập kiểm thử nằm phân loại, bảng có cặp tài liệu – phân loại (1 tài liệu thuộc phân loại) có điểm 5.2.2 Thử nghiệm lần Các bước thực lần thử nghiệm với MAX_FEATURE =1000 tương tự tất bước lần kiểm thử bước 4, ta thiết lập tham số có mơ hình phân loại EXEC CTX_DDL.CREATE_PREFERENCE( ‘Reuter_5_Classifier’, 'SVM_CLASSIFIER'); EXEC CTX_DDL.SET_ATTRIBUTE ('Reuter_5_Classifier', Luận văn Thạc sỹ Support Vector Machine ^ 88 ] 'MAX_FEATURES','1000'); thực thay đổi với chữ màu xanh Kết liệu bảng: - Các bảng Training_5, Category_Training , Testing_5 Testing_Top5 giống tất lần thử nghiệm sử dụng chung tập liệu huấn luyện kiểm thử - Bảng Test_5 có 11436 dịng, bảng Highest_Score có 2314 (có cặp tài liệu - phân loại có điểm nhau) 5.2.3 Thử nghiệm lần Thực thử nghiệm với MAX_FEATURE =1000 sử dụng bảng từ dừng tiếng Anh khác với 509 từ dừng (Phụ lục 1) Bước đưa bảng danh sách từ dừng tiếng Anh vào vào bảng từ dừng Oracle, sử dụng số thủ tục dựng sẵn để dưa danh sách từ dừng vào CSDL Các bước thực tương tự bước giống lần bước 3, sử dụng danh sách từ dừng việc đánh số cho nội dung văn bản, sau: CREATE INDEX Reuter_5_Index ON Training_5(Doc_Text) INDEXTYPE IS CTXSYS.CONTEXT PARAMETERS(‘STOPLIST SVM.English_Stoplist1 NONPOPULATE’); - Tiếp theo bước 7, thêm đối số danh sách từ dừng với bảng lưu nguyên tắc phân loại CREATE INDEX Restabx_Docs ON Result_5_Table(Rule) INDEXTYPE IS CTXSYS.CTXRULE PARAMETER (' STOPLIST SVM.English_Stoplist1 FILTER Reuter_5_Filter Luận văn Thạc sỹ Support Vector Machine ^ 89 ] CLASSIFIER Reuter_5_Classifier'); - Kết bảng liệu phân loại kiểm thử sau: Bảng Test_5 có 11438 dịng, bảng Highest_Score có 2311 (chỉ có cặp tài liệu - phân loại có điểm nhau) 5.2.4 Kết lần thử nghiệm Tất kết thử nghiệm lấy từ phân loại có điểm cao với tài liệu tập kiểm thử lần thử nghiệm Lần 1: MAX_FEATURE =100 Earn Acq Money_fx Grain Earn 1071 12 1087 Acq 34 653 14 14 721 Money_fx 24 132 19 179 Grain 11 10 116 148 Crude 15 162 192 1118 715 150 159 185 2327 Tổng số Crude Tổng số Bảng 5.2 Bảng kết thử nghiệm lần Từ bảng tính được: Số lỗi E = 193, tổng số mẫu: 2327 Vậy tỷ lệ lỗi: R = E / S = 193/2327 = 0.083 Độ xác A: A= 1- R = (S - E) / S =0.917 Lần 2: Max feature =1000 (tăng số đặc trưng) Earn Acq Money_fx Grain Crude Tổng số Earn 1076 10 0 1087 Acq 18 692 1 721 Money_fx 174 180 Grain 3 142 150 Luận văn Thạc sỹ Support Vector Machine ^ 90 ] 181 189 1100 714 177 143 193 2327 Crude Tổng số Bảng 5.3 Bảng kết thử nghiệm lần Số lỗi E = 62, tổng số mẫu: 2327 Vậy tỷ lệ lỗi: R = E / S = 193/2327 = 0.029 Độ xác A: A= 1- R = (S - E) / S =0.971 Lần 3: dùng bảng từ dừng với: 509 MAX_FEATURE=1000 Earn Acq Money_fx Grain Crude Tổng số Earn 1074 11 1 1087 Acq 15 696 1 720 Money_fx 175 0 179 Grain 142 149 Crude 178 189 1095 717 182 143 187 2324 Tổng số Bảng 5.4 Bảng kết thử nghiệm lần tổng số mẫu: 2324 Số lỗi E = 56, Vậy tỷ lệ lỗi: R = E / S = 193/2327 = 0.024 Độ xác A: A= 1- R = (S - E) / S =0.976 Tổng hợp: Đưa kết vào bảng ta có: Tham số Số đặc trưng Tỷ lệ lỗi Chính xác Từ dừng 100 114 0.083 0.917 1000 114 0.029 0.971 1000 509 0.024 0.976 Bảng 5.5 Bảng tổng hợp kết thử nghiệm qua lần Luận văn Thạc sỹ Support Vector Machine ^ 91 ] Một số nhận xét phương pháp SVM Oracle: SVM Oracle sử dụng phương pháp phân tích thống kê văn tập tài liệu tương quan chúng với nhóm theo nội dung Ưu điểm: - Không cần cung cấp nguyên tắc phân loại tài liệu mẫu tập huấn luyện - Trợ giúp việc phát mẫu tính tương tự nội dung tập tài liệu mà tài liệu bị bỏ sót - Thực tế, sử dụng phân loại khơng kiểm sốt khơng có ý tưởng ngun tắc phân loại Một kịch sử dụng phân loại học khơng kiểm sốt để cung cấp tập phân loại ban đầu sau sử dụng phân loại có kiểm sốt Nhược điểm: - Phân nhóm có kết nhóm khơng mong muốn hành động phân nhóm khơng định nghĩa, dựa giải thuật bên - Không thấy nguyên tắc để tạo phân loại - Hành động phân loại cần nhiều CPU thời gian đánh số Luận văn Thạc sỹ Support Vector Machine ^ 92 ] KẾT LUẬN Trong luận văn chúng tơi trình bày khái niệm bước để xây dựng hệ thống phân loại văn Chúng đâ tập trung tìm hiểu sâu phương pháp phân loại mà nhà chuyên môn đánh giá cao Support Vector Machines Chúng tơi tìm hiểu sở lý thuyết, nội dung cách tiếp cận, vấn đề phân tách tuyến tính, khơng tuyến tính sử dụng SVM Cách tiếp cận SVM phân loại quan tâm độ xác cách giải với vấn đề đa lớp, đa nhãn phân loại Các cách tiếp cận với phân loại văn thường có suy nghĩ văn file văn Mircosoft Word hay trang điện tử, phần thông tin thời kỳ mà liệu có nơi, nơi lưu trữ văn liệu phi cấu trúc lưu CSDL lĩnh vực Hãng CSDL hàng đầu nay, Oracle, thực hỗ trợ phân loại văn phương pháp SVM văn lưu dạng file hệ thống, đường dẫn liên kết tới trang WEB hay nội dung văn lưu CSDL Các văn lưu CSDL Oracle trường có kiểu liệu CLOB, BLOB VARCHAR Với việc sử dụng SVM Oracle, người dùng thực phân loại với tài liệu thuộc nhiều phân loại phân loạicũng có nhiều tài liệu; vấn đề đa lớp – đa nhãn đề cập Luận văn dừng lại phần lý thuyết thực thử nghiệm với phân loại tiếng Anh CSDL Dữ liệu thực nghiệm sử dụng liệu Reuter-21578 với cách phân loại Mode Aprit với chuyên dùng để kiểm thử phương pháp phân loại đo xác chúng Bộ Luận văn Thạc sỹ Support Vector Machine ^ 93 ] liệu gồm 9603 tài liệu huấn luyện 3299 tài liệu kiểm thử chia sẵn vào 90 phân loại cho trước Và để dễ theo dõi kết kiểm thử, chúng tơi sử dụng phân loại có số liệu huấn luyện kiểm thử lớn để kiểm thử kết Chúng thử nghiệm phân loại với cách thiết lập tham số khác Oracle Qua thử nghiệm thu kết khả quan với phương pháp phân loại SVM tích hợp Oracle 10g (tham khảo chương 5, mục 5.2.4 để xem kết lần thực nghiệm phân loại Các kết đạt luận văn: Trình bày tổng quan khai phá văn bản, bước thực phân loại văn Tìm hiểu sở lý thuyết phương pháp SVM, nêu vấn đề phân tách đa lớp đa nhãn, phân tích ưu điểm phương pháp phân loại văn SVM Tìm hiểu cách thực phân loại phương pháp bên Oracle 10g với văn đưa CSDL Oracle với liệu đa lớp đa nhãn Thực thử nghiệm Oracle đánh giá kết sau lần thử nghiệm Các định hướng phát triển luận văn: Tìm hiểu, nghiên cứu khai thác rộng sâu tri thức lý thuyết khai phá văn đặc biệt lĩnh vực KDD để vận dụng vào thực tiễn xác Thử nghiệm đánh giá kỹ với liệu thuộc lĩnh vực khác Luận văn Thạc sỹ Support Vector Machine ^ 94 ] Tìm hiểu thêm phương pháp đánh giá kết khác để đưa đánh giá khách quan việc sử dụng phương pháp phân loại văn Kết hợp với chuyên gia ngôn ngữ tiếng Việt, đồng thời tìm hiểu thêm cách thức phân loại với ngôn ngữ tự nhiên khác tiếng Anh để áp dụng phân loại văn phương pháp SVM CSDL Oracle cách hiệu hơn, đặc biệt với văn tiếng Việt Luận văn Thạc sỹ Support Vector Machine ^ 95 ] TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Linh Giang, Nguyễn Mạnh Hiền (2004), Phân loại văn tiếng Việt với phân loại vector hỗ trợ, Bài báo khoa học, Hà nội Nguyễn Thị Kim Ngân (2004), Phân loại văn tiếng Việt phương pháp Support Vector Machines, Luận văn thạc sĩ khoa học Công nghệ thông tin, trường Đại học Bách Khoa Hà nội, Hà nội Tiếng Anh Filippo Portera (4/2005), Loss Functions and Structured Domains for Support Vector Machines, Technique Report UBLCS-2005-08, Departement of Computer Science University of Bologna, Bologna (Italy) Oracle (6/2005), Oracle® Text Application Developer's Guide 10g Release 2(10.2), Technique paper Oracle (6/2005), Oracle® Text Reference 10g Release 2(10.2), Technique paper Oracle (6/2005), Oracle® Data mining Concepts 10g Release 2(10.2), Technique paper Brian C Lovell and Christian J Walder, Support Vector Machines for Business Applications, The University of Queensland and Max Planck Institute, Tübingen Thorsten Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, University at Dortmund Informatik LS8, Baroper Str 301 44221 Dortmund, Germany Kurt Maly, Mohammad Zubair, Hesham Anan, An Automated Classification System and Associated Digital Library Services, Luận văn Thạc sỹ Support Vector Machine ^ 96 ] Department of Computer Science, Old Dominion University, Norfolk, VA 23529, USA 10 Boriana L Milenova, SVM in Oracle Database 10g: Removing the Barriers to Widespread Adoption of Support Vector Machines, Data Mining Technologies Oracle 11 Steve R Gunn (10 May 1998), Support Vector Machines for Classification and Regression, Technical Report, Faculty of Engineering, Science and Mathematics School of Electronics and Computer Science, University of Southamton, English 12 Oracle, Oracle Text 9.2.0 Technical Feature Review, http://blog.empas.com/barexem/read.html?a=10830469 13 Oracle, Oracle Text 10g Technical Overview, http://www.oracle.com/technology/products/text/x/10g_tech_overview.ht ml 14 Ken Williams (March 18, 2003), A Framework for Text Categorization, Master of Engineering (Research),School of Electrical and Information Engineering The University of Sydney, Australia 15 Vladimir N Vapnik (1999), The Nature of Statistical Learning Theory Second Edition, Springer 16 Mehmed Kantardzic (2003), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons Dữ liệu thử nghiệm 17 C.J van Rijsbergen, Some Examples of Stoplist, SMART, English Stoplist 18 Aptè split, Aptè split 90 categories, Reuters-21578 collection Aptè split Luận văn Thạc sỹ Support Vector Machine ^ 97 ] Phụ lục DANH SÁCH TỪ DỪNG TIẾNG ANH a's able about above according accordingly across actually after afterwards again against ain't all allow allows almost alone along already also although always am among amongst an and another any anybody anyhow anyone anything anyway anyways anywhere apart appear appreciate cannot cant cause causes certain certainly changes clearly co com come comes concerning consequently consider considering contain containing contains corresponding could couldn't course currently d definitely described despite did didn't different does doesn't doing don't done down downwards during e Luận văn Thạc sỹ given gives go goes going gone got gotten greetings h had hadn't happens hardly has hasn't have haven't having he he's hello help hence her here here's hereafter hereby herein hereupon hers herself hi himhimself his hither hopefully how howbeit however least less lest let let's like liked likely little look looking looks ltd m mainly many may maybe me mean meanwhile merely might more moreover most mostly much must my myself n name namely nd near nearly necessary need needs neither p particular particularly per perhaps placed please plus possible presumably probably provides q que quite qv r rather rd re really reasonably regarding regardless regards relatively respectively right ssaid same saw say saying says second secondly see seeing seem seemed seeming thank thanks thanx that that's thats the their theirs them themselves then thence there there's thereafter thereby therefore therein theres thereupon these they they'd they'll they're they've think third this thorough thoroughly those though three through throughout thru thus to together Support Vector Machine ^ 98 ] appropriate are aren't around as aside ask asking associated at available away awfully b be became because become becomes becoming been before beforehand behind being believe below beside besides best better between beyond both brief but by c c'mon c's came can can't each edu eg eight either else elsewhere enough entirely especially et etc even ever every everybody everyone everything everywhere ex exactly example except f far few fifth first five followed following follows for former formerly forth four from further furthermore g get gets getting Luận văn Thạc sỹ i i'd i'll i'm i've ie if ignored immediate in inasmuch inc indeed indicate indicated indicates inner insofar instead into inward is isn't it it'd it'll it's its itself j just k keep keeps kept know knows known l last lately later latter latterly never nevertheless new next nineno nobody non none noone nor normally not nothing novel now nowhere o obviously of off often oh ok okay old on once one ones only onto or other others otherwise ought our ours ourselves out outside over overall own seems seen self selves sensible sent serious seriously seven several shall she should shouldn't since six so some somebody somehow someone something sometime sometimes somewhat somewhere soon sorry specified specify specifying still sub such sup sure t t's take taken tell tends th than too took toward towards tried tries truly try trying twice two u un under unfortunately unless unlikely until unto up upon us use used useful uses using usually uucp v value various very via viz vs w want wants was wasn't way we we'd we'll Support Vector Machine ^ 99 ] TĨM TẮT LUẬN VĂN Mục tiêu luận văn tìm hiểu lĩnh vực khai phá văn bản, tập trung nghiên cứu lý thuyết thử nghiệm liệu có sẵn ứng dụng phân loại văn phương pháp Support Vector Machines Trong phần lý thuyết, tác giả giới thiệu tổng quan khai phá văn bản, dạng toán lĩnh vực khai phá văn hai phần đầu chương 1, đề cập tới khai phá tri thức CSDL Trong hai phần cuối chương 1, tác giả trình bày cụ thể lý thuyết toán phân loại văn bước thực để phân loại văn Chương thể nội dung lý thuyết phương pháp SVM, cách thực SVM với trường hợp phân tách tuyến tính khơng tuyến tích; chương giới thiệu số hàm kernel sử dụng đồng thời nêu vấn đề thực phân tách liệu phương pháp SVM với vấn đề đa lớp, đa nhãn luận văn làm thể để tìm siêu phẳng tối ưu Phần phân loại văn với phương pháp SVM lý SVM đánh giá cao phân loại văn trình bày Chương Trong phần thực nghiệm, tác giả lựa chọn Oracle 10g phiên môi trường thử nghiệm Oracle Text công cụ để thực Yếu tố để tác giả lựa chọn Oracle Text để thực thử nghiệm liệu huấn luyện kiểm thử CSDL bên ngồi CSDL, phi cấu trúc có cấu trúc Dữ liệu thử nghiệm lựa chọn thử nghiệm liệu Reuter-21578, gồm 90 phân loại dựng sẵn Chương 4, tác giả tập trung tìm hiểu trình bày mơ hình hoạt động để thực phân loại văn phương pháp SVM Oracle, phần cuối Chương kết lần thử nghiệm với đối số khác kết luận đánh giá cách thực SVM Oracle Từ khoá: khai phá văn bản, phân loại văn bản, SVM, Oracle Text, CSDL Luận văn Thạc sỹ Support Vector Machine ... dựng ứng dụng phân loại văn 1.4.10 Hành vi giả thuyết Hầu hết phương pháp phân loại văn chuẩn cho mục tiêu phân loại văn gán tài liệu tới nhiều phân loại, ngược lại coi phân loại nhị phân Tất nhiên,... phân loại văn 58 PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG PHƯƠNG PHÁP SVM 59 CHƯƠNG PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT 60 4.1 Khai phá văn với Oracle 60 4.2 Phân. .. dụng phân loại văn 63 Hình 4.2 Mơ hình phân loại tổng quan Oracle 72 Hình 4.3 Quy trình đánh số văn 75 Luận văn Thạc sỹ Support Vector Machine ^ ] Mở đầu Phân loại văn tiến trình xếp tài liệu văn